728x90
반응형

 

1. 처리/모델링 단위(Unit)

      - 한국어는 11,172개의 음절( 참조 : 영어 26개의 알파벳, 일본어 50글자 )

 

2. 모델링 방법( 서강대 김지환 교수 )

     -  49개의 한글 자소로 모델링,   10.02% CER,   w/ 740 시간의 음성데이터.

     - ( 자소를 음절로 만들기,   자소 중간마다 있는 블랭크는 CER 측정에서 제외되었겠죠? )

 

3. 아키텍처 ( CTC attention network )

     -    CTC + encoder-decoder network with attention

     3.1     CTC ( Connectionist temporal classification )

              ::  a sequence training model

               :: forward-backward algorithm

              ::  DTW 와 뭐가 다른가?

     3.2   Encoder-Decoder network with Attention

              :: 기계번역에서 늘리 쓰이는 네트워크

              ::  필자는 기계번역은 시간적 흐름이 없는  점(dot)의 데이터로 여깁니다. 반면, 음성인식은 시간적 흐름( x축의 time)이 있다. 즉 선(line)의 정보가 있다.

              ::  뭔가 Sequential 한 것을 모델링 및 추론한다.  기계번역은 글자이니  입력과 출력이 보여(Visualization)서 조금 이해하기 쉽낟.

              :: 음성인식은 특징벡터가 입력이 된다.  특징벡터(Feature Vector)가  Sequential하다.라고 전개한다.

              :: 기계번역은 자질벡터라고 한다.   낱 글자가 아니고 Word-Embedding에 의한 벡터이다.

              :: 입력을 보변  음성인식이나 기계번역이나  Vector개념으로  Sequential하게 처리한다는 것은 동일하다.

              :: 그럼, 음성인식에서 왜 CTC가 앞단에 있는가?

              :: 정보가 Sequential하다는 것과  그 Sequential한 것을 alignment하는 기법은 다르다?

              :: 서강대 논문은    attention model은  non-sequential alignment 의 특성인데, 음성은 monotonic alignment라고 한다.    음성의 stationary/non-stationary 특성을 말하는 것인가?   기계번역의 non-sequntial alignment의 예는  한국어와 영어의 번역처럼 어순이 다를 때 확연히 나타난다. 

 

 

4. 아키텍처 ( Hybrid CTC-Attention Model )

         ::  저자는 음성의 monotonic alignment를 지원하는 CTC-Attention모델의 아류로 설명한다.

         ::  기본적으로 Attention모델이 non-sequential 즉 저 뒤쪽에 위치한 것과 attention이 맞을 수 있는데(어순이 다른 언어의 번역, 한국어->영어).   음성 특성을 반영한 monotonic 의 한정적 용도로 활용하여,  더 구체적으로 모델링하는 것이다. 

        ::  즉 CTC-Objective function이  Attention이 모델링 될 때에, monotonic하게 동작하도록 한다. ( 메인 아이디어 )

        ::  목적함수 값이 단조 증가하도록 한다는 뜻인가? 어떻게 2개의 네트워크를 Joint하게 연결시키지?

 

 

 

5. 모델링 output

     -   DNN/HMM  :   HMM  states

     -   CTC attention :   phoneme or characters ( or graphemes) 

 

 

 

 

 

 

 

 

[참고문헌]

 1. 서강대 김지환 교수 :    https://journals.riverpublishers.com/index.php/JWE/article/view/4955/10439

728x90
반응형

+ Recent posts