1. 처리/모델링 단위(Unit)
- 한국어는 11,172개의 음절( 참조 : 영어 26개의 알파벳, 일본어 50글자 )
2. 모델링 방법( 서강대 김지환 교수 )
- 49개의 한글 자소로 모델링, 10.02% CER, w/ 740 시간의 음성데이터.
- ( 자소를 음절로 만들기, 자소 중간마다 있는 블랭크는 CER 측정에서 제외되었겠죠? )
3. 아키텍처 ( CTC attention network )
- CTC + encoder-decoder network with attention
3.1 CTC ( Connectionist temporal classification )
:: a sequence training model
:: forward-backward algorithm
:: DTW 와 뭐가 다른가?
3.2 Encoder-Decoder network with Attention
:: 기계번역에서 늘리 쓰이는 네트워크
:: 필자는 기계번역은 시간적 흐름이 없는 점(dot)의 데이터로 여깁니다. 반면, 음성인식은 시간적 흐름( x축의 time)이 있다. 즉 선(line)의 정보가 있다.
:: 뭔가 Sequential 한 것을 모델링 및 추론한다. 기계번역은 글자이니 입력과 출력이 보여(Visualization)서 조금 이해하기 쉽낟.
:: 음성인식은 특징벡터가 입력이 된다. 특징벡터(Feature Vector)가 Sequential하다.라고 전개한다.
:: 기계번역은 자질벡터라고 한다. 낱 글자가 아니고 Word-Embedding에 의한 벡터이다.
:: 입력을 보변 음성인식이나 기계번역이나 Vector개념으로 Sequential하게 처리한다는 것은 동일하다.
:: 그럼, 음성인식에서 왜 CTC가 앞단에 있는가?
:: 정보가 Sequential하다는 것과 그 Sequential한 것을 alignment하는 기법은 다르다?
:: 서강대 논문은 attention model은 non-sequential alignment 의 특성인데, 음성은 monotonic alignment라고 한다. 음성의 stationary/non-stationary 특성을 말하는 것인가? 기계번역의 non-sequntial alignment의 예는 한국어와 영어의 번역처럼 어순이 다를 때 확연히 나타난다.
4. 아키텍처 ( Hybrid CTC-Attention Model )
:: 저자는 음성의 monotonic alignment를 지원하는 CTC-Attention모델의 아류로 설명한다.
:: 기본적으로 Attention모델이 non-sequential 즉 저 뒤쪽에 위치한 것과 attention이 맞을 수 있는데(어순이 다른 언어의 번역, 한국어->영어). 음성 특성을 반영한 monotonic 의 한정적 용도로 활용하여, 더 구체적으로 모델링하는 것이다.
:: 즉 CTC-Objective function이 Attention이 모델링 될 때에, monotonic하게 동작하도록 한다. ( 메인 아이디어 )
:: 목적함수 값이 단조 증가하도록 한다는 뜻인가? 어떻게 2개의 네트워크를 Joint하게 연결시키지?
5. 모델링 output
- DNN/HMM : HMM states
- CTC attention : phoneme or characters ( or graphemes)
[참고문헌]
1. 서강대 김지환 교수 : https://journals.riverpublishers.com/index.php/JWE/article/view/4955/10439
'음성인식' 카테고리의 다른 글
Conformer Architecture for ASR (0) | 2023.03.22 |
---|---|
음성인식 API 사용해 보기( 자막생성 포함) (1) | 2023.01.20 |
프랑스 국영열차(SNCF) 안내 방송 음원 (0) | 2022.01.23 |
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition : REVIEW (0) | 2022.01.21 |
[AI-HUB][공개음성데이터] 어린이 음성데이터 세트 (0) | 2022.01.14 |