미국의 Assembly AI사는 Conformer-1 이라는 아키텍처를 음성인식에 적용하여 좋은 성과를 이루었다고 블로그를 통해 설명하였습니다.
Conformer-1모델은 Transformer 모델과 Convolutional 모델의 장점을 합친 것이라고 소개하고 있습니다.
Conformer모델은 2020년에 구글브레인(Google Brain)을 통해 소개된 음성인식용 신경망 체계입니다.
Conformer모델 내의 Transformer Archtecture는 병렬화 및 Attention mechanisim의 장정이 있다고 이미 알려져 있습니다.
Convolutional layer들을 Transformer 구조에 추가를 함으로써, Conformer모델은 지협적인(Local) 요소 및 전역(Global)적인 특성을 모두 모델링할 수 있다는 특성을 가지게 됩니다. ( 2000년도경에 나타난 Wavelet 처럼, Wavelet을 통한 분석은 기존의 Fourier Transform을 통한 주파수 분석보다 다양한 스케일로 분석을 수행할 수 있었죠.)
Assembly AI는 Conformer architecture는 최고의 성능을 나타내지만, 연산량 및 메모리 사용량을 줄여 효율성이 증대되었다고 합니다.
650,000시간의 데이터를 통해 인간 수준의 성능에 도달하였고, 다양한 형태의 데이터 특히 잡음이 섞인 데이터에 대해 높은 성능을 나타냈다고 설명하고 있습니다.
구체적인 사항은
https://www.assemblyai.com/blog/conformer-1/
에서 확인할 수 있습니다.
기계번역에서는 Transformer모델과 CNN기반의 모델이 상용화 측면에서 경쟁을 하고 있습니다.
'음성인식' 카테고리의 다른 글
음성인식의 응용 분야 /feat LLM(Large Language Model) (0) | 2023.10.20 |
---|---|
Pytorch 2.0 vs Tensorflow 사용량( 모델개수 측면) (0) | 2023.05.08 |
음성인식 API 사용해 보기( 자막생성 포함) (1) | 2023.01.20 |
한국어 종단형 음성인식엔진( End-To-End Speech Recognition System for Korean Language) (0) | 2023.01.16 |
프랑스 국영열차(SNCF) 안내 방송 음원 (0) | 2022.01.23 |