원본 URL :
요약
- VoiceFilter-Lite( 이미지필터링, 주파수 필터링 처럼 특정 보이스만 필터링 후에 남기고자하는 모듈이며, 저사양 CPU환경에서도 수행되도록)
- Single-channel source separation(즉 단일 마이크, 휴내폰처럼)
- Preserve only the speech signals from a target user
( 칵테일파티 문제처럼, 여러 화자가 동시에 발성할 경우에 특정 한 화자의 음성만 음성인식기에 전달한다. 단, 목적화자의 발성은 미리 등록되어 있어야 한다.)
- as part of a streaming speech recognition system
( 음성인식엔진과 별개 모듈이다. 즉 단독으로 전처리하는 모듈이다. 인식엔진과 동시에 딥러닝모델링할 수도 있지만, 사용자(target user)가 없는 경우 즉, 등록을 하지 않을 경우가 있기 때문에, 별개 단독모듈로, 스크리밍방식이므로 실시간적 처리를 강조함. 즉 녹음을 다 받거나 미리 녹음된 음성데이터에 대한 처리가 아니다.)
- It should improve the performance when the input signal consistsof overlapped speech( 동시 발성이 있는 음성입력에 대한 성능은 물론 향상시킬 수 있어야 하며)
- and must not hurt the speech recognition performance under all other acoustic conditions.( 동시발성이 없거나, 잡음 요소가 없는 환경에서도 그 성능이 보존 또는 향상되어야 한다.)
(새로운 loss function과 supression을 조절하는 것을 제안 적ㅇㅇ용함)
- This model must be tiny, fast and performance in a streaming fashion( full precion에 비해 큰 성능저하 없이 8bit 정수형으로 처리하여, 모델 용량 및 수행 속도를 향상시킴.)
Result
- 동시발성이 있는 데이터에 대해, WER를 상대적으로 50%를 줄인다.(절대수치로는 약 25%p)
- Clean(잡음이 없는) 데이터에 대해, 성능 저하를 유발시키지 않는다.
개인의견
- 성능은 시장에서 원하는 동시발성이 있는 상황에서도 클린 환경만큼의 성능에는 좀 더 R&D가 진행되어야..(후속 연구결과는 나올 것으로 기대함)
- 다중 마이크 어레이를 쓰지 않아서, 디바이스 환경 구축에 용이.
- 화자인식이나 화자별 음성데이터 분리에 사용되는 특징벡터를 활용.
- 필터뱅크의 특징벡터에 대해, 필터링 적용.( 이미 등록된 화자의 특성만 남김.)
- 카페나 회의에서, 인간은 특정 사람의 목소리에 집중할 수 있는데, 이러한 특성에 상당히 접근한 기술로 여겨짐.
'음성인식' 카테고리의 다른 글
Conformer Architecture for ASR (0) | 2023.03.22 |
---|---|
음성인식 API 사용해 보기( 자막생성 포함) (1) | 2023.01.20 |
한국어 종단형 음성인식엔진( End-To-End Speech Recognition System for Korean Language) (0) | 2023.01.16 |
프랑스 국영열차(SNCF) 안내 방송 음원 (0) | 2022.01.23 |
[AI-HUB][공개음성데이터] 어린이 음성데이터 세트 (0) | 2022.01.14 |