728x90
반응형

원본 URL :

VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition (google.github.io)

요약

- VoiceFilter-Lite( 이미지필터링, 주파수 필터링 처럼 특정 보이스만 필터링 후에 남기고자하는 모듈이며, 저사양 CPU환경에서도 수행되도록)

- Single-channel source separation(즉 단일 마이크, 휴내폰처럼)

- Preserve only the speech signals from a target user

( 칵테일파티 문제처럼, 여러 화자가 동시에 발성할 경우에 특정 한 화자의 음성만 음성인식기에 전달한다. 단, 목적화자의 발성은 미리 등록되어 있어야 한다.)

- as part of a streaming speech recognition system

( 음성인식엔진과 별개 모듈이다. 즉 단독으로 전처리하는 모듈이다. 인식엔진과 동시에 딥러닝모델링할 수도 있지만, 사용자(target user)가 없는 경우 즉, 등록을 하지 않을 경우가 있기 때문에, 별개 단독모듈로, 스크리밍방식이므로 실시간적 처리를 강조함. 즉 녹음을 다 받거나 미리 녹음된 음성데이터에 대한 처리가 아니다.)

- It should improve the performance when the input signal consistsof overlapped speech( 동시 발성이 있는 음성입력에 대한 성능은 물론 향상시킬 수 있어야 하며)

- and must not hurt the speech recognition performance under all other acoustic conditions.( 동시발성이 없거나, 잡음 요소가 없는 환경에서도 그 성능이 보존 또는 향상되어야 한다.)

(새로운 loss function과 supression을 조절하는 것을 제안 적ㅇㅇ용함)

- This model must be tiny, fast and performance in a streaming fashion( full precion에 비해 큰 성능저하 없이 8bit 정수형으로 처리하여, 모델 용량 및 수행 속도를 향상시킴.)

Result

- 동시발성이 있는 데이터에 대해, WER를 상대적으로 50%를 줄인다.(절대수치로는 약 25%p)

- Clean(잡음이 없는) 데이터에 대해, 성능 저하를 유발시키지 않는다.

개인의견

- 성능은 시장에서 원하는 동시발성이 있는 상황에서도 클린 환경만큼의 성능에는 좀 더 R&D가 진행되어야..(후속 연구결과는 나올 것으로 기대함)

- 다중 마이크 어레이를 쓰지 않아서, 디바이스 환경 구축에 용이.

- 화자인식이나 화자별 음성데이터 분리에 사용되는 특징벡터를 활용.

- 필터뱅크의 특징벡터에 대해, 필터링 적용.( 이미 등록된 화자의 특성만 남김.)

- 카페나 회의에서, 인간은 특정 사람의 목소리에 집중할 수 있는데, 이러한 특성에 상당히 접근한 기술로 여겨짐.

728x90
반응형

+ Recent posts