728x90
반응형

음성인식기는 가장 충실하게,  음성신호를 받아서, 글자 단위로  출력을 합니다. Speech to Text라고도 합니다.

 

이외에도  음성/화자/자연어처리와 관련되어 부가적인 정보를 출력할 수 있습니다. 이러한 부가정보는 더 가치 있는 것일 수 있습니다.

 

부가 정보는

1. Speaker Labels( 화자 정보)

    음성의 특정 구간을 누가 발성했는가를 나타냅니다.  단순히 앞의 음성구간과 다른 화자이다(Transition)를 나타낼 수도 있습니다.  녹음된 음성데이터 처리에서는 유한한 화자 정보로 나눌 수(Clustering)도 있습니다.

2. Custom Vocabulary

     동적 인식네트워크(Custom)를 기존의 정적 인식네트워크와 함께 결합 후에  인식을 수행하는 것입니다.

     기존의 정적 인식네트워크가 관용적이거나 도메인 특성상 인식이 안될 경우,  특정한 문장세트를 결합하여 인식을 수행합니다.

3. Custom Spelling

     영어에서는 이름을 불러줄 때, 스펠링을 얘기할 때가 있죠. 단어(/이름)를 스펠링 모드로 처리하는 것이죠.

     우리나라 말에는  숫자( 전화 번호 얘기할 때,  일이삼 이 아닌  하나 둘을 포함할 때가 있죠.)인식할 때 유용합니다. 우리나라 숫자음이 음향학적으로 짧으면서 비슷하여 인식하기가 상당히 힘듭니다.^^

4. Dual Cannel Transcription

     만약,  송수신단이 서로 다르게 Dual 채널 즉, Stereo로 되어 있다면 인식기는 기본적으로 2명(/2개)의 데이터를 따로따로 처리할 수 있겠죠.. 인식 후 그 정보 처리를 어떻게 하느냐가  관건입니다.

5. Filler Words

     우리나라 말로는 간투사입니다.  말 시작마다,   /어/,  /저/, /거시기/를 붙이는 사람들이 있죠.

     일본인들은 /마/를 주로 사용합니다.  이런 것은 기술적으로 인식네트워크에서 처리하기가 힘들죠. 문장의 처음은 그래도 수월하게 대응할 수 있지만, 문장 중간에 있는 것을 처리하는 것은 상당히 어렵습니다. 인식 네크워크가 상당히 복잡해 지니까요.

6. Automatic Language Detection

    자동으로 어느 나라 말인지 구분하여, 인식결과를 출력하는 것입니다. 유럽인들은 여러 언어를 사용하기 때문에 유용한 기술입니다. 우리나라 말도  외래어를 사용하는 경우가 있기 때문에, 구분하여 인식하면 성능에 도움이 될 것입니다. 다른 측면으로 우선 한국어로 다 인식을 하고 De-Nomalization으로 영어 또는 알파벳으로 출력해 줄 수도 있습니다.

7. Automatic Punctuation and Casing

    쉼표, 느낌표, 물음표 등을 함께 출력해 주면 좋겠죠.  이러한 것은 음향학적인 신호가 없기 때문에 어려운 기술입니다. 보통은 후처리로 처리됩니다.  영어 같은 경우는 대소문자로 구분(문장의 첫번째, 축약형)하여 출력해 주는 것입니다.

8. Export SRT or VTT Caption Files

    유튜브 등의 비디오의 시각적 표현을 위해 자막관련 정보 파일로 변환 출력하는 기능입니다.

9. Exporting Paragraphs and Sentences

     문장이나 단락정보로 묶어서 출력하는 기능입니다.

10. Profany Filtering

 

11. Word Search

 

12. Pll Redaction

 

13. Detect Import Phrases and Words

 

14. Content Moderation

 

15. Topic Detection

 

16. Sentiment Analysis

 

17. Summarization

 

18. Auto Chapters

 

19. Entity Detection

 

이상과 같이 인식엔진 내부에 구현되어야 할 기술, 또는 외부에서 전/후처리로 별개로 처리될 기술, 또는 융합되어야 할 기술들로 나누어집니다. 또는 별개의 단위 기술이기도 합니다.

    

 

728x90
반응형

+ Recent posts