수달이네 기술 블로그

3. ASR 모델의 도메인 특화 용어 인식 오류율 감소를 위한 논문 탐구 본문

프로젝트

3. ASR 모델의 도메인 특화 용어 인식 오류율 감소를 위한 논문 탐구

슬픈 수달이 2026. 4. 4. 14:20

도메인 특화 용어 Fine-Tuning의 필요성

이번에 진행하는 프로젝트에서 사용하는 Whisper모델이 도메인 특화된 용어는 인식 오류율이 높다.

심지어 관련 프로젝트가 멘토링이므로 관련전문 지식을 가진 멘토링을 진행할 경우 희귀단어가 많이 검출되어 성능이 많이 감소할 가능성이 우려된다.

따라서 해당 Fine-Tuning을 하기 위한 방식으로는 관련 단어를 사용하는 데이터셋을 통해 학습시키는 방식이 필요하다.

그러나 관련 도메인에 치우친것도 아니기 때문에, 관련 음성 데이터셋을 무작정 때려넣기 힘들다는 문제가 있었다.

이를 위해 관련 논문 여러개를 탐구해본다.

희귀 단어 리스트를 통한 음성 합성 → Fine-Tuning

[Using synthesized speech to train speech recognizers - Amazon Science](https://www.amazon.science/blog/using-synthesized-speech-to-train-speech-recognizers#:~:text=In a paper we presented at this year’s,text-to-speech models — to update an ASR model.)

아마존 Science에서 발표한 논문에선 수만시간의 사람목소리+전사 텍스트 쌍을 학습시키기 위한 상황에서 특정 도메인의 데이터를 TTS로 생성해 학습시키는 실험을 했다.

  • 여기선 단순히 TTS를 쓰지 않았고, TTS를 다양한 억양과 말투, 그리고 실제 음성과의 혼합 학습을 통해 학습시켰다.
  • 실제로 TTS만 활용하더라도 인식률이 크게 상승하는 것을 확인했다.
  • 또한 배경 소음을 섞어 실제처럼 만드는 것도 큰 영향을 주었다.
    • 해당 논문처럼 차 소리를 믹싱하여 학습하는 것도 좋아보인다.

"Efficient Trie-based Biasing using K-step Prediction for Rare Word Recognition" (ISCA 2025)

해당 논문서에서도 희귀 단어가 포함된 음성데이터를 대량으로 구하기 어렵다는 점 TTS(Text-to-Speech)를 활용한 데이터 증강 기법을 사용했다.(Synthetic)

  • 기존 BWER(희귀단어 오류율)이 55.80에 그치던 성능을 TTS로 합성한 데이터로 Fine-tuning을 했을때 29.66로 줄었다.
  • 물론 실제 목소리로 녹음한 게 18.14로 크게 줄긴 했지만, 데이터셋이 부족할 땐 충분히 대체할 만 하다.

해당 논문에선 추가적으로

  • 희귀단어들을 트리구조로 구축해 음성신호와 매칭되는 단어만 효율적으로 탐색했다.
  • K-step Prediction을 통해 앞으로 올 K개의 토큰을 한번에 고려해 편향 점수를 계산했다.
  • 희귀 단어 리스트에 있는 단어에 가중치를 더했다.

위의 내용들을 전체적으로 더한 결과로 BWER을 실제 목소리에 매우 근접한 20.93까지 감소시켰다.

결과적으로 TTS로 음성을 학습시키는 것이 데이터가 없는 도메인 특화된 ASR을 만드는데 도움이 된다는 것을 알았다. 관련 프로젝트를 진행할 때, 사용자의 비율을 통해 도메인 데이터를 확보하는 것이 중요해보인다.