수달이네 기술 블로그

논문) Toward Low-Latency End-to-End Voice Agents for TelecommunicationsUsing Streaming ASR, Quantized LLMs, and Real-Time TTS (1) - 음성 에이전트 파이프라인의 레이턴시 감소 방법 본문

AI공부/논문 리뷰

논문) Toward Low-Latency End-to-End Voice Agents for TelecommunicationsUsing Streaming ASR, Quantized LLMs, and Real-Time TTS (1) - 음성 에이전트 파이프라인의 레이턴시 감소 방법

슬픈 수달이 2026. 3. 21. 14:21

(PDF) Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS (2025) | Vignesh Ethiraj

→ 25년 8월 5일 논문

통신산업에서의 저지연(low-latency) 종단 간 (end-to-end)음성 에이전트 파이프라인을 제안함.

서론

음성신호를 텍스트로 바꾸는 (ASR), 텍스트를 이해하는 (NLU), 답변을 생성하는 (LLM), 다시 음성으로 바꾸는 (TTS)의 모든 과정이 개별적으로는 점차 빨라졌음. 그러나 모든 단계를 이어서 사용할 경우 아직 시간이 길어져 실제 대화 같은 자연스러운 소통이 어려움.

  • 실시간 음성 인터페이스는 위 기술들의 low-latency(저지연시간)을 요구함.
  • 해당 논문은 위의 모든 단계를 전체적으로 최대한 빠르게 만드는 방법을 연구한 논문임

해당 연구의 기술 혁신(4가지)

문장 단위 스트리밍(Sentence-level streaming)

LLM이 생성된 문장을 점진적으로 TTS 모듈로 전송하여 오디오 출력을 조기에 지속적으로 가능하게 한다.

  • 보통 AI가 긴 답변을 만들 때, 전체 답변을 다 만든 후 음성으로 변환해서 들려준다.

→ 모든 문장을 다 안만들어도, 한 문장을 만들 때 마다 TTS모듈로 보내 음성으로 변환하는 방식 채용

4비트 LLM 양자화 기술(4-bit LLM quantization)

LLM을 4비트로 양자화하여 GPU 메모리 사용량과 추론 지연 시간을 크게 줄이면서 생성 품질을 유지한다.

  • LLM의 정보가 흐릿해 질 순 있지만 더 가벼워 빠른 속도로 생성 가능

모듈 동시 실행(Concurrent module execution)

ASR, LLM, TTS 모듈이 비차단(non-blocking) 생산자-소비자 패턴을 통해 동시 작동하여 실시간 처리를 원활하게 합니다.

  • 기존엔 ASR → LLM → TTS가 순차적으로 답변을 생성
  • 해당 시스템은 모듈이 서로 기다리지 않고 동시에 작업할 수 있도록 설계됨.
    • 음성인식이 끝남 → LLM이 답변 생성 시작 + TTS가 LLM이 보낸 문장을 바로 음성으로 변환

지연시간 및 성능 분석(Latency and performance analysis)

각 모듈과 아키텍처 선택이 전반적인 응답성에 미치는 영향을 분석하기 위한 상세한 지연 시간 구성 요소 분석을 제공한다.

  • 각 단계에서 얼마나 시간이 걸리는지, 어떤 부분에서 병목현상이 생기는지 느려지는 원인을 측정함.
  • 즉, 실제로 에이전트를 생성하고 돌릴때, 어떤 부분을 최적화 해야할지 확인 가능하도록 설계.

관련 연구 요약

Streaming ASR, quantized LLMs, real-time TTS, RAG의 발전이 신중한 아키텍처 선택, 최적화 기술으로 저지연 음성 변환 시스템 개발이 가능하게 됨.

  • Streaming ASR : 음성을 텍스트로 만드는데, 말을 다할 때 까지 기다리고 생성이 아닌, 말하는 도중에 텍스트를 계속 생성하고 있는 기술
  • Quantized LLMs: 큰 LLM을 작고 빠르게 축소하는 기술
  • Real-time TTS: 텍스트를 음성으로 바꾸는 기술 → 들어오는 텍스트를 바로바로 음성으로 바꿔서 주는 기술
  • RAG: AI가 답변을 만들때 문서에서 적절한 정보를 찾아와 풍부한 답변을 만듦.

Conformer 기반 스트리밍 ASR모델(Conformer-Based Streaming ASR Models)

Conformer 기반 ASR모델은 스트리밍 음성인식의 주요 접근 방법

  • Convolution + Transformer(Self-Attention layer)를 사용해 지역, 전역 음향 의존성을 효과적으로 포착 가능.
  • NVIDIA NeMo프레임워크가 nvidia/stt_en_conformer_ctc_small등의 경쟁력있는 Conformer모델 제공(LibriSpeech: 0.2 RTF = 10초 짜리 음성을 2초안에 처리)
  • 해당 모델은 정렬(alignment)없이 프레임 동기식 출력을 위해 CTC(Connectionist Temporal Classification)을 사용한다
    • 프레임: 음성 신호 분석시 사용되는 작은 시간 단위
    • 동기식 출력(Synchronous Output): 모델이 오디오 프레임이 들어오는 대로 동기화해 연속적으로 예측 데이터를 내보냄
    • → 오디오 입력을 작게 처리 → 그 단위에 맞춰 실시간으로 내보냄.
    • CTC(Connectionist Temporal Classification): 음성과 텍스트를 1대1로 맞추지 안하도 음성을 텍스트로 변환할 수 있게 해줌 즉, 텍스트를 음절별로 나눠 몇초에 발음 했는지 지정해줄 필요없이 전체 음성으로 텍스트를 만듦.
  • TTE라는 독자적인 통신 환경에 대해 최적화한 Conformer-CTC기반 모델을 연구에 활용

LLM 배포를 위한 4비트 양자화(4-bit Quantization for LLM Deployment)

LLM을 리소스 제한환경에서 배포하는데 Pre-training quantization(사후 학습 양자화)기술이 효과적이다.

  • BitsAndBytesConfig프레임워크를 사용한 4비트 양자화는 성능 저하를 최소화 시키면서 40% 지연시간 감소를 달성 + 생성 품질을 보존한다.
  • 양자화: 기존 LLM의 32비트로 이루어진 가중치를 4비트까지 감소시킴
    • 용량 감소 가능하나 성능이 저하된다 하지만 이걸 최소화 시킴.

스트리밍 TTS및 병렬 합성(Streaming TTS and Parallel Synthesis)

Neural vocoder(현대 신경 보코더)는 텐서 레벨 최적화(tensor-level optimization), 청크 처리(chucked processing) 프레임워크를 통한 실시간 합성을 달성

  • Neural vocoder: 사람목소리 같은 자연스러운 음성을 만드는 딥러닝 기술 이용
  • 텍스트 인코딩 + 파형 생성을 교차하는 스트리밍 TTS시스템으로 첫 오디오 출력까지의 시간을 50ms미만으로 단축시킴
  • 음성 파일 하나를 통째로 만듦 X → 실시간으로 들어오은 텍스트를 음성으로 생성하는 스트리밍 방식
  • 텐서레벨 최적화, 청크 처리: 긴 문장을 쪼개고 효율적으로 처리하도록 최적화

음성 시스템에서의 RAG통합

Retrieval-Augmented Generation(RAG)는 신경 검색기 + 생성 언어모델의 결합으로 모델을 재훈련 하지 않고, 새로운 정보를 동적으로 시스템 응답에 포함할 수 있도록 한다.

최근에는 RAG가 텍스트 전용 환경에서 음성, 멀티모달 시스템으로 성공적 확장 했음을 보여줌

  • WavRAG(오디오 통합 RAG프레임워크): 음성 대화 모델이 오디오 및 텍스트 지식 기반을 모두 검색, 활용할 수 있도록 해, 실시간 컨텍스트 인식 대화를 지원
  • VoxRAG(전사 없는(transcription-free) 음성대 음성 검색을 구현): 쿼리 및 답변 생성을 전적으로 오디오 도메인에서 수행, 실제 음성 질의응답 작업에서 RAG의 가능성을 보여줌
  • RAG기반 에이전트: 음성 비서, IVR시스템에 이미 배포되어 음성, 텍스트 변환, 신경 문서 검색, 생성 언어 모델 및 텍스트 음성 합성을 결합해 고객 서비스 및 기업 환경에서 정확하고 컨텍스트가 풍부한 음성 상호작용을 가능하게 함.

RAG가 필요한 이유: 최신 정보 반영. 환각 방지, 도메인 특화 정보 활용등