수달이네 기술 블로그

2. 인공지능 음성 인터페이스의 지연시간/인지심리학적 분석 본문

프로젝트

2. 인공지능 음성 인터페이스의 지연시간/인지심리학적 분석

슬픈 수달이 2026. 4. 2. 15:24

턴테이킹에서의 지연시간의 중요성

Human turn-taking development: A multi-faceted review of turn-taking comprehension and production in the first years of life - PMC

인간의 의사소통은 협력적, 상호작용적 인프라인 ‘Conversational Turn-taking’을 기반으로 구축되어있음.

  • 상호적, 교대적 역할 교환, 발화의 겹침 회피, 상대적으로 짧은 응답시간이 특징적임.
  • 이 과정의 지연시간은 인간이 인공지능의 응답을 평가하는 척도가 됨(RTF, Real Time Factor)

사실상 해당 턴 테이킹에서는 전환 적기의 최근 증거는

  1. 발화를 마칠 때 시선을 피함
  2. 손 제스처를 보냄 등의 제스처 → 그러나 우리 프로젝트엔 의미가 없음

인간 대화의 평균 전환시간은 약 200ms내외로 측정된다.(인간의 최소 반응시간과 거의 일치)

지연시간 기준 설정

사용자 만족도와 인지 심리학적 시간 임계치

UX의 시간 척도: 0.1초에서 100년까지

인간이 시스템의 응답을 기다리는 과정에서 느끼는 만족도는 단순 물리적 시간의 길이에 비례하지 않음.

  • 지연시간이 1초에 가까워질수록 사용자는 컴퓨터가 명령을 처리하고 있다고 명확하게 인지한다.
  • 그러나, 여전히 사고 흐름을 유지할 수 있는 범위 내에 있다고 느낀다.

(PDF) Waiting Experience: Optimization of Feedback Mechanism of Voice User Interfaces Based on Time Perception

  • 위 논문에 따르면 사용자의 주관적인 감정과 심리적 경험이 최고조에 달하는 최적의 VUI피드백 시간은 750ms로 나타났다.
    • 인간이 기계의 처리를 인내하면서, 대화의 리듬을 잃지 않는 지점.
  • 반대로 위 논문에서 1850ms를 초과할 경우 사용자의 감정이 낮은 각성과 낮은 가치 상태로 전환
    • 즉, 지루함, 짜증, 시스템 오류에 대한 의구심을 가지는 한계시간이 된다.

즉, 우리는 750ms이내를 목표로 하되 늦더라도 1850ms이내의 임계치이내로 구현해내야할 것이다.

플랫폼 별 벤치마크

https://www.researchgate.net/publication/387060343_Testing_Voice_Assistants_Exploring_the_Quality_and_Functionality_of_Alexa_Siri_and_Beyond4

음성 비서들을 기준으로 관련 지연시간을 비교해본다면,

모델 및 플랫폼 측정된 지연시간 성능 특징 및 사용자 평가
OpenAI GPT-4o 320 ms 인간 수준의 반응성, 정서적 공감 가능
Google Assistant 1.2 s 정보 검색 및 자연어 처리의 우수성
Amazon Nova Pro 1.68 s 엔터프라이즈급 효율성 및 비용 대비 성능
Amazon Alexa 1.6 s 스마트 홈 기기 제어의 신뢰성 및 호환성
Apple Siri 2.0 s 개인 비서 기능은 좋으나 대화 속도에서 열세

작업 복잡도와 지연 허용치의 상관 관계

https://eureka.patsnap.com/report-optimizing-nlp-response-time-in-voice-assistants

지연 시간을 기다릴 수 있는 한계는 수행하는 작업의 성격과 복잡도에 따라 가변적임

  • 단순, 일상적 질문 → 낮은 지연시간 요구
  • 복잡한 추론, 계산이 필요한 작업 → 긴 대기시간을 용인
  • 즉, 만약 RAG등의 검색을 할 경우 우리는 검색 중 표시를 띄울 경우 더욱 많은 시간이 용인될 수 있음.

구현 목표

통신시간을 제외한 파이프라인 시간

음성 인식 단계

Optimizing NLP Response Time in Voice Assistants

오디오 스트림을 텍스트로 변환하는 과정에서 약 200ms~500ms의 지연을 발생시킴.

  • 배경 소음 필터링, 발화의 끝을 감지하는 엔드포인팅 로직에 의해 영향을 받음.
  • VAD지연은 그 자체로 지연시간에 직접 합산된다.(데드타임) + 50~200ms

LLM 추론 단계

Time to First Token (TTFT) | IBM

핵심 지표는 첫번째 토큰 생성시간(TTFT, Time to First Token)

  • 토큰이 도착해 읽기 시작하면 시스템이 살아있다는 느낌을 주어 심리적 대기시간이 단축된다.

첫번째 토큰이 도달하는 시간

  • 모델의 크기, 프롬프트의 길이, 부하상태에 따라 수백~수천ms까지 차이가 남.
  • 해당 시간을 줄이는게 관건

TTS 변환단계

Core Latency in AI Voice Agents | Twilio

100ms ~ 400ms의 시간이 소요된다.

  • 자연스러운 목소리를 제공하지만 그만큼 계산량이 많아져 지연시간이 늘어남.

결론

통신지연을 최소화 + 파이프라인 최적화를 통해 지연시간을 줄일 필요 있음.

지연시간 기준 명칭 목표 시간 (ms) 설계 권장 사항 및 의의
자연성 임계치 (Naturalness) 320 ms 멀티모달 통합 모델 및 온디바이스 처리 권장 
생산성 임계치 (Productivity) 400 ms Doherty Threshold 달성, 즉각적 제어감 부여 
최적 만족 지점 (Optimal) 750 ms VUI 만족도의 정점, 사고의 흐름 유지 
인내 한계선 (Endurance) 1,850 ms 초과 시 필러 오디오 또는 상태 표시 필수 
서비스 붕괴선 (Breakdown) > 5,000 ms 음성 대화로 부적합, 시각적 보조 수단 강제