차세대 엔진 '다이브'로 사람처럼 말하는AI 구현 41조 음성AI 시장 공략
"음성은 인간이 가진 가장 원초적이고 자연스러운 소통 수단입니다. 휴멜로는 대화의 맥락과 감정을 반영한 보이스 인공지능(AI)으로 사람과 대화하듯 자연스러운 AI 소통 경험을 제공하고 있습니다."
권용석 휴멜로 대표는 최근 매일경제와 만나 "텍스트를 읽어주는 음성합성(TTS) 기술을 넘어 AI가 사람의 감정과 대화 흐름을 이해하는 단계로 진화하고 있다"며 이같이 말했다. 권 대표가 이끄는 휴멜로는 2018년 창업 이후 대형언어모델(LLM) 경쟁에 뛰어들기보다 보이스 AI라는 특화 영역에 집중해왔다. 단방향 TTS가 아닌 대화의 맥락과 감정을 반영하는 기술을 중심으로 연구개발 방향을 잡았다. 휴멜로의 핵심 기술은 차세대 대화형 보이스 엔진 '다이브(DIVE·Deep-context Interactive Voice Engine)'다. 권 대표는 "기존 TTS가 발음 정확도와 억양 구현에 초점을 맞췄다면 다이브는 상황에 맞는 감정선까지 반영해 '대화하듯 말하는 AI'를 구현한다"고 설명했다.
실제 콜센터 상황을 가정한 시연에서는 격앙된 고객의 항의에 AI 상담사가 차분한 목소리로 공감과 사과를 건네는 장면이 연출됐다. 상대의 감정 변화를 실시간으로 인식해 응답 톤을 조절하는 방식이다.
**휴멜로는 이 같은 기술을 전문가용 보이스 AI 플랫폼 '프로소디(Prosody)'로 상용화했다. 콜센터, 가상 상담, 교육·헬스케어 등 감정 표현과 대화 흐름 제어가 중요한 영역에서 활용 가능성이 크다.
최근 휴멜로는 AI 콘택트센터(AICC·AI Contact Center)를 핵심 사업 영역으로 설정하고, 클라우드 기반 서비스형 콘택트센터(CCaaS) 기업들과 협력을 확대하고 있다.**
휴멜로 같은 기업의 기술 고도화와 함께 보이스 AI 시장과 산업의 지형도 빠르게 변하고 있다. 글로벌 음성 복제(Voice Cloning) 시장은 올해 15억달러(약 2조1690억원) 규모에서 2032년 162억달러(약 23조4252억원)로 성장할 것으로 전망된다. TTS 시장 역시 연평균 20%에 가까운 성장세를 이어가며 2030년 125억달러(약 18조750억원)를 넘어설 것으로 예상된다.오디오북, 게임, 가상 비서, 메타버스 등 다양한 영역에서 보다 자연스럽고 정교한 음성에 대한 수요가 늘고 있기 때문이다.
권 대표는 음성이 키보드나 터치를 대체하는 '보이스 퍼스트' 인터페이스 시대가 본격화할 것으로 내다봤다. 그는 "가장 인간다운 목소리를 구현하는 기술로 그 변화를 주도해 나가겠다"고 말했다.
![[News]휴멜로, 대화 맥락·감정까지 살린 보이스 AI로 승부](/_next/image?url=https%3A%2F%2Fvy3peafvhrxgs0d2.public.blob.vercel-storage.com%2Fblog%2F1768368490368-20260105_01110114000004_M00.jpg&w=1920&q=75)