AI 음성봇 만들기AI 음성봇 구축AI 콜센터CTI 연동음성 상담 자동화퍼포미재하청 없는 개발사

AI 음성봇 만들기: 전화 상담을 자동화하는 CTI 연동 시스템 [2026]

AI 음성봇은 전화 1차 응대를 STT·LLM·TTS·CTI 로 자동화하는 시스템입니다. 자동화 가능 영역과 한계, 핵심 5단 구성, 인간 콜센터·ARS·규칙 음성봇·LLM 음성봇·하이브리드 비교, 4단계 구축 절차를 정리했습니다.

이 글을 쓴 알파카랩스카카오·네이버·쿠팡 출신, 재하청 0%, CJ대한통운·강남구청 등 18개사+ 레퍼런스

·알파카랩스

AI 음성봇은 전화 응대를 음성 인식(STT)·합성(TTS)과 LLM 으로 자동화하는 시스템이며, 단순 ARS·IVR 과 달리 자연어로 듣고 답하고 정해진 정책 안에서 업무를 처리한 뒤 필요한 순간 상담사에게 이관하는 구조입니다. 콜센터를 ‘대체’하는 도구가 아니라, 1차 응대를 분리해 사람의 응대 능력을 어려운 문의에 집중시키는 도구로 설계하는 방식입니다.

고객서비스·콜센터 담당이 한 번쯤 검색해 보는 질문이 있습니다. “전화 1차 응대를 AI 가 받고 필요한 순간 사람에게 넘기는 시스템을 만들 수 있을까. ARS 와는 무엇이 다를까.” 이 글에서는 AI 음성봇이 자동화할 수 있는 영역과 어려운 영역, 핵심 5단 구성, 다섯 가지 방식의 비교, 그리고 직접 구축하는 4단계 절차를 정리합니다. 전화·채팅을 묶은 CS 전반의 자동화 범위 정의는 AI CS 챗봇으로 콜센터 줄이기에서 별도로 다루고 있어 함께 참고하시면 도움이 됩니다.

자동화 가능 영역#

AI 음성봇이 가장 안정적으로 작동하는 영역은 네 갈래입니다. ‘질문 형태가 정해져 있고, 답의 근거가 사내 데이터에 명확히 있는’ 영역일수록 정확도가 높고 책임 경계가 또렷합니다.

1) 예약·변경·취소. 병원·미용·렌터카·시설 예약처럼 일정과 가능 슬롯이 시스템에 정리돼 있는 영역입니다. 의도 분류 → 가능 시간 조회 → 예약 확정 → 알림 발송의 정형 흐름이라 1차 응대의 큰 비중을 음성봇이 그대로 처리할 수 있습니다.

2) 상태 조회. 주문 상태·배송 추적·잔여 횟수·이용 내역처럼 본인 인증 후 API 한 번이면 답이 나오는 영역입니다. 인입의 적지 않은 비중을 차지하는 경우가 많고, 통화 시간 단축 효과가 또렷합니다.

3) 정해진 정책 안내. 영업시간·요금·환불 규정·이용 약관 조건처럼 답이 정책 문서에 정리돼 있는 영역입니다. RAG 구조로 사내 정책을 그대로 학습시키면 답변마다 근거 문서를 함께 보관해 검수가 가능합니다.

4) 1차 트리아지. 고객 문의의 의도·긴급도·담당 부서를 파악해 적절한 상담사·큐로 라우팅하는 영역입니다. 직접 응대가 아니라 ‘잘 넘기는 것’ 자체가 평균 응대 시간(AHT)을 줄여 줍니다.

자동화하기 어려운 영역#

반대로 음성봇이 잘 못 하는 영역도 분명합니다. 도입 단계에서 이 경계를 먼저 그려 두지 않으면 ‘콜센터 0명’ 같은 비현실적 기대가 도입을 좌초시킵니다.

감정 응대. 분노·실망·항의가 섞인 응대는 음성봇이 다루기 어렵습니다. 정확한 답을 줘도 ‘기계가 받았다’는 사실 자체가 갈등을 키우는 경우가 많아, 이 구간은 사람이 받는 편이 비용 측면에서도 합리적입니다.

예외·복합 문의. 정책 문서에 없는 사례, 여러 시스템을 함께 조회해야 하는 사례, 과거 경위가 복잡한 사례입니다. LLM 이 억지로 답하려 하면 환각이 발생하고, 음성은 텍스트와 달리 실시간이라 사용자가 검증할 시간이 적어 위험이 더 큽니다.

법적 책임이 따르는 응대. 계약 해지·환불 확정·약관 해석·개인정보 제공 요청 등은 응대 한 마디가 회사의 법적 약속이 됩니다. 음성봇은 안내 단계까지 맡고, 결정·기록은 사람이 그대로 책임지는 구조가 안전합니다.

핵심 5단 구성#

AI 음성봇의 핵심 구조는 다섯 단계로 정리됩니다. 다섯 단계가 하나라도 빠지면 ‘데모는 되는데 운영은 안 되는 음성봇’에 머물기 쉽습니다.

1) 전화 인입. 기존 IVR·SIP·PBX·클라우드 콜센터 뒤단에 음성봇을 붙입니다. 인입 메뉴(‘1번 예약, 2번 상태 조회’ 같은 라우팅)에서 음성봇 경로를 분리해 위험을 통제하는 흐름이 표준입니다.

2) STT(음성→텍스트). 통화 음성을 실시간으로 텍스트로 변환합니다. 산업 용어·고유명사 사전, 한국어 발화 특유의 줄임말·반복어 처리, 끊김·재발화 대응이 품질을 좌우합니다.

3) LLM 의도 분석·응답 생성. 텍스트를 의도(예약/조회/안내/이관 등)로 분류하고, 정책 문서·고객 데이터·이전 응대 기록을 RAG 로 검색해 답변을 생성합니다. 미응답 임계치·이관 트리거를 함께 두어 환각을 통제합니다.

4) TTS(텍스트→음성). 생성된 답변을 자연스러운 음성으로 합성합니다. 브랜드 톤(말투·속도·인사말)을 일정하게 유지하고, 숫자·금액·시간·고유명사 발음을 사전으로 보정하는 후처리가 필요합니다.

5) CTI/이관. 사람 이관 트리거가 발생하면 CTI 를 통해 통화를 상담사 큐로 넘기고, 대화 요약·의도 분류 결과·고객 식별 정보를 상담사 화면에 함께 띄웁니다. ‘같은 정보를 두 번 말하게 하지 않는다’는 원칙이 이 단계의 핵심입니다.

인간 콜센터 · ARS · 규칙 음성봇 · LLM 음성봇 · 하이브리드#

다섯 방식은 같은 축에서 ‘좋다·나쁘다’로 비교되지 않습니다. ‘우리 인입 구조에 어떤 비중으로 섞을 것인가’의 문제입니다.

항목인간 콜센터ARS/IVR규칙 음성봇LLM 음성봇하이브리드
1건당 응대 비용높음낮음낮음중간중간
정확도(표준 문의)높음(변동)낮음높음(시나리오 내)높음(근거 응대)높음
정확도(예외 문의)높음낮음낮음중간사람 이관으로 보완
자연어 대응강함약함약함강함강함
확장성(동시 호출)인력 한계강함강함강함강함
고객 만족도감정 응대 강함단순 안내 강함단순 시나리오 강함근거 응대 강함균형
도입 기간채용·교육수 일~수 주수 주~수 개월수 주~수 개월단계 도입
적합 용도감정·예외·법적단순 라우팅고정 시나리오정형 문의 자동화전사 음성 CS

실제 운영에서 가장 자주 쓰이는 구성은 ‘하이브리드’입니다. 인입 라우팅은 ARS/IVR 로 빠르게 처리하고, 정형 문의는 LLM 음성봇이 자연어로 응대하며, 감정·예외·법적 응대는 상담사로 즉시 이관하는 흐름입니다. 어느 한 방식만 고집하면 비용·정확도·만족도 중 한 곳에서 사고가 납니다.

직접 구축하는 4단계#

한 번에 전사 응대를 자동화하지 않습니다. 보통 네 단계로 끊어 가면 위험과 비용을 동시에 통제할 수 있고, 단계마다 측정 가능한 ROI 가 나옵니다.

1단계 통화 데이터 수집·분석. 최근 통화 로그·녹취·CRM 메모에서 반복 빈도 상위 문의를 추려 자동화 후보를 정의합니다. ‘무엇을 자동화할지’를 통화 데이터로 정의하는 것이 첫 단계이며, 빠지면 이후 단계의 ROI 가 흐려집니다.

2단계 의도 분류·시나리오 설계. 후보 문의를 의도(예약/조회/정책 안내/이관)로 분류하고, 의도별 응답 정책·필요 데이터·미응답 임계치·이관 트리거를 명문화합니다. 이 단계에서 ‘음성봇이 답하지 않는 영역’의 정의를 함께 합의해야 운영 단계의 분쟁이 줄어듭니다.

3단계 LLM 응답·RAG 연결. 사내 정책 문서·상품/서비스 데이터·과거 응대 기록을 RAG 로 연결해 근거 기반 응답을 만듭니다. STT·LLM·TTS 호출 단가를 통화 1건 단위로 측정해 비용 모델을 같이 잡아 두는 것이 중요합니다.

4단계 CTI/콜센터 연동·이관 룰. 상담사 큐·CRM·티켓 시스템과 연결해 이관 시 대화 요약·고객 식별·의도 분류 결과를 함께 넘깁니다. 운영 지표(자동 응대율·평균 응대 시간·이관 후 재응대율·미응답률)를 대시보드로 묶어 다음 시나리오 확장 의사결정에 사용합니다.

알파카랩스가 풀어 온 방식#

알파카랩스는 강남구청 강남부동산톡으로 공공 도메인의 RAG 응대 챗봇을, 자사 프로덕트 퍼포미(Performe)로 상담 채널의 자동 응대를 직접 다뤄 왔습니다. 두 흐름의 공통점은 ‘답변에 근거를 함께 보관하고, 모호한 질문에는 모른다고 답하도록 미응답 정책을 함께 둔다’는 점입니다. 음성 채널은 텍스트와 달리 실시간이라 미응답·이관 정책의 명문화가 더 중요해지며, 같은 원칙을 STT·TTS·CTI 연동 단계에 그대로 확장해 설계합니다. 공공·금융 도메인의 RAG 적용 패턴은 공공·금융 RAG 챗봇 사례에서 강남구청·메리츠화재 흐름으로 자세히 정리해 두었습니다. 기획·디자인·개발을 한 팀이 끝까지 수행하고 재하청을 두지 않는 구조 덕분에, 운영 중 발생하는 시나리오 추가·이관 룰 조정·통화 데이터 재학습에 같은 팀이 그대로 대응합니다.

5단

핵심 구성(인입·STT·LLM·TTS·CTI 이관)

0%

알파카랩스의 재하청(외주 쪼개기) 비율

공공·자사

강남구청 RAG·퍼포미 응대 자동화 운영 경험

AI 음성봇의 성패는 모델보다 ‘이관 트리거’와 ‘음성봇이 답하지 않는 영역’의 정의에서 갈립니다.
알파카랩스

정리#

핵심 요약

  • AI 음성봇은 콜센터를 ‘대체’가 아니라 ‘분리’한다. 1차 정형 응대는 음성봇, 감정·예외·법적은 사람이다
  • 자동화가 안정적인 영역은 예약·상태 조회·정해진 정책 안내·1차 트리아지 4갈래로 좁혀진다
  • 핵심 구성은 전화 인입 → STT → LLM 의도 분석/응답 → TTS → CTI 이관의 5단이다
  • 인간 콜센터·ARS·규칙 음성봇·LLM 음성봇 중 실제 운영의 표준은 ‘하이브리드’다
  • 구축은 한 시나리오 4~6주 운영으로 자동 응대율·이관 후 재응대율을 측정한 뒤 단계적으로 확장한다

자주 묻는 질문