Как собрать голосового агента, который делает исходящие звонки с AssemblyAI
С помощью AssemblyAI и нескольких строк кода можно создать голосового агента, который автоматически совершает исходящие звонки, распознаёт речь и генерирует ответы в реальном времени.
С помощью AssemblyAI можно быстро собрать голосового агента, который самостоятельно совершает исходящие звонки, распознаёт речь собеседника и формирует ответы в реальном времени. Для этого достаточно подключить API транскрипции и синтеза речи, настроить сценарий диалога и запустить процесс в облаке — результат будет готов уже через несколько минут.
Как настроить аккаунт AssemblyAI и получить API‑ключ?
Для начала необходимо зарегистрироваться на сайте AssemblyAI, подтвердить электронную почту и сгенерировать API‑ключ в личном кабинете. После этого ключ следует сохранить в безопасном месте, например в переменной окружения ASSEMBLYAI_API_KEY. В 2026 году сервис предлагает бесплатный тариф с 10 000 минут транскрипции в месяц, что более чем достаточно для тестирования.
- Перейдите на assemblyai.com и нажмите «Sign Up».
- Подтвердите регистрацию через письмо, полученное на ваш email.
- В разделе «API Keys» нажмите «Create New Key» и скопируйте полученный токен.
- Сохраните токен в файле
.envкакASSEMBLYAI_API_KEY=ваш_ключ.
Почему именно AssemblyAI подходит для исходящих звонков?
AssemblyAI обеспечивает 95 % точность распознавания речи на русском языке и поддерживает потоковую транскрипцию со скоростью до 2 × реального времени, что критично для телефонных диалогов. Кроме того, стоимость синтеза речи составляет 0.02 USD за минуту, что в 2026 году эквивалентно примерно 1.5 рубля, позволяя масштабировать решение без значительных расходов.
Что нужно для реализации исходящего звонка: телефонный шлюз и SIP‑провайдер?
Для совершения звонков нужен телефонный шлюз, который принимает команды от вашего кода и инициирует SIP‑звонок. Популярные варианты — Twilio, Nexmo (Vonage) и российский «Телефонный API» от МегаФон, стоимость которого в 2026 году составляет 0.8 рубля за минуту. Выбирайте провайдера, поддерживающего веб‑хуки, чтобы получать аудиопоток в реальном времени.
- Создайте аккаунт в выбранном SIP‑провайдере.
- Получите SIP‑учётные данные: SID, токен, номер телефона.
- Настройте веб‑хук, который будет принимать аудио‑данные от звонка.
- Подключите веб‑хук к вашему серверу, где будет работать скрипт AssemblyAI.
Как интегрировать AssemblyAI в процесс звонка?
После получения аудио‑потока от SIP‑шлюза вы отправляете его в Streaming API AssemblyAI, получаете транскрипцию в реальном времени и передаёте текст в ваш диалоговый движок (например, OpenAI GPT‑4). Ответ генерируется, затем через Text‑to‑Speech (TTS) AssemblyAI преобразуется в аудио и отправляется обратно в телефонный канал.
- Инициализируйте WebSocket‑соединение к
wss://api.assemblyai.com/v2/realtimeс заголовкомAuthorization: ваш_ключ. - Отправляйте куски аудио (по 20 мс) в формате PCM 16‑bit, 16 kHz.
- Получайте объект
{"text":"..."}с текущей транскрипцией. - Передавайте полученный текст в API GPT‑4, задавая контекст «Ты — оператор колл‑центра».
- Сформированный ответ отправляйте в AssemblyAI TTS endpoint
/v2/ttsи получайте URL готового аудио. - Плейте полученный аудио‑файл в телефонный канал через SIP‑шлюз.
Что делать, если голосовой агент не распознаёт шумный фон?
Если в разговоре присутствует шум, включите в запрос параметр "noise_suppression": true. AssemblyAI автоматически применит алгоритмы подавления шума, повышая точность до 92 % даже в условиях улицы. Также рекомендуется использовать микрофоны с направленным захватом и уменьшить уровень фонового шума до 30 dB.
- В параметрах WebSocket‑соединения добавьте
{"noise_suppression": true}. - Настройте автоматический гейн‑контроль на стороне SIP‑шлюза.
- Проводите тестовые звонки в разных условиях и фиксируйте процент ошибок.
Почему стоит использовать готовый шаблон проекта вместо «с нуля»?
В 2026 году сообществом разработчиков опубликовано более 20 готовых шаблонов на GitHub, которые включают полностью настроенный сервер Flask, обработку WebSocket, интеграцию с Twilio и AssemblyAI. Использование шаблона сокращает время разработки на 70 % и позволяет сразу перейти к тестированию бизнес‑логики.
- Скачайте репозиторий
assemblyai-voice-agent-templateс GitHub. - Установите зависимости:
pip install -r requirements.txt. - Заполните
.envвашими API‑ключами. - Запустите сервер:
python app.py. - Настройте веб‑хук в SIP‑провайдере на
https://yourdomain.com/webhook.
Воспользуйтесь бесплатным инструментом AssemblyAI Voice Agent Builder на toolbox-online.ru — работает онлайн, без регистрации.
Теги