Рынок речевых технологий в России перешел от фазы гиперроста к уверенному развитию. Несмотря на ряд сдерживающих факторов, в ближайшие годы его динамика сохранится на уровне 20-25%. По мнению участников рынка, в ближайшее время голосовые ассистенты, роботы и другие виды разговорного искусственного интеллекта станут человечнее: научатся распознавать и менять интонацию и формировать точные ответы еще до того, как человек закончит произносить фразу.
Рынок разговорного искусственного интеллекта (ИИ) в России возник примерно в 2016 г. и сегодня активно развивается. Российский бизнес осознал ценность речевых технологии во время COVID-19, когда вследствие повсеместных ограничений возросла роль качественной коммуникации с клиентами, находящимися удаленно.
По оценке Fortune Business Insights, объем мирового рынка разговорного ИИ в 2024 г. достиг $12,2 млрд. По прогнозу аналитиков, в 2025 г. объем мирового рынка разговорного ИИ вырастет на 21% и составит $14,8 млрд. При этом в период до 2032 г. среднегодовой темп роста прогнозируется на уровне 22,6%.
В России в 2024 г. объем рынка разговорного ИИ достиг 7,5 млрд руб. (или $81 млн, исходя из средневзвешенного курса доллара). По сравнению с 2023 г. он вырос на 25%, делится оценкой российский разработчик речевых технологий Neuro.net.
В 2025 г. и дальнейшие годы рост рынка продолжится на уровне 20-25% ежегодно, и к 2026 г. его объем может преодолеть порог в 10 млрд руб. «Это позволяет говорить о постепенном выходе отрасли из фазы гиперроста, наблюдавшейся в 2020-2021 гг., в режим зрелого, но уверенного расширения», — комментирует генеральный директор Neuro.net Сергей Аванесов.
«Российский рынок речевых технологий демонстрирует устойчивый интерес со стороны бизнеса к автоматизации коммуникаций и сокращению издержек. Ключевыми драйверами рынка в 2024 г. стали рост внедрения голосовых роботов в банковском секторе, активизация цифровой трансформации в сфере медицины, увеличение потребления low code-решений (решений, разрабатываемых без специализированных знаний — прим. ред.) в сегменте малого и среднего бизнеса, а также первые массовые эксперименты с генеративным ИИ в голосе», — рассказывает Аванесов.
Виды решений
Разговорный ИИ — это совокупность технологий, которые позволяют компьютерным системам разговаривать человеческим языком, вести с людьми беседы, максимально приближенные к общению людей между собой, посредством как голоса, так и текста. В основе разговорного ИИ лежат различные методы, включая обработку естественного языка и машинное обучение, которые позволяют программному обеспечению понимать человека, формировать релевантные ответы и имитировать манеру человека вести диалог.
Рынок разговорного ИИ включает множество продуктов. В их число входят: разнообразные голосовые боты (как по применению, так и по технологиям: сценарные и основанные на больших языковых моделях (Large Language Model — LLM); решения для речевой аналитики работы голосовых ботов и коммуникаций компания-клиент в режиме офлайн и в режиме реального времени; боты-суфлеры; решения для синтеза и распознавания; инструменты голосовой биометрии и голосовые тренажеры, рассказывают в компании 3iTech.
Всего же на рынке можно выделить пять крупных сегментов: голосовые боты для обработки исходящих вызовов занимают 26% выручки, голосовые боты для входящих звонков — 27% (в совокупности те и другие занимают более 50% рынка в денежном выражении), 19% рынка занимает сегмент чат-ботов, 17% рынка диалогового ИИ принадлежат речевой аналитике, и еще 10% — синтезу и распознаванию речи.
Наиболее высокие темпы роста показывает сегмент ботов для исходящих звонков (рост на 46%). Одним из драйверов является специфическая модель доставки ценности: многие вендоры предлагают таких ботов как сервис, который обеспечивает определенную конверсию обзвонов, с поминутной тарификацией, говорит Сергей Попов, директор департамента контактных центров и роботизированных систем компании Naumen.
Вторым по темпам роста является сегмент чат-ботов (рост на 27%). Этот сегмент довольно зрелый, на нем сформированы лидеры как среди корпораций, так и среди экосистемных игроков, но потенциал роста не исчерпан, и в Naumen ожидают сохранения высоких темпов в ближайшие годы. Росту будут способствовать дефицит кадров клиентского сервиса и сложности найма операторов контакт-центров, растущие ожидания клиентов от обслуживания, в которых скорость ответов выходит на первое место, а также стремление компаний уйти от линейного масштабирования штата вслед за ростом клиентской базы и числа обращений.
Масса преимуществ для бизнеса
Чат-боты и голосовые помощники активно используются на входящей линии в финансовом секторе, ритейле и электронной коммерции, в телекоме и здравоохранении — в отраслях, где дистанционное обслуживание клиентов и обработка входящих звонков и чатов являются ключевым процессом. «Такие боты помогают компаниям, с одной стороны, оптимизировать затраты и остановить расширение штата поддержки, а с другой — повысить среднюю скорость ответа клиенту и снизить время ожидания в чате», — рассказывает Сергей Попов.
Особое внимание уделяется кастомным сценариям с интеграцией во внутренние системы заказчиков. Так, 71% банковских голосовых помощников и 64% ритейлерских имеют подключения к системам управления взаимоотношениями с клиентами (Customer Relationship Management — CRM), биллингу или внутренней базе заказов, сообщает глава Neuro.net Сергей Аванесов.
В свою очередь, голосовые боты для исходящих звонков — это альтернатива операторам на исходящих вызовах, которая позволяет снизить затраты, увеличить пропускную способность контакт-центра и расширить охват базы, а также обеспечить более своевременные звонки. Компании в разных отраслях передают голосовым ботам такие задачи, как реактивация клиентской базы, информирование об акциях, продажи товаров и услуг, информирование о заказе, напоминания о запланированном действии (доставке, визите), работу с задолженностями и опросы.
«Синтез и распознавание речи используются как компоненты других продуктов на рынке диалогового ИИ, предназначенных для клиентского сервиса, — рассказывает Сергей Попов. — Распознавание применяется и для голосовых роботов, чтобы перевести речь клиента в текст и передать ее в NLU-ядро робота для классификации реплики и запуска соответствующего сценария обслуживания, и в речевой аналитике, где транскрибация речи также необходима при работе со звонками. Синтез речи нужен для работы голосовых ботов как на входящей линии, так и для исходящих звонков».
Речевая аналитика используется в контакт-центрах для автоматизации контроля качества обслуживания, а также для выявления проблемных зон в сервисе и улучшения сервиса, уровень которого стал важным конкурентным преимуществом. Постепенно на рынке получают распространение юзкейсы, где аналитика коммуникаций по сложным сценариям с учетом контекста и эмоций позволяет выявлять триггеры оттока клиентов или низкой конверсии, которые оказывают сильный эффект на выручку компании и цикл жизни клиента в ней, добавляет эксперт.
ИИ станет разумнее
Одним из существенных драйверов роста рынка речевых технологий в дальнейшем станет интеграция в существующие продукты на базе диалогового искусственного интеллекта LLM и других технологий генеративного ИИ. Однако рост будет неравномерным для разных продуктовых сегментов, говорят в Naumen.
Например, сегменты голосовых ботов для входящих и исходящих звонков росли быстрее остальных, однако нет внешних факторов, которые указывают на повторение такой же волны роста. «Ожидаемое торможение темпов роста в части голосовых ботов может быть отчасти скомпенсировано ускорением роста сегментов речевой аналитики, синтеза и распознавания речи. Толчок роста этим сегментам способны дать интеграция в продукты LLM-инструментов и вывод новой функциональности на рынок», — считает Сергей Попов из Naumen.
Участники рынка указывают, что превалирующей тенденцией на рынке будет динамика улучшения качества диалогов. Разговорный ИИ будет все человечнее, станет проявлять все большую эмпатию, чем обычный оператор-человек, более точно будут отрабатывать задачи, которые ставит бизнес, рассказывает генеральный директор 3iTech Алексей Любимов.
«Модели становятся все точнее в понимании речи: они распознают не только слова, но и интонации, эмоции, акценты. Параллельно развивается синтез речи — сегодня он все ближе к живому звучанию: выразительный, персонализированный, и создается по короткому аудиофрагменту», — комментирует Евгений Брицын, руководитель отдела голосовых технологий в Центре искусственного интеллекта «Т-Банка». При этом для решения конкретной задачи больше не требуется обучать модель с нуля — достаточно сформулировать запрос обычным языком, как в современных текстовых ИИ, добавляет он.
Следующий шаг — сквозные (end-to-end) диалоговые системы, которые смогут формировать речь напрямую, без промежуточного перевода аудио в текст и обратно. Такой подход позволяет учитывать весь контекст общения и гибко реагировать на поведение собеседника: менять интонацию, темп, делать паузы, перебивать или позволять себя перебить. «Все это делает взаимодействие с голосовыми ассистентами максимально естественным — как будто вы разговариваете с живым человеком, а не роботом», — рассказывает Брицын.
Однако большинство компаний пока только начинают путь создания таких диалоговых систем, поскольку готовая архитектура, способная обеспечить потоковую работу LLM в голосовом канале без критичных задержек, отсутствует. «Текущий фокус — снижение задержки до уровня менее секунды, реализация оценки завершенности реплики и стриминг между технологией распознавания речи, LLM и технологией синтезирования речи без промежуточной буферизации, — объясняет глава Neuro.net Сергей Аванесов. — Такой подход позволяет обрабатывать голосовую реплику в процессе ее произнесения и начинать генерацию ответа до завершения фразы. Эта технология крайне важна для голосового канала, где пауза даже в 1,5 секунды может восприниматься как «зависание».
Также реализуются архитектуры, в которых генеративный ИИ не придумывает ответы, а обращается к базе знаний компании с помощью метода поиска и извлечения информации из больших массивов данных Retrieval Augmented Generation (RAG). Это позволяет использовать актуальную бизнес-логику, не подвергая компанию рискам «галлюцинаций» модели.
Применение генеративного ИИ активно тестируется в ряде банков и страховых компаний. В частности, кейсы интеграции GPT-моделей в бэкофисную аналитику и frontline-ассистентов уже дают эффект в виде снижения среднего времени обработки вызова и повышения уровня удовлетворенности клиентов, рассказывает Сергей Аванесов.
«В ближайшие 5 лет рынок будет «пересобираться» из-за открытия новых возможностей, связанных с генеративным искусственным интеллектом. Большие языковые модели в речевой аналитике сделают работу отделов контроля качества более производительной, а также помогут лучше работать с болями клиентов, триггерами оттока, факторами упущенной выручки. Для чат-ботов и голосовых помощников применение LLM внутри существующих решений поможет упростить и ускорить их настройку и запуск. Кроме того, RAG-инструменты обеспечат увеличение уровня автоматизации: с доступом к базе знаний и генерацией готовых ответов по достоверным источникам чат-бот сможет закрывать больше клиентский обращений, в том числе те, по которым не настроены сценарии», — говорит Сергей Попов из Naumen.
Ограничители роста рынка
Сдерживающим фактором для развития рынка речевых технологий в России является дефицит вычислительных мощностей, который образовался вследствие ухода из России зарубежных поставщиков серверного оборудования, указывает Евгений Брицын из «Т-Банка».
Вторым сдерживающим фактором могут стать степень готовности бизнеса и скорость внедрения новых технологий в реальные процессы, добавляют в «Т-Банке». Если компании будут двигаться медленно, то и инвестиции в рынок могут оказаться ниже ожидаемого уровня.
«Часть клиентов по-прежнему предпочитают общение с человеком, особенно в вопросах финансов и медицины. И надо ли говорить, что каждый клиент ожидает максимально эмпатичного специалиста для коммуникации и решения своих вопросов, — комментирует Сергей Аванесов, глава Neuro.net. — Применение ассистентов на базе генеративного ИИ в любых сценариях требует человекоподобного cинтеза, чем российский рынок объективно похвастаться пока не может».
Есть также и ряд технических факторов, связанных непосредственно с самой технологией. К ним относятся: отсутствие унифицированных программных интерфейсов (API) у заказчиков, высокая стоимость инфраструктуры для локального инференса (процесса применения обученной модели к новым данным для получения предсказаний или выводов), необходимость доработки самописных CRM, сложность стыковки с существующими системами (особенно в банках и микрофинансовых организациях), а также несовершенность LLM с точки зрения функциональности и потребляемой вычислительной мощности.
Важно также понимать, что рынок постепенно переходит от проектной модели (робот — под техническое задание) к продуктовой: решения становятся платформами с гибкой настройкой, аналитикой, RAG-интеграциями и поддержкой множественных каналов. Это требует от заказчика зрелости: архитектурной, организационной и даже лингвистической, заключает Сергей Аванесов.