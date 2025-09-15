Обычному человеку необходимо 200 мс, чтобы дать обратную связь в диалоге. Современные голосовые помощники на базе ИИ соответствуют этому естественному темпу и даже превосходят его. Например, языковая модель GPT-4 обрабатывает запрос и выдает ответ на него менее, чем за 100 мс. При таких мощностях современным голосовым ассистентам потребовалось бы около 6 суток непрерывной работы, чтобы обзвонить все население планеты, рассказала «Газете.Ru» директор по разработке компании Neuro.net Мария Бых.

«Если представить, что звонок длится одну минуту, и мы можем вести миллион параллельных разговоров, то для 8,2 млрд звонков понадобится примерно 8,2 тыс. минут — около 6 суток непрерывной работы. Это чисто математическая оценка. На практике — все сложнее: не у всех есть телефоны, часть звонков не дойдет, кто-то ответит не с первой попытки, при разнице часовых поясов будет сложно настроить одновременный обзвон, а законодательства в большинстве стран ограничивают время обзвона и количество контактов. Учет таких факторов может увеличить срок до нескольких месяцев. Эта гипотеза, хоть и фантастична, показывает масштаб задач, которые решают голосовые ИИ: миллиарды операций, умноженные на миллионы уникальных контекстов», — отмечает Бых.

По словам эксперта, голосовые помощники смогли бы совершить обзвон с такой высокой скоростью благодаря синергии инструментов. К ним относится распределенная облачная инфраструктура: звонки идут не из одной точки, а из тысяч дата-центров по всему миру. Также важны параллелизация (способность одновременно запускать миллионы соединений) и интеллектуальная маршрутизация: система знает, когда и кому звонить, чтобы максимизировать шансы дозвона. Технология похожа на интернет-видеостриминг: человек не видит серверы, но контент доставляется мгновенно и плавно.

Система, способная понимать и генерировать речь на тысячах языках и диалектов, должна будет объединить в себе несколько технологий. Во-первых, это технология распознавания речи (ASR), адаптированная под тысячи языков и диалектов. Далее понадобятся многоязыковые языковые модели (LLM), способные понимать смысл и контекст. Будет нужна технология синтеза речи (TTS) с естественным звучанием и правильной интонацией. А также локальные языковые модули для учета акцентов и диалектических особенностей.

Чтобы обзвонить 8 млрд людей, понадобилась бы инфраструктура, сравнимая с масштабами глобальных телеком-операторов или крупнейших IT-гигантов. Потребовались бы десятки тысяч серверов для обработки речи, каналы связи с экстремальной пропускной способностью, системы балансировки нагрузки в реальном времени и огромные объемы энергии.

По словам Марии Бых, один современный дата-центр обрабатывает миллионы звонков в месяц, а чтобы обзвонить население планеты за неделю, понадобилось бы сотни таких дата-центров, работающих на пределе. Она уверена, что подобные масштабные сценарии обзвона реалистичны в масштабе страны.

«Уже сегодня государственные системы экстренного оповещения могут за считанные часы связаться с миллионами граждан. Бизнесы запускают маркетинговые кампании на миллионы контактов за сутки. Если есть инфраструктура и правовая основа, то обзвон населения крупной страны становится не фантастикой, а реальностью. Технологии позволяют быстро и эффективно информировать людей, но всегда в рамках согласия и закона. Глобальный обзвон сейчас — миф, а вот национальный уже работает», — заявила она.

При этом эксперт считает, что будущее — это не про звонки на массовую аудиторию, а про точечную персонализированную коммуникацию. Робот на базе ИИ, который говорит на языке абонента, учитывает его расписание, уважает его предпочтения и помогает за секунды. Таким образом, масштабные технологии будут использоваться не для «обзвона планеты», а для создания иллюзии, что каждый звонок — это личное обращение к человеку.

