Специалистам Вашингтонского университета удалось решить одну из сложнейших задач в области искусственного интеллекта — превратить аудиозаписи в реалистичное видео, где движения губ говорящего синхронизированы с произносимым текстом.
На этом видео Обама говорит о терроризме, создании новых рабочих мест и т.п., при этом выступает как бы в Белом доме, тогда как на самом деле для сгенерированного видео использовались аудизаписи выступлений в других местах —
на телевизионных ток-шоу и интервью десятилетней давности.
Исследование финансировалось компаниями Samsung, Google, Facebook (владелец компания Meta признана в России экстремистской и запрещена), Intel и UW Animation Research Labs. Обама для экспериментов был выбран не только потому, что всем известен, легко узнаваем и особенно любим журналистами, но и потому, что техника машинного обучения требует наличия большого количества визуальных материалов, перешедших в общественное достояние. Многочасовые президентские видеоролики как нельзя лучше соответствовали этим требованиям.
Само представленное видео, правда, подвергается критике — если присмотреться, можно заметить целый ряд неестественных моментов, когда движения губ и, главное, изображаемые эмоции плохо согласуются с речью, однако все сходятся на том, что если изначально не знать о «подвохе», то на все это можно не обратить внимания.
К тому же постепенное улучшение экспериментальной методики — дело наживное. Раньше уже были доступны компьютерные игрушки, позволяющие «оживлять» говорящих персонажей без всяких нейронных сетей, можно было даже добавлять кое-какие эмоции, однако качество всей этой продукции оставляло желать лучшего. Существует и целая индустрия создания компьютерных персонажей для игр и фильмов, но там реалистичность достигается за счет искусства опытных аниматоров и прикрепленных к «прототипу» датчиков. Обсуждаемая же технология не требует никакого сотрудничества со стороны изображаемого на видео.
которые «примешиваются» к изображению лица человека с другого существующего видео.
Новый инструмент машинного обучения сделал значительные шаги на пути преодоления так называемой зловещей долины, препятствующей в том числе и созданию реалистичного видео из аудио. Когда синтезированные человеческие персонажи приближаются к некоторому порогу почти идеального сходства, зрителям становятся слишком заметны любые «противоестественные» мелочи,
причем такие отличия кажутся особенно неприятными, отталкивающими, даже жуткими, пугающими.
«Зрители особенно чувствительны к областям возле нашего рта, которые не выглядят достаточно реалистичными, — объясняет ведущий автор работы, недавний аспирант Супасорн Суваджанакорн. — Если вы неправильно изобразите зубы или же подбородок сдвинется в неподходящее время, то люди сразу это заметят и распознают подделку. Чтобы преодолеть «зловещую долину», вы должны анимировать область возле рта идеально».
«Подобных результатов никто раньше не достигал, — уверяет еще один соавтор работы, Айра Кемельмахер-Шлизерман с кафедры информатики и инженерии. — Преобразование аудиозаписей в реалистичное видео имеет целый ряд практических применений, таких, как улучшение качества видеоконференций. Становится также возможной реализация разного рода футуристических идей вроде бесед с какими-либо историческими личностями в виртуальной реальности путем создания визуальных эффектов из аудиофайлов...
В будущем мы планируем получать необходимые нам видеоматериалы для обучения системы с помощью Skype и других подобных видеомессенджеров».
Другая напрашивающаяся «область применения» — создание поддельных видео с известными персонажами, способными, например, обрушить рынок акций неожиданными заявлениями. Но всему этому можно противопоставить анализ подобных видео с помощью тех же нейросетей, способных выявлять подделки. Речь идет о своеобразном реверсе процесса — та же группа разработчиков обещает разработать алгоритмы, которые могли бы определить, подлинное ли то или иное видео или оно сгенерировано программным образом.
В настоящее время нейронная сеть способна обучаться поведению лишь одного конкретного персонажа — заставить говорить Обаму «с чужого голоса» не получится. В дальнейшем планируется доработать алгоритмы так, чтобы они обобщали опыт предыдущих наблюдений за разными говорящими. Тогда приступать к синтезу речи нового человека можно будет на основе гораздо меньшего количества данных — для обучения может оказаться достаточно всего лишь часа видео вместо нынешних 14 часов.