Нейросеть создала поддельного Обаму

Искусственный интеллект создал поддельное обращение Обамы

Ученые с помощью нейросетей создали фейковое видео с Бараком Обамой. Подобные технологии в будущем помогут общению в видеоконференциях и даже «оживлению» исторических персонажей.

Специалистам Вашингтонского университета удалось решить одну из сложнейших задач в области искусственного интеллекта — превратить аудиозаписи в реалистичное видео, где движения губ говорящего синхронизированы с произносимым текстом.

02 мая 2017, 09:31

Комментаторы немедленно вспомнили роман Виктора Пелевина «Generation «П», в котором все выступления политических деятелей России и Америки генерировались с помощью суперкомпьютеров, и другие сюжеты в этом роде — «Паутину» Мерси Шелли (Лёхи Андреева) с «идеальным президентом», прошлогодний роман «Ковчег 47 Либра» Бориса Штерна, где на основе видеозаписей создаются «человеческие реплики», ведущие осмысленные беседы и делящиеся накопленным опытом, наконец, научно-фантастический фильм 2002 года «Симона», рассказывающий о создании виртуальной актрисы.

Само представленное видео, правда, подвергается критике — если присмотреться, можно заметить целый ряд неестественных моментов, когда движения губ и, главное, изображаемые эмоции плохо согласуются с речью, однако все сходятся на том, что если изначально не знать о «подвохе», то на все это можно не обратить внимания.

К тому же постепенное улучшение экспериментальной методики — дело наживное. Раньше уже были доступны компьютерные игрушки, позволяющие «оживлять» говорящих персонажей без всяких нейронных сетей, можно было даже добавлять кое-какие эмоции, однако качество всей этой продукции оставляло желать лучшего. Существует и целая индустрия создания компьютерных персонажей для игр и фильмов, но там реалистичность достигается за счет искусства опытных аниматоров и прикрепленных к «прототипу» датчиков. Обсуждаемая же технология не требует никакого сотрудничества со стороны изображаемого на видео.

Какое-то время нейросеть учится правильной синхронизации движений губ и речевого потока на представленных образцах, затем преобразует звуковые файлы в реалистичные движения уголков рта,

которые «примешиваются» к изображению лица человека с другого существующего видео.

Новый инструмент машинного обучения сделал значительные шаги на пути преодоления так называемой зловещей долины, препятствующей в том числе и созданию реалистичного видео из аудио. Когда синтезированные человеческие персонажи приближаются к некоторому порогу почти идеального сходства, зрителям становятся слишком заметны любые «противоестественные» мелочи,

причем такие отличия кажутся особенно неприятными, отталкивающими, даже жуткими, пугающими.

«Зрители особенно чувствительны к областям возле нашего рта, которые не выглядят достаточно реалистичными, — объясняет ведущий автор работы, недавний аспирант Супасорн Суваджанакорн. — Если вы неправильно изобразите зубы или же подбородок сдвинется в неподходящее время, то люди сразу это заметят и распознают подделку. Чтобы преодолеть «зловещую долину», вы должны анимировать область возле рта идеально».

«Подобных результатов никто раньше не достигал, — уверяет еще один соавтор работы, Айра Кемельмахер-Шлизерман с кафедры информатики и инженерии. — Преобразование аудиозаписей в реалистичное видео имеет целый ряд практических применений, таких, как улучшение качества видеоконференций. Становится также возможной реализация разного рода футуристических идей вроде бесед с какими-либо историческими личностями в виртуальной реальности путем создания визуальных эффектов из аудиофайлов...

В будущем мы планируем получать необходимые нам видеоматериалы для обучения системы с помощью Skype и других подобных видеомессенджеров».

Идея применения технологии для восполнения недостающих кадров в видеоконференциях, в принципе, понятна. Так как потоковое аудио через интернет занимает гораздо меньшие полосы пропускания, чем видео, новая система потенциально может пригодиться для «сглаживания» видеочатов, которые на слабых соединениях раздражают постоянно выпадающими фрагментами.

Другая напрашивающаяся «область применения» — создание поддельных видео с известными персонажами, способными, например, обрушить рынок акций неожиданными заявлениями. Но всему этому можно противопоставить анализ подобных видео с помощью тех же нейросетей, способных выявлять подделки. Речь идет о своеобразном реверсе процесса — та же группа разработчиков обещает разработать алгоритмы, которые могли бы определить, подлинное ли то или иное видео или оно сгенерировано программным образом.

В настоящее время нейронная сеть способна обучаться поведению лишь одного конкретного персонажа — заставить говорить Обаму «с чужого голоса» не получится. В дальнейшем планируется доработать алгоритмы так, чтобы они обобщали опыт предыдущих наблюдений за разными говорящими. Тогда приступать к синтезу речи нового человека можно будет на основе гораздо меньшего количества данных — для обучения может оказаться достаточно всего лишь часа видео вместо нынешних 14 часов.