Газета.Ru в Telegram
Новые комментарии +

Настоящий прорыв: в Сбере создают многозадачную нейросеть

Директор по исследованию данных Sber AI Денис Димитров рассказал о «нейросети будущего» от Сбера

Sber AI работает над созданием мультимодальной нейросети, которая сможет решать 20 задач одновременно — об этом «Газете.Ru» рассказал исполнительный директор по исследованию данных Sber AI Денис Димитров. По его словам, по многозадачности такую нейросеть можно сравнить с человеком. Опрошенные «Газетой.Ru» независимые эксперты уверены, что разработка Сбера может стать настоящим научным и технологическим прорывом.

Нейросетевой прорыв

Подразделение ПАО «СберБанк» Sber AI и Институт искусственного интеллекта (AIRI) сейчас работают над модификацией и улучшением нейросети ruDALL-E, которая в оригинальном варианте умеет генерировать изображения по текстовому описанию на русском языке. По словам директора по исследованию данных Sber AI Дениса Димитрова, новая нейронная сеть сможет решать 20 различных задач, связанных с изображениями и текстами на русском языке, одновременно.

«Мы сейчас ведем исследования, чтобы создать архитектуру, которая будет решать не одну задачу, а 20 или даже больше.

Такие модели чем-то похожи на человека в плане многозадачности. Мы хотим научить нашу нейросеть решать ребусы, выполнять простейшие IQ-тесты, дорисовывать картинки.

В этом случае действительно можно говорить о сильном ИИ», – объяснил собеседник «Газеты.Ru».

Такие нейросети называются мультимодальными, потому что могут работать с несколькими категориями одновременно, например, с текстом и изображением. На сегодняшний день одна из главных задач науки – научить нейросети работать в нескольких модальностях.

«Если мы возьмем человека, то он справляется с множеством модальностей одновременно, и это ему помогает воспринимать мир и обучаться. Современные нейросети не могут этого делать, и это одна из причин, почему они до сих пор так и не стали настоящим развитым интеллектом», – поделился Димитров.

При этом для создания такой «нейросети будущего» команда будет использовать текущие наработки Сбера и существующие датасеты, — это позволит быстро обучить модель. В работе над проектом принимали участие команды ученых из Sber AI, SberDevices, AIRI и SberCloud.

Впереди всех

ruDALL-E представляет собой русскоязычных аналог нейросети DALL-E (название нейросети представляет собой соединение фамилии испанского художника Сальвадора Дали и имени мультяшного робота WALL-E) от американской компании по исследованию и внедрению искусственного интеллекта OpenAI. Однако исходный код модели так и не был опубликован, поэтому разработчикам Sber AI и SberDevices пришлось воспроизвести его с нуля, обучив созданную нейросеть обработке русскоязычных запросов. Обучение происходило на суперкомпьютере Сбера «Кристофари».

Младшая модель ruDALL-E с 1,3 млрд параметров была представлена осенью 2021 года. По словам Димитрова, в основе русскоязычной модели лежат три алгоритма, которые генерируют изображения и выбирают наиболее соответствующие описанию.

«Если отталкиваться от данных, которые OpenAI публикует в блоге DALL-E, то в некоторых аспектах мы действительно обогнали американскую нейросеть. Например, наша создает менее мультяшные изображения. Но без теста DALL-E сложно что-то точно утверждать и сравнивать», – уверен Денис Димитров.

По данным «Газеты.Ru», ближайшее обновление ruDALL-E будет опубликовано в апреле этого года. На разработку новой большой версии с 12 млрд параметров у команд Sber AI и SberDevices ушло порядка девяти месяцев, обучали модель на суперкомпьютере «Кристофари Нео». Нейросеть по-прежнему сможет опробовать любой желающий, однако код Сбер публиковать не планирует, так как хочет в будущем коммерциализировать проект.

Димитров подчеркнул, что нейросеть сможет облегчить работу дизайнеров и художников, дать им новые идеи. Ее также можно будет использовать для создания сервиса стоковых фотографий, которыми часто иллюстрируют рекламные и журналистские материалы. По словам Димитрова, новая версия будет создавать более реалистичные и качественные изображения.

«Связность картинки также улучшилась. Когда мы генерируем изображение человека, то мы не хотим видеть ухо на подбородке. Кроме того, нейросеть стала гораздо лучше понимать смысл текста, соответственно, она делает картинку более релевантной тексту», – отметил собеседник «Газеты.Ru».

Главный минус ruDALL-E заключается в том, что нейросеть не может создавать русскоязычный текст (вывески, дорожные знаки, документы) и лица людей. Дело в том, что для этого нужны датасеты, то есть наборы данных, на которых нейросеть учится. Чтобы решить эти проблемы, нужно собрать качественные датасеты — на это может потребоваться много времени, примерно от полугода.

Успех очевиден

Доктор технических наук, заведующий научно-исследовательской лабораторией СПбПУ Лев Уткин отметил во время беседы с «Газетой.Ru», что команда Sber AI занимается очень актуальной задачей.

«Мало кто берется за создание такой нейросети, потому что для этого необходим сильный научный коллектив, вычислительные мощности, — без суперкомпьютера и инвестиций тут не обойтись. Если у них получится, в чем я не сомневаюсь, то это будет существенный скачок технологии.

Вообще я ни разу не слышал о нейросети, которая могла бы решать такое большое количество задач. Две-три – да, — есть такие модели, — но 20? Это заслуживает восхищения», – считает эксперт.

По словам Уткина, у такой мультимодальной нейросети может быть очень много применений, например, диагностика пациента, во время которой нужно учитывать множество различных показателей, от МРТ до анализа крови. Использование мультимодальной нейросети позволит получать более качественный и точный результат исследования.

«Создание такой нейросети также частично решает проблему «катастрофического забывания» нейросетей. Это когда вы изучили математику, а потом физику, и на следующий день вы уже не можете решать задачи математическим подходом. Именно это и происходит с нейросетями, а теперь представьте, что она разом решает сразу 20 задач», – подчеркнул Уткин.

Технический директор медтех-компании MDinc Мария Каряева также считает, что с точки зрения научной составляющей исследовательская работа в данном направлении вносит огромный вклад в развитие ИИ.

«Но если рассматривать со стороны бизнеса, то здесь нужно понять, сколько из этих 20 по-настоящему рабочих кейсов. Сделать «классный, но где и как применять – не знаем» инструмент можно, но только как его монетизировать и продавать – непонятно», – отметила Каряева.

При этом, по ее словам, кроме Сбера такую нейросеть мало кто сможет создать.

«Для этого необходимы огромные вычислительные мощности и датасет, который в Сбере размечали и собирали на протяжении долгого времени. Только тренировка сети на суперкомпьютере Сбера «Кристофари» заняла 37 дней. В науке есть инновационные идеи, но нет необходимых мощностей и возможности их получить, а у крупного бизнеса есть мощности и финансы. Поэтому сочетание близкого к безграничным ресурсам Сбера с по-научному глубокой идеей – верный путь к революционному решению для рынка», – уверена собеседница «Газеты.Ru».

Поделиться:
Загрузка