AIRI представил открытую версию языковой ИИ-модели OmniFusion

В России разработали первую мультимодальную модель ИИ

Институт искусственного интеллекта AIRI представил открытую версию модели искусственного интеллекта OmniFusion – OmniFusion 1.1, сообщает пресс-служба института.

Отмечается, что она способна распознавать картинки и вести визуальный диалог. При этом ИИ-модель теперь поддерживает русский язык.

Как уточнили в AIRI, технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace.

Мультимодальная языковая модель уже умеет поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам. При этом планируется, что в будущем это станет возможно по аудио, 3D и видеоконтенту. Open source код для обучения и веса модели доступны к использованию.

Кроме того, по утверждению разработчиков, модель способна объяснить, что изображено на фото, рассказать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения, а также сообщить схему сборки устройства по фото отдельных его частей.

При этом она умеет распознавать текст и решать задачи. Например, модель сможет решить написанный на доске математический пример или распознать формулу.

Отмечается, что архитектура OmniFusion основана на методике совмещения предварительно обученной большой языковой модели и визуальных энкодеров, позволяющих кодировать информацию на изображении в эмбеддинг.

Напомним, в обучении модели искусственного интеллекта OmniFusion задействована научная группа FusionBrain института AIRI. Также в нем принимают участие специалисты из Sber AI и SberDevices.