Институт искусственного интеллекта AIRI представил открытую версию модели искусственного интеллекта OmniFusion – OmniFusion 1.1, сообщает пресс-служба института.
Отмечается, что она способна распознавать картинки и вести визуальный диалог. При этом ИИ-модель теперь поддерживает русский язык.
Как уточнили в AIRI, технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace.
Мультимодальная языковая модель уже умеет поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам. При этом планируется, что в будущем это станет возможно по аудио, 3D и видеоконтенту. Open source код для обучения и веса модели доступны к использованию.
Кроме того, по утверждению разработчиков, модель способна объяснить, что изображено на фото, рассказать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения, а также сообщить схему сборки устройства по фото отдельных его частей.
При этом она умеет распознавать текст и решать задачи. Например, модель сможет решить написанный на доске математический пример или распознать формулу.
Отмечается, что архитектура OmniFusion основана на методике совмещения предварительно обученной большой языковой модели и визуальных энкодеров, позволяющих кодировать информацию на изображении в эмбеддинг.
Напомним, в обучении модели искусственного интеллекта OmniFusion задействована научная группа FusionBrain института AIRI. Также в нем принимают участие специалисты из Sber AI и SberDevices.