В России создали ИИ, который предсказывает взаимодействие белков с точностью до 95%

НИУ ВШЭ: модель GSMFormer-PPI точно предсказывает взаимодействия между белками

Shutterstock

Ученые НИУ ВШЭ разработали модель искусственного интеллекта, способную с высокой точностью предсказывать взаимодействие белков — один из ключевых процессов в клетке. Об этом «Газете.Ru» сообщили в пресс-службе образовательного учреждения.

Модель получила название GSMFormer-PPI и достигает точности до 95,7%. Она создана в Институте искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭ.

Белки взаимодействуют друг с другом, обеспечивая передачу сигналов, запуск химических реакций и работу клеточных механизмов. Нарушения этих взаимодействий лежат в основе многих заболеваний, поэтому их изучение важно для поиска лекарственных мишеней. Однако экспериментально проверять все возможные пары белков крайне сложно из-за их огромного числа.

Новая система решает эту задачу с помощью машинного обучения. В отличие от предыдущих моделей, она анализирует белок сразу на трех уровнях: аминокислотную последовательность, трехмерную структуру и свойства поверхности молекулы — именно той области, через которую происходит «узнавание» между белками.

Для обработки этих данных используются разные подходы: языковые модели — для последовательностей, графовые нейросети — для структуры и отдельные алгоритмы — для анализа поверхности. Затем все признаки объединяются в трансформерной архитектуре, которая не просто складывает информацию, а выявляет связи между различными характеристиками белка.

«При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга», — пояснила один из авторов статьи, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ Мария Попцова.

Тестирование на базе данных PINDER показало, что новая модель превосходит популярные методы, такие как графовые нейросети GCN и GAT. При этом упрощенная версия алгоритма, где не анализировались взаимосвязи между типами данных, работала заметно хуже.

Авторы также показали, что для точного прогноза важны все три источника информации: при исключении любого из них качество модели снижалось.

В перспективе такие системы могут ускорить изучение молекулярных механизмов заболеваний, поиск биомаркеров и разработку новых лекарств, значительно сокращая объем лабораторных экспериментов.

Ранее в России нашли способ ускорить заживление после зубной имплантации.