50 языков с одного взгляда

Компьютер научили усваивать системы письменности разных языков с первого взгляда

Санскрит, гуджарати, тибетский язык, славянская глаголица и «буквы» из сериала «Футурама» — исследователи научили компьютер улавливать отличительные признаки этих систем письменности и создавать новые вписывающиеся в них символы буквально с одного взгляда.

Концепт — это набор абстрактных идей, образов, понятий и схем, обобщающих разнообразные признаки внешнего мира. Когда человек знакомится с новым концептом, например каким-то абсолютно новым для него образцом бытовой техники, он, во-первых, с первого взгляда понимает, что это именно бытовая техника, а во-вторых, может предположить, для чего именно она предназначена.

Так происходит потому, что у человека уже есть набор знаний о других подобных предметах. Кроме того, люди способны выделять общие признаки, свойственные всем предметам той или иной категории, и понимать, чем эти предметы отличаются между собой.

Ученые в течение долгого времени пытались заставить компьютеры делать то же самое, и эти попытки можно назвать отчасти успешными. Существуют

компьютерные программы, которые способны обобщать информацию о множестве каких-либо объектов, формировать из нее концепт, а затем классифицировать другие предметы как относящиеся или не относящиеся к этой категории.

Отчасти успешными эти попытки являются потому, что для формирования концепта компьютеру нужно огромное количество информации: почти десять лет назад в журнале Science вышла статья ученых из Торонтского университета (Канада) — Руслана Салахутдинова и Джоффри Хинтона. Исследователи представили свои разработки в области машинного обучения, продемонстрировав программу, которая составила представление о том, как выглядят цифры от 0 до 9. Правда, тогда

исследователям пришлось показать алгоритму по 6 тыс. примеров написания каждой цифры, то есть всего потребовалось около 60 тыс. образцов каждого объекта.

В ночь на 11 декабря журнал Science опубликовал новое исследование группы ученых — Руслана Салахутдинова, Брэндена Лэйка (Нью-Йоркский университет) и Джошуа Тененбаума (Массачусетский технологический институт), — которая продолжала работать над улучшением обучаемости компьютерных алгоритмов. Исследователям удалось добиться того, чтобы компьютер формировал концепт о том, как выглядят символы той или иной системы письменности практически с одного взгляда, при помощи всего лишь нескольких десятков символов.

В основе работы алгоритма лежит байесовское программирование. Байесовская сеть представляет собой вероятностную модель — множество переменных и их вероятностных зависимостей. В случае с разработанным компьютерным алгоритмом особенность ее работы заключалась в следующем: допустим, буква А записана в виде специального кода. Когда код запускается, алгоритм начинает генерировать разнообразные варианты написания буквы А без участия человека.

Основное отличие этого алгоритма, написанного на языке вероятностного программирования, заключается в том, что генерируемые им варианты написания буквы будут разными — обычная программа всегда воспроизводит одно и то же.

Стандартные алгоритмы распознавания образов воспринимают концепт как набор точек (пикселей) или определенных черт, байесовское программирование подразумевает создание так называемой порождающей модели, которая улавливает как структуру какого-либо процесса, так и его внутренние причинно-следственные связи. Кроме того, модель учится учиться, используя уже полученную информацию для освоения новой, например осваивает греческий алфавит, опираясь на знание латинского.

Именно такой алгоритм и был создан исследовательской группой. В ходе работы в программу были загружены

1623 рукописных символа из 50 систем письменности, включающих и весьма необычные: тибетского языка, языка гуджарати, санскрита, одной из первых славянских азбук глаголицы и даже несуществующего языка из мультсериала «Футурама».

В ходе экспериментов компьютерному алгоритму и людям предлагалось выполнить несколько заданий. Сначала всем участникам опыта предлагалось посмотреть (в случае с компьютером — воспользоваться имеющимися у него в памяти символами) на образцы письменности разных языков, а затем отнести ранее не виденные буквы к нужному алфавиту. Второе задание заключалось в том, что люди и алгоритм должны были написать показанный им символ, а целью последнего задания было самостоятельное создание символов в стиле того или иного алфавита.

Изображения, получившиеся после выполнения второго и третьего заданий, были показаны экспертам, которых просили определить, кто автор рисунка — человек или машина.

Менее 25% экспертов смогли ответить на этот вопрос точнее, чем в том случае, если бы они подбрасывали монетку, — это значит, что «визуальный тест Тьюринга» был пройден,

и компьютер действительно смог составить представление о том или ином алфавите так же успешно, как человек, основываясь всего лишь на нескольких исходных буквах.

«Еще до того, как они идут в детский сад, дети учатся распознавать новые концепты на основе одного-единственного примера и даже могут сами придумывать другие примеры, которых они никогда не видели, — отмечает Джошуа Тененбаум. — Я хочу создать модель, которая сможет это сделать, еще с конца 1990-х годов. Хотя мы все еще далеки от создания машин, которые бы смогли посоревноваться интеллектом с ребенком, сейчас нам

впервые удалось разработать алгоритм, способный запоминать и использовать широкий спектр реально существующих концептов — пусть даже и таких простых, как буквы, — таким же образом, как это делают люди».

Авторы исследования полагают, что созданная ими программа поможет понять, как именно маленькие дети учатся писать и почему отдельные буквы могут представлять для них особую сложность. Кроме того, ученые надеются, что созданный алгоритм можно будет усовершенствовать и создать на его основе более «умную» систему, основанную на искусственных нейронных сетях.