Газета.Ru в Telegram
Новые комментарии +

Яндекс научил свою нейросеть дореволюционной орфографии

«Поиск по архивам» Яндекса теперь позволяет искать тексты с дореволюционной орфографией. Об этом сообщает пресс-служба корпорации.

До прихода к власти в России большевиков орфографические правила русского языка были другими. Употреблялась буква «i» и ряд других знаков, по-другому писались некоторые окончания и суффиксы, например, «Яблоки са́маго лу́чшаго сорта». Реформа, разработка которой проходила и до революции, упростила письменный русский язык и избавила его от ряда атавизмов.

Сервис Яндекса «Поиск по архивам» обеспечивает доступ к 2,5 млн страниц архивных документов, расшифрованных в текст. Новая версия его алгоритма может учитывать дореформенные особенности начертания букв и орфографии, позволяя искать необходимую информацию по каталогу или через строку поиска.

Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII -XIX веков и десятков миллионов сгенерированных примеров. Сами материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. «Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.

Первым представленным в сервисе фондом стал Главархив Москвы, именно на его материалах разработчики обучали нейросеть.

Выбор пола ребенка и клонирование людей: что вы думаете по спорным вопросам биоэтики? Пройдите опрос «Газеты.Ru».

Поделиться:
Загрузка