Денис Драгунский о мужестве
честно вглядеться в лица
своих предков

«Война спама в сердце науки»

Западные научные издательства приняли к публикации 120 статей с белибердой

Надежда Маркина 26.02.2014, 19:16
iStockphoto

Французский инженер уличил научные издания в публикации десятков статей, сгенерированных компьютером. Электронная белиберда напомнила нашумевшую несколько лет назад в России историю с «корчевателем».

Известные издатели научно-популярной периодики Springer и IEEE (Institute of Electrical and Electronics Engineers) отзывают более 120 статей из своих подписных сервисов после того, как французский исследователь обнаружил, что эти статьи сгенерированы компьютером.

В течение двух лет компьютерный специалист Кирилл Лаббе из Университета Жозефа Фурье в Гренобле составлял каталог сгенерированных компьютером статей, которые фигурировали более чем в 30 материалах научных конференций с 2008 до 2013 год. 16 из них опубликованы немецким издательством Springer, а более 100 — издательством IEEE в Нью-Йорке, пишет Nature News.

После того как Лаббе неофициально информировал издателей об этом факте, они отозвали статьи.

Лаббе разработал путь для автоматического обнаружения текстов, сгенерированных программой SCIgen, которая в случайном порядке комбинирует последовательности слов, чтобы создать фальшивую псевдонаучную статью. SCIgen была изобретена в 2005 году учеными Массачусетского университета с целью доказать, что конференции могут принимать статьи с бессмысленным содержанием. О том, как они развлеклись с использованием этой программы, ученые написали в статье «Компьютерная конференция приняла статью с белибердой», которую опубликовали в Nature.

Аналогичная ей программа успешно генерирует физические статьи на сайтах arXiv vs. snarXiv. SCIgen доступна для свободного скачивания и использования, и неясно, сколько людей ею воспользовались и с какой целью. Так, продукция SCIgen неожиданно всплыла на вполне серьезных конференциях, когда организаторы принимали фальшивые статьи.

Большая часть конференций, на которых были приняты фальшивые публикации, проходила в Китае, и большая часть авторов фейковых статей имеют китайскую аффиляцию. «Я не был уверен в масштабе проблемы, но я знал, что это происходит. Мы иногда получали письма с уведомлением, что SCIgen статьи где-либо появились», — говорит Джереми Стриблинг, соавтор программы, в то время работавший в MIT.

«Эти статьи довольно легко обнаружить», — говорит Лаббе, который создал сайт, где пользователи могут протестировать, не сгенерирована ли та или иная статья компьютером. Свою технику обнаружения подделок он опубликовал в журнале Scientometrics в 2012 году.

Незадолго до выхода этой публикации он информировал IEEE о 85 найденных фальшивых статьях. На следующий год он нашел еще некое количество подделок. Статьи были удалены с сайта, правда при этом не были указаны причины удаления.

По словам Рут Франсис, директора Springer по коммуникациям, компания вошла в контакт с редакторами и постаралась найти авторов, чтобы призвать их к ответу. Она заверила, что материалы авторитетных научных конференций рецензируются, так что с ними не может такого произойти.

Разоблачитель научного фальшака Лаббе сам не гнушался «пошалить», генерируя научную белиберду.

В апреле 2010 года он использовал SCIgen, чтобы сгенерировать 102 статьи под именем фиктивного автора Ике Антаре. Он продемонстрировал, насколько легко внедрить эти фейковые статьи в базу данных Google Scholar, поднять до небес свой хирш-индекс и сделать себя самым цитируемым ученым XXI века.

Как считает Лаббе, последнее открытие — только один симптом «войны спама, начавшейся в сердце науки», в которой ученые подвергаются давлению с требованием публиковать как можно больше статей.

У статей-мистификаций, принятых к публикации, долгая история. Эта история отразила слабость контроля при принятии статей в академических журналах: от фейковой статьи, опубликованной физиком Аланом Сокалом из Нью-Йоркского университета в журнале Social Text в 1996 году, до публикации американского репортера Джона Бхэнона в Science в 2013 году, в которой он описывает, как 150 журналов с открытым доступом приняли к публикации статью с намеренно искаженными результатами исследования.

Лаббе подчеркивает, что сгенерированные SCIgen статьи несложно обнаружить его инструментом, но поскольку он не может проверить статьи, доступ к которым дается по подписке, остается неясным, сколько среди них таких подделок.

В нашей стране есть своя история компьютерного создания научных публикаций — небезызвестный «Корчеватель».

Полное название статьи «Корчеватель: алгоритм типичной унификации точек доступа и избыточности», она была опубликована на сайте «Журнала научных публикаций аспирантов и докторантов» в августе 2008 года. Статья была сгенерирована программой SCIgen и переведена на русский машинным переводом.

Кстати, англоязычный оригинал статьи еще в 2005 году был принят на Всемирную конференцию по систематике, кибернетике и информатике.

Эксперимент состоял в переводе статьи на русский язык и доставке ее в журнал. Результат – журнал, рекомендованный ВАК для публикации материалов к защите научных диссертаций, опубликовал фальшивую статью несуществующего ученого Михаила Жукова. После разоблачения статья была удалена с сайта журнала, а журнал потерял репутацию. В сокращенном варианте статью можно найти тут.