Поразительно точные личные досье на пользователей интернета можно составлять и не взламывая их аккаунты, лишь на основе автоматизированного анализа лайков — популярной опции, предлагаемой пользователям соцсетей. По лайкам можно получить представление не только о расе, возрасте, сексуальной ориентации, занятиях и уровне интеллекта, но также и о религиозных взглядах, политических симпатиях, потребительских предпочтениях, психологическом типе, деталях биографии и другие персональные характеристики, в том числе такие, которые люди предпочитают не афишировать.
Статья с описанием метода, позволяющего извлекать персональные данные из лайков, опубликованав ночь на вторник в Proceedings of the National Academy of Sciences.
С помощью специально написанного предсказательного алгоритма они проанализировали историю лайков более 58 тысяч пользователей Facebook (владелец компания Meta признана в России экстремистской и запрещена), согласившихся участвовать в эксперименте и предоставивших авторам (для проверки правильности предсказательной модели) данные своих персональных профилей, а также результаты психометрических онлайн-тестов, собранные при помощи сетевой службы myPersonality. Результатом этого исследования стала статистическая модель, умеющая извлекать личные характеристики из истории лайков с высокой (в некоторых случаях очень высокой) точностью.
Заметим, что персональные характеристики, которые модель извлекла из базы данных, лишь в очень небольшом числе случаев основывались на «однозначных» кликах, что свидетельствует о хорошем аналитическом потенциале алгоритма.
Например, менее 5% юзеров-геев («Международное общественное движение ЛГБТ» признано экстремистским и террористическим, запрещено на территории РФ) лайкали материалы, посвященные гейским свадьбам и прочим событиям, однозначно связанным с гей-активностью, при этом сексуальная ориентация подавляющего большинства геев была угадана правильно. Сделано это было за счет того, что модель научилась правильно определять семантический контекст лайка, обрабатывая большие объемы менее информативных, но более популярных лайков, адресованных ТВ-шоу, музыкальным исполнителям и прочим событиям, которые появлялись в лентах пользователей.
Высокая предсказательная точность статистической модели удивила самих авторов статьи.
Помимо уже перечисленных, модель научилась извлекать из лайков и такие характеристики, как уровень интеллекта, эмоциональной устойчивости, открытости и степень экстравертности.
Несмотря на то что извлекать подобную информацию, пользуясь лишь косвенными данными, довольно сложно, предсказательная точность алгоритма здесь также превзошла все ожидания. Так, обнаружилось, что основанная на анализе лайков оценка уровня психологической открытости (готовности человека приветствовать изменения) в целом совпадает с результатами индивидуальных психологических тестов, которые прошли пользователи Facebook, участвовавшие в эксперименте. То же самое относится и к уровню интеллекта, экстравертности, эмоциональной устойчивости (способности контролировать свои эмоции) и другим психологическим характеристикам, извлеченным из лайков.
Обнаружились и некоторые странности.
Так, судя по числу проставленных лайков, пользователи с высоким IQ испытывают непонятную тягу к картошке фри, зажаренной фигурными спиралями, а фотографии пауков привлекают повышенное внимание некурящих граждан.
Как бы то ни было, информация, извлеченная из одних только лайков, поможет создать удивительно точные персональные досье на миллионы интернет-пользователей — уверены математики из Кембриджа.
В этом смысле лайки могут быть не менее, а в некоторых случаях и более информативными, чем традиционный дата-майнинг, использующий поисковые запросы и историю просмотров. Также на основе лайков можно проводить относительно дешевые и беспрецедентно большие по охвату аудитории замеры психологических параметров, не прибегая к сложным опросникам и дорогостоящему социологическому мониторингу.
Такие замеры могут представлять большую ценность для фундаментальной науки, изучающей поведение человека и общества, но могут быть использованы и в корыстных целях экономическими конкурентами, а также в политической борьбе, программировании общественного мнения и в планировании информационных провокаций.
«Предсказательные модели способны обрабатывать информацию любого типа, которая циркулирует в соцсетях, и извлекать с высокой точностью интересующие нас характеристики из косвенных сигналов, получая сведения, которые могут скрывать люди», — резюмируют авторы статьи.
Ведь сводить свое присутствие в интернете к минимуму в надежде уменьшить риск, что вашими персональными данными могут воспользоваться другие, совсем не выход, так как разработаны методы, позволяющие получать из соцсетей информацию даже о людях, не использующих эти сервисы вообще, о чем «Газета.Ru» писала.