Газета.Ru в Telegram
Новые комментарии +

«Эволюция заставляет специальности становиться конкретнее и эффективнее»

Алексей Натекин о будущем профессий с приставкой «data»

Шестого апреля 2021 года на площадке «Сколтеха» пройдет первый в России Молодежный форум по управлению Интернетом (Youth RIGF). В преддверии мероприятия «Газета.Ru» поговорила с Алексеем Натекиным, создателем и координатором международного сообщества data-сайентистов «Open Data Science» и спикером секции «Персональные данные: чьи они на самом деле» о будущем профессий с приставкой «data», шансах сохранить анонимность в Интернете и возможностях использования «цифрового следа» человека.

— Вот мы все чаще сейчас говорим о data-журналистах, data-сайентистах. Почему сегодня у многих профессий появляется ответвление со словом «data»?

— Увеличение числа профессий с приставкой data - на самом деле забавное и очень интересное явление. Чтобы понять, надолго ли это, и что придет на замену data-сайентистам давайте сперва посмотрим на то, что вообще происходит, и, как говорится, откуда здесь все эти люди. А именно, в нашей области сегодня происходят сразу несколько тенденций, имеющих прямую биологически-эволюционную аналогию.

Во-первых, сам инструментарий анализа данных становится все более мейнстримным - как эдакое «новое программирование».

Это чем-то похоже на историю с программированием лет 20 назад, когда повсеместно во всех индустриях и областях начали бурно развиваться все виды приложений, требующие разработчиков.

Причем, все это идет как со стороны наук, например, с растущим спросом на специалистов - эконометриков, психометриков и других; так и со стороны бизнеса - с миллионом видов аналитиков с разными приставками: продуктовый, клиентский, риск-, дата-, и миллион прочих. В том числе некоторые профессии дополнительно эволюционируют и «прокачиваются», предоставляя за счет анализа данных новый тип продуктов и ценности.

— Даже в журналистике?

— Ну, например, качественная дата журналистика позволяет не только красиво визуализировать данные, но и рассказать обоснованную данными историю (которую становится проще проверить). А в зависимости от результата - даже предоставить читателям самим поковыряться в данных, не отходя от статьи, по сути, собрав и пересобрав журналистскую историю с теми же данными под себя.

— Насколько универсален data-инструментарий?

— Сам базовый data-инструментарий у подавляющего большинства аналитических профессий выше - максимально схож, и переносим между ними.

Так, специалисты по анализу данных могут достаточно легко горизонтально менять свою область - перейти из финансов в телеком, а оттуда - куда-нибудь еще, хоть в нефтегаз и химическое производство. И не менее забавно, что все это многообразие специальностей может дополнительно уточняться и делиться внутри себя еще и на подкасты - с уклоном в анализ текстов, изображений, процессов, графов и связей, прогнозирования, и других вещей.

Можно сказать, что эволюционная аналогия-параллель здесь состоит в том, что в области анализа данных (data science) идет бурный рост видообразования. В основном за счет того, что возможности по анализу данных проникают во все доступные (не изолированные/зарегулированные/закостенелые) области, словно в новые биомы (как степи, тропические леса или тундры), и наводя в них шороху.

— Это мы говорили про инструментарий анализа данных. Что еще важно?

— Надо сказать, что с развитием области, обменом опытом и лучшими практиками - постепенно отпочковываются и выкристаллизовываются более конкретные специальности. Например, младшие инженеры - специалисты именно по инженерной части внедрения моделей машинного обучения в рабочие сервисы. Или именно дата-инженеры - ответственные за инфраструктуру хранения и обработки самих данных.

— Как это все отличать...?

— Поначалу, как только такие подспециальности появляются, они могут быть не совсем внятными, как например набирающая популярность последний год-два специальность ML Ops, но с ходом времени в них появляются свои лучшие практики, конкретика, и полноценное место под солнцем.

А еще есть чуть более зрелый и формальный набор дата специальностей, где уже было проведено немало работы.

Погружаясь глубже в дебри бизнеса, очерчиваются роли владельцев данных (data owners) - людей, отвечающих за свои данные как за полноценный бизнес-продукт. А рядом с ними - отделы управления данными (data governance), которые следят за тем, что и где лежит, в каком качестве, плюс с ними же - и специалисты по управлению и проверке качества самих данных (data quality assurance).

Причем внутрибизнесовые специальности работы с данными также развиваются, привнося новые задачи и роли. Например, на Западе во всем этом ансамбле специалистов последние несколько лет активно появляются отдельно выделенные люди, отвечающие за приватность, и более конкретно, за соблюдение соответствующих законов — вплоть до введения в компании отдельной роли Chief Data Protection Officer. Таких chief-вождей с приставкой data может быть отдельный ворох - и Chief Data Officer, и Chief Data Scientist, причем не умаляя иногда уже имеющихся ролей Chief Analytics Officer и Chief Scientist.

— Возвращаясь к эволюционной аналогии… Получается, что в области анализа данных идет не только активное видообразование путем перемешивания и появлением новых видов в областях-биомах, но еще имеет место и естественный отбор.

— Да. Причем отбор, по Дарвину — довлеет на новые специальности тем, что заставляет их становиться конкретнее и эффективнее. Наверное, когда в компаниях с тысячами и сотнями тысяч сотрудников появляются свои соответствующие Chief Officers, озвученная data-(под)специальность скорее всего успешно себя проявила в естественном отборе. И как правило, эти специальности не перестают развиваться дальше.

— Соответственно, некоторые специальности становятся неактуальными...

— Как следствие как раз естественного отбора, некоторые специальности могут как переформатироваться, так и вовсе исчезать по ходу постепенного взросления области.

Возвращаясь к аналогии с программированием, 25 лет назад можно было нанимать computer scientists - специалистов, которые как раз часто приходили в область по стопам своих аспирантур. В общем, очень академические высококвалифицированные специалисты, которые были очень востребованы в бурно растущей области создания ПО, особенно на фоне еще и развития интернета.

Эта историческая параллель очень напоминает текущую роль сферического data-сайентиста в вакууме, но картинка будет не полной без еще одной аналогии.

10-15 лет назад еще была такая профессия как «веб-мастер» - буквально мастер на все руки, который мог запрограммировать все составляющие сайта, а еще сам подготовить для него весь контент, и даже продвижением тоже мог заняться сам. Сегодня можно собрать такого веб-мастера из десятка специалистов - фронтенд и бэкэнд разработчики, админ/девопс, отдельные ui и ux дизайнеры, мобильные веб разработчики, SEO специалисты и маркетологи с копирайтерами. И это еще не включает всех остальных участников команд, помогающих с управлением этим взводом специалистов.

Может быть, кто-то хотел бы вернуть себе «свой 2007-й» хотя бы за тем, чтобы вместо этого взвода - найти одного веб-мастера, который бы кое-как, но сделал вообще все. Надеюсь, не надо объяснять иронию. Очевидно, то, что веб-мастера исчезли, это все-таки к лучшему...

С data-сайентистами сейчас происходит в ускоренном режиме похожий процесс — я уже упомянул про то, что в работе над продуктами с анализом данных могут работать больше десятка разных дата-специалистов. Причем, каждый из этих специалистов важен и может быть полезен, в зависимости от серьезности разработки вашего продукта. Держать все эти специальности в одной голове, как и требовать этого при поиске таких специалистов – мало реалистичный сценарий.

К тому же, более продвинутые в этой теме компании, понимающие - кого и зачем они ищут к себе в дата команды, уже уточняют специализацию.

В нашей эволюционной аналогии для data-специальностей будут и специальности, которые как неудачные ветки эволюционного дерева ни к чему не пришли. Будут ветки, которые, как некоторые наши предки типа неандертальцев, отчасти вымерли, а отчасти скрестились с нами. А еще, на этом дереве будут и общие для многих видов предки - в частности, профессия data-сайентиста, от которой отпочковалось множество новых специальностей.

Это нормально, что подобно тому, как computer scientists исчезли, но Computer Science как таковая никуда не пропала и продолжает активно развиваться. Точно также и конкретные роли, включая роль data-сайентиста и еще наверняка множество других data-ролей, останется в прошлом, в то время как все дерево Data Science специальностей продолжит бурно развиваться. В нем будут появляться очаги бурного появления новых видов. Эти новые виды будут развиваться не без естественного отбора на рынке специалистов, укрепляться и доформировываться. А менее конкурентные специальности - сращиваться, или уступать место другим.

— То есть всё движется к лучшему, вы хотите сказать?

— Просто на замену data-сайентистам придет новое поколение более конкретных, более развившихся и более эффективных data-ролей.

— Поговорим о шансах сохранить анонимность в Интернете. Можно ли сказать, что в Интернете все данные автоматически становятся публичными? Остались ли ещё люди, которых не получится найти в Интернете, или данные обо всех уже давно там есть?

— Говоря о наших данных и своем цифровом следе в интернете, на поверхности лежат прежде всего те вещи, которые мы сами умышленно создаем и публикуем в Сети. Например, это абсолютно все, чем мы хотим поделиться в социальных сетях. Это наш креатив во всех видах формах и расцветках - видео, презентации, статьи, графика, код, подкасты - или даже просто наши реакции и комментарии к ним.

Возвращаясь к истории, раньше существовала городская легенда-страшилка, что где-то в интернете есть сайт, на котором можно найти всю информация про любого человека. Забавно, что это оказалось самосбывающимся пророчеством, в основе которого на самом деле была потребность людей делиться про себя всем тем, чем они делятся с окружающими. Поэтому неудивительно, что в этой новой коммуникационной и информационной среде, распространившейся на весь мир, потребность делиться и обмениваться люди открыли сами. Это то, что называется нашим активным цифровым следом. Это то, что мы осознанно за собой оставляем.

Отличительная черта времени состоит в том, что крупнейшие сайты на планете не производят своего собственного контента, но дают для своих пользователей все возможности по его наполнению и обмену.

Причем не важно - говорим мы о соцсетях, видеохостинге, или сервисах по аренде жилья. Все человечество вовлеклось в эту обширную публичную сеть, где все делятся всем, и все доступно. Да, где-то информация может быть умеренно-закрытой и клубной, где-то доступной по подписке, но принципиально - все, чем поделились, так или иначе может быть доступно. Дорога возникает под шагами идущего, и современное общество в интернете — под нашими активными цифровыми следами. Кстати, про то, как современная культура обмена информацией, ее открытость и публичность — помимо общества, на реактивной тяге развивает науку — отдельная большая жизнеутверждающая история.

Однако, публичная информация в интернете - лишь верхушка айсберга данных. Куда большая часть этого айсберга — возможно, тоже ваша информация, но не так публично доступная, как может показаться. Это наш пассивный цифровой след, или что еще иногда называют — цифровой тенью. Например, прямо сейчас, когда кто-то, может быть, будет читать это интервью, стоят мириады серверных взаимодействий, и связанных с ними генерируемых потоков данных.

— Часто приходится слышать, что смартфоны считывают данные, даже когда мы их не используем. Многие люди заклеивают камеры компьютеров, не говорят о чем-то важном рядом с динамиками. Есть ли основания для таких предосторожностей, или это все-таки теории заговоров?

— Да, со смартфонами цифровой след предлагает больше разнообразных данных — например, в нашем потреблении информации мы теперь оставляем за собой еще и географический след. А при установке приложений, часто по своему незнанию, предоставляем им доступ к множеству неочевидных вещей — спискам контактов, звонков и, конечно, микрофону и камере. Очевидно, что голосовые ассистенты не могут работать без микрофона, но как и что именно будет анализироваться — на совести приложений.

Всевозможная боязнь слежки и деанонимизации, немного опоздала, чтобы с этим можно было что-то придумать.

Чуть ли не в половине случаев идентифицировать пользователя уже можно исключительно по его поведению на сайте, даже без логина.

С деанонимизацией все еще драматичнее - например, при должной разработке, а также сборе и разметке достаточных данных (что пока еще не мейнстрим, но достижимо, наверное, в течение ближайших 3-5 лет), можно успешно идентифицировать в видеопотоке человека исключительно по походке - даже если он надел полнотельный хэллоуинский костюм с маской.

А если копнуть глубже в историю, то еще век назад, до появления биометрии, применялась графометрия — определение и идентификация человека по почерку и письму в целом. Так что, только если вы специально тщательно не проработаете себе альтер-эго, даже ваши анонимные комментарии можно умеренно-успешно связать с вашей настоящей личностью. В современном мире полностью спрятаться можно только уйдя в глубокие леса и пещеры, забыв про современную цифровую цивилизацию.

— Уже сейчас по «цифровому следу» человека можно буквально продлить ему жизнь, создав бота или цифровую копию. Не это ли тот условный «эликсир бессмертия», пусть и цифровой, который все ищут?

— Все просто - эта копия является эликсиром бессмертия в той же мере, что и в разные времена им являлись портреты и личные дневники человека. Сейчас мы получаем возможность чуть детальнее реконструировать опыт взаимодействия с человеком, банально имея про него куда больше данных. Например, если раньше у нас были бы только портреты и фотографии, то сейчас мы смогли бы сгенерировать портрет «по запросу». Может быть еще и анимированную, и вдовесок — озвучивающую конкретные фразы. Возможно даже с характерными для этого человека повадками и зашитыми в образ предпочтениями.

Например, имея детальные модели цифровых образов людей, можно было бы генерировать и видео по заданному сюжету.

Понятно, что у следующих персонажей цифровой след не так велик, но зато аналогия будет понятнее. Можно было бы генерировать видео к запросу «Альберт Эйнштейн встречает Германа Гессе на завтраке в Кёльне 26 марта 1931 года». Но это все-равно будет сгенерированный мультимедийный материал, который можно будет также заново перегенерировать по запросу, еще и получая разнообразные результаты.

С новыми технологиями модель человека по его цифровому следу — просто их следующее качественное улучшение. Они не могут явиться заменой самим живым людям и их идентичности, о чем нужно помнить обращающимся к этим моделям. Они не напишут новые материалы так, словно они бы жили сейчас. Но они помогают передать свой опыт, чтобы он, как и в целом информация о них, как о его авторах, не исчезла вместе с их биологическим носителем. Но живой человек – все-таки, нечто большее, чем сумма его данных.

Новости и материалы
Россиянам рассказали, какое вещество в шашлыке вызывает рак
Онколог Черемушкин: при жарке мяса в нем образуется канцероген бензапирен
Названы заболевания, которые могут перерождаться в рак
Фиктивно трудоустраивавшую мигрантов ОПГ накрыли в Челябинске
В Канаде ввели санкции против военного руководства Ирана
Игрок клуба РПЛ заявил, что ему без разницы, кто станет чемпионом
Лукашенко освободил Косинца от должности своего помощника
Ученые выяснили, что потепление Арктики смягчает пылевые бури в Азии
Стало известно, как дрожащие руки влияют на риск деменции
В США сравнили помощь Украине и российскую военную мощь
Найден способ лечения рака без тяжелых побочных эффектов
Каждый второй россиянин стал подписчиком онлайн-кинотеатров
Экс-игрок «Зенита» сомневается в очередном чемпионстве команды
Российские космонавты развернули радиолокатор в открытом космосе
Курганец предпочел отправиться в колонию вместо обязательных работ на воле
Шойгу прибыл с рабочим визитом в Астану
Найдены пищевые добавки, связанные с риском диабета
Игрок клуба РПЛ рассказал о накопившейся злости на «Зенит»
Путин и члены РСПП остались довольны встречей
Все новости