В СГЭУ прошла открытая лекция с Артуром Хачуяном, основателем Social Data Hub и Tazeros Global. Студенческому информационному агентству удалось задать Артуру несколько вопросов о технологии Big Data, о ее основных методах работы и актуальности в современном мире, а также о том, как стоит вести себя в социальных сетях.
- Если изъясняться простым языком, то что такое Big Data?
- Big Data – набор алгоритмов и подходов, позволяющих извлечь дополнительные знания из огромного массива информации. По сути дела, это подходы математики и экономики, которые достаточно давно не менялись, но сейчас начали приносить экономическую и бизнес-эффективность за счет того, что набрался огромный набор данных о нас с вами, о нашем поведении. Это не какая-то магическая история, а просто набор алгоритмов и подходов по анализу данных.
- Зачем, с какой целью собирают информацию об пользователях?
Есть огромное количество технологий применения, например, машинного обучения, от улучшения работы каких-то рекламных алгоритмов, например, в условном Instagram, до систем, прогнозирующих преступность или заболевания. На самом деле существует огромное количество применения этих вещей.
- Как и когда пришла идея создать бизнес, основанный на данных технологиях?
- Сложно сказать. На самом деле, я попал в эту историю относительно со стороны. Начал учиться в университете, потом работать в студии веб-дизайна. Сначала мы приходили к автоматизации простых вещей, связанных со сбором открытой информации, а потом возникло главное жизненное прозрение, что клиентам нужно выдавать не сырые данные, а выводы, чтобы люди сразу начали пользоваться ими. И мы начали создавать алгоритмы, которые эти выводы делают. Сначала это были простые вещи, основанные на нейролингвистическом программировании, на обработке естественного языка, потом уже появились и технологии распознавания лиц.
- Из скольких человек сейчас состоит команда, какие функции выполняет человек? Это больше написание программы или впоследствии помощь в анализе собранных данных?
- У нас сейчас 64 человека. Есть традиционные программисты, которые пишут алгоритмы. Самые универсальные работники – это аналитики, которые умеют две вещи: собственно извлекать знания из алгоритмов и как-то их интерпретировать под клиентскую задачу. Есть суперкрутые ребята, которые умеют погрузиться в предметную сферу заказчика и понять вообще, что требуется. Это самая сложная работа, потому что, когда ты анализируешь данные, то для тебя что биение сердца человека, что какой-нибудь крэкинг нефти – одни и те же числа.
- Можно ли избежать сбора данных, что для этого нужно делать?
- Если мы говорим про какие-нибудь открытые источники, то это практически никак не сделать, жизнь и современная экономика устроены таким образом. Ты получаешь бесплатное приложение, например, Инстаграм или Вконтакте, но оно на самом деле только условно бесплатное, потому что ты платишь сдачей в аренду своих собственных персональных данных. Этого вряд ли получится избежать, но можно чисто теоретически. Нужно понимать, что с развитием алгоритмов доступа к чужим данным точно так же развиваются и алгоритмы, которые препятствуют доступу к этим данным. Если мы хотим скрыться от какого-нибудь трекинга рекламных сетей, достаточно просто в браузере поставить пару плагинов.
- Есть ли у Вас какие-нибудь принципы, табу, из-за которых Вы можете отказать заказчику в выполнении работы?
- Чаще всего это государственные заказы, в которых клиент просто не до конца продумал, чего он хочет, либо он пытается с точки зрения машинного обучения не совсем правильные концепции предложить. Например, условные правоохранительные органы хотят изловить несовершеннолетних наркоманов: «Мы тебе сейчас опишем, как они выглядят, а ты теперь всех таких найдешь». В Интернете мы с вами знаем, что это так не работает. Если человек подписан на группу «Я употребляю запрещенные вещества», то это совсем не значит, что человек действительно употребляет их. От таких историй мы всегда отказываемся либо от историй, когда заказчик вносит свои умозрительные заключения в построении модели. Например, я хочу модель построения преступности, но Вы, пожалуйста, у арбузных ларьков увеличьте вес этой преступности.
- Изменилось ли Ваше отношение к выкладываемой в Сети информации, когда вы начали всем этим заниматься?
- Мое отношение вообще кардинально к восприятию информации поменялось. У нас есть внутрикорпоративная шутка: «Если ты хочешь узнать, как работает мир на самом деле, то создай свой поисковик». Люди привыкли, что им нужен какой-то ответ на какой-то вопрос и они задают его в «Google» или «Яндекс». И они думают, что выданное поисковой системой – это сто процентов вся информация, но это далеко не так. Самое интересное, что только процентов 30, может быть 40, той информации, которая есть, а все остальное от пользователей скрыто в угоду тому, что компаниям не нравятся какие-либо источники. Если взять в Америке учебник по истории ВОВ, то России там вообще нет, она где-то слегла помогла, но особо не участвовала. Вопрос в том, что у меня полностью поменялось восприятие информации публичной, СМИ, фейк-ньюс и все прочее. Я сейчас вообще никому не доверяю. Сами понимаете, что объем информации увеличился настолько, что проверить достоверность практически невозможно.
- Исходя из собранных данных, можете описать портрет среднестатистического студента или, более глобально, россиянина, какие у него интересы?
- Россиянин – слишком глобально, только традиционная социология может дать ответ, так просто умозрительно я сказать не могу. Если брать, например, вопрос, что слушает Россия, то у нас получится, что все слушают рэп, включая 60-летних женщин. Почему? Потому что данных о 60-летних женщинах мало, и они попадут в некую статистическую выборку. Можно проанализировать лишь то, что находится в онлайне. Это уже ошибка статистики. Другая история - люди редко публикуют классическую музыку себе в социальные сети. Это не значит, что ее никто не слушает, просто говорит о том, что в консерватории люди не фотографируются. Если взять слишком много данных, то тоже ничего не получится, это также одна из ошибок анализа данных и как раз-таки одна из задач, на которую аналитик должен найти ответ.
- Какие самые частые ошибки совершают люди, занимающиеся не совсем законной деятельностью как в Интернете, так и вне его, пытаясь «замести следы»?
- Самая распространенная ошибка таких людей, что они со своего номера что-то на «Авито» продают. Люди просто недооценивают данные сотовых операторов, потому что, когда все идут в Москве на митинги, у большинства на лице модные маски против распознавания лиц. Во-первых, ты сам же выложишь фотографию в социальных сетях, а во-вторых, ты возьмешь с собой не выключенный мобильный телефон…
- Какие открытия или изменения должны скоро произойти, которые поменяют жизни большинства людей, если не всех?
- Сложно сказать. Я раньше 2024 года не загадываю.
- Может быть есть какие-нибудь предположения?
- Конечно, официальное футуристическое предположение, что искусственный интеллект появится, автоматизирует огромное количество профессий, сфер. Под автоматизацией я считают не войну людей с машинами, а то, что у нас появится свободное время и мы, наконец, перестанем делать то, что нам не нравится, сможем выучить английский язык. У меня утопическое отношение к применению искусственного интеллекта, а что по факту произойдет – неизвестно.
- Не считаете ли Вы, что дипфейки могут стать катализаторами каких-нибудь конфликтов?
- Вполне. Дело даже не столько в дипфейках СМИ, а в изменении отношения людей к лидерам мнений при обилии информации. Раньше, чтобы транслировать мнение общественности, нужно было купить дорогущий печатный станок и начать издавать газету, а сейчас человек с телефоном может стать распространителем информации. Правдивая ли она, сходится ли с нашим мировоззрением или нет - это второстепенный вопрос. Если завтра, например, Оля Бузова, у которой, к слову, в российском сегменте самая активная аудитория, скажет, что Земля плоская, то все поверят. Есть огромное количество людей, для которых Оля – источник получения информации. Они с ней родились и привыкли, что она была всегда. Вопрос в том, что, когда появилась контекстная реклама, ей все начали верить, потом ее стало слишком много и мы все поняли, что реклама – это ерунда. Например, банк хочет студентам навязать свою карту. Реклама не работает, на студентов не влияет, а вот если кто-то из студентов сделает пост, что я открыл для себя карту определенного банка, то это сработает. Почему? Потому что люди доверяют этому человеку. Почему? Потому что такое понятие, как «экспертность», в современных медиа исчезло. Берешь человека, пишешь, что он кандидат, доктор, кто угодно, и ему все верят, врачу с билборда все верят. Точно так же верят твоему другу, несмотря на то, что он может и не оказаться экспертом. Нельзя сказать, что это плохо. Это просто современная тенденция. Поэтому дипфейков все ждут, но они уже на самом деле и сейчас есть. Вы же, наверняка, видели кадры, где лицо Обамы накладывали на людей. Так что это появится в ближайшие пару лет. С одной стороны, это плохо, с другой стороны, зачем нужны телеведущие, можно вместо них сделать какую-нибудь такую же прикольную вещь и она будет говорить.
- Какие компании собирают больше всего данных?
- Самые крупные сборщики данных – компании - владельцы ресурсов, например, Facebook, Instagram. Таких компаний много, в каждой стране обязательно есть что-нибудь такое внегосударственное, которое собирает все про всех и никак нельзя это проконтролировать. Вы вряд ли знаете, что такое компания Palantir. Она делает примерно то же самое, что и мы в России, только в Америке. Это крупнейший поставщик для ЦРУ, АНБ различных алгоритмов данных.
- Какое образование или какие навыки Вы порекомендуете развить студентам, которые хотят работать в сфере Big Data?
- Математика и экономика. Программирование на самом деле, если так абстрагироваться, есть некий псевдоязык псевдокоманд, и ты то, что есть у тебя в голове, в алгоритме, на листочке переписываешь странными непонятными словами. Да, нужно потратить какое-то время, чтобы эти слова выучить. Все сейчас забывают, что алгоритмизации тоже сейчас учиться нужно. То, что ты выучил язык программирования, не делает тебя программистом от слова «совсем», потому что тебе все равно нужно логику делать. Гуманитарные специальности тоже нужны. Я на первом курсе института считал, что гуманитарные специальности – это ерунда, сейчас признаю, что это не так. Основная проблема в том, что сейчас очень мало людей, которые могут просто грамотно поставить задачу. Все считают, что эти люди уже не нужны, потому что появится искусственный интелект, но это все очень большая провокация. Это как бессмертные в поп-культуре. Нам любое СМИ, любой фильм говорит, что бессмертие – это не круто. Вампиры всегда страдают, а бессмертные Боги либо всегда злодеи, либо им всегда плохо. Это же не так, это нам массмедиа навязывает стереотип, что быть бессмертным – не круто.
- Почему Вы считаете, что это круто?
- По факту, еще никто бессмертным не стал, никто не пробовал, но у всех уже предвзятое к этому отношение. Я считаю, что это круто, потому что ты успеешь побывать в каждой стране. Представляете, сколько всего за 800 лет можно успеть. Даже восприятие людей поменяется, слова новые появятся, языки. Джефф Безос, когда его спросили, что он думает о социальном неравенстве, сильном расслоении на богатых и бедных в Америке, сказал, что «все становятся богатыми в определенный промежуток времени, от 30 до 50 лет, и очень малое время остаются с капиталом. Дайте мне 200 лет лишних, и я вам покажу, что такое настоящее социальное неравенство». Условно, такие люди тратят 40 процентов жизни на достижение капитала, 10 процентов ты реально живешь в свое удовольствие, а остальное все время ты боишься потерять власть или начинается процесс, когда ты устал, уже нет времени, уже растет новое поколение, которое хочет тебе помешать. Если бы люди жили не 60-70 лет, а 250, вообще все по-другому было бы. Надеюсь дожить.
- И напоследок, основные правила поведения в Сети для студентов СГЭУ.
- Самое простое правило, оно же и самое сложное, - просто понять, что то, что ты сейчас сделаешь, может отразиться на тебе лет через 10. Как оно отразится – фактически невозможно понять. 10 лет – большой промежуток времени, чтобы понять, что завтра я стану президентом и мои пьяные сторис найдут. На самом деле, все просто — не стоит выкладывать документы, фото близких, задний фон проверяйте на фотографиях.
Наталья Кайдалова