Исследователи из Высшей школы бизнеса НИУ ВШЭ научили модель определять субъективное благополучие человека в социальной сети. На основе анализа 10 миллионов твитов был составлен рейтинг праздников россиян: самым популярным в русскоязычном Twitter оказался Новый год, также пользователи с радостью отмечают День защитника Отечества, Международный женский день и Хэллоуин.
Результаты работы опубликованы в журнале PeerJ Computer Science. Социальные сети стали одним из основных средств общения, обмена информацией и мнений, что делает их важным источником данных для исследователей. Особенность такого использования социальных сетей — возможность отслеживания эмоций людей в режиме реального времени.
Своевременное понимание настроений населения, определяемых также как степень субъективного благополучия, может рассматриваться в качестве важного ориентира развития государства вместо используемых сегодня показателей, таких как валовой внутренний продукт.
Исследователи из Высшей школы бизнеса НИУ ВШЭ рассчитали индексы наблюдаемого субъективного благополучия для русскоязычного сегмента социальной сети Twitter*. В отличие от индекса субъективного благополучия, данные для которого собирают социологические центры (например, ВЦИОМ) на основе опросов, такой механизм фиксирует благополучие пользователя без прямого контакта с ним.
В качестве источника данных о твитах на русском языке исследователи взяли Twitter Stream Grab. Это общедоступная хронологическая коллекция JSON, полученная из общего потока Twitter «Spritzer» API. Согласно Twitter, этот API предоставляет один процент выборки полных общедоступных твитов и не привязан к конкретным темам. Поэтому, по мнению исследователей, его можно считать хорошим и репрезентативным источником твитов на широкий круг тем.
Для обучения модели машинного обучения был выбран крупнейший датасет твитов общего назначения на русском языке — RuSentiTweet. Это самый большой набор данных твитов с ручной аннотацией для анализа тональности. RuSentiTweet состоит из 13 392 твитов, сгруппированных в пять классов: позитивные, нейтральные, негативные, твиты, содержащие речевые акты и поздравления, и твиты, не выражающие четкого настроения или отношения к чему-либо.
Исследователи применили модель на 10 869 003 твитах в России, опубликованных 1 955 827 уникальными пользователями за 20 месяцев (в среднем 5,55 твита на пользователя). На основе полученных данных ученые составили рейтинг популярности праздников у пользователей социальной сети. Ожидаемо самым популярным праздником в русскоязычном Twitter оказался Новый год. Доля поздравлений 31 декабря превышает среднегодовое значение более чем в три раза и достигает 12,3 процента всех твитов за этот день. День защитника Отечества и Международный женский день занимают второе и третье место соответственно.
Хэллоуин в русскоязычном Twitter — один из самых популярных зарубежных праздников. Он занял девятое место среди всех праздников и обогнал, например, День России и 1 Мая. Этот вывод отличается от результатов опроса ВЦИОМ. Исследователи предполагают, что это связано с тем, что в Twitter доминирует младшая возрастная группа, более склонная к празднованию Хэллоуина, тогда как опрос ВЦИОМ дает репрезентативную выборку всего населения России.
Принимая во внимание, что есть также данные, утверждающие, что люди разного пола могут по-разному относиться к разным праздникам, был рассчитан рейтинг праздников для каждого пола отдельно.
«По всем рассматриваемым праздникам доля твитов с поздравлениями от женщин была выше, чем от мужчин, за исключением одного праздника — Дня космонавтики. Женщины чаще пишут поздравления и используют речевые акты не только на праздники, но и в целом», — добавляет аспирант Высшей школы бизнеса НИУ ВШЭ Сергей Сметанин.
Исследователи отмечают, что русскоязычные твиты от Twitter Stream Grab могут быть использованы только как дополнительная информация к традиционному опросному показателю субъективного благополучия населения, но не как основной источник информации. Во-первых, при анализе также учитывались твиты русскоязычных пользователей, не проживающих в России. У них может быть другой уровень субъективного благополучия, что может влиять на показатели исследования в ту или иную сторону. Во-вторых, старшие возрастные группы в исследовании были недостаточно представлены, поскольку Twitter наиболее популярен у молодой аудитории.
«Полученные результаты наблюдаемого субъективного благополучия сравнивались с индексом счастья ВЦИОМ. Нам удалось получить статистически значимую корреляцию. Исходя из этого, мы предполагаем, что при доступе к большему объему данных возможно получить еще более сильную корреляцию и потенциально доказать, что социальные сети могут использоваться сами по себе как надежный источник данных наблюдаемого субъективного благополучия населения», — отмечает Сергей Сметанин.
*Twitter — социальная сеть Twitter заблокирована на территории России по решению Генпрокуратуры.