В НИУ ВШЭ проанализировали индекс счастья россиян в социальных сетях
Исследователи из Высшей школы бизнеса НИУ ВШЭ научили модель определять субъективное благополучие человека в социальной сети. На основе анализа 10 миллионов твитов был составлен рейтинг праздников россиян: самым популярным в русскоязычном Twitter оказался Новый год, также пользователи с радостью отмечают День защитника Отечества, Международный женский день и Хэллоуин.
Результаты работы опубликованы в журнале PeerJ Computer Science. Социальные сети стали одним из основных средств общения, обмена информацией и мнений, что делает их важным источником данных для исследователей. Особенность такого использования социальных сетей — возможность отслеживания эмоций людей в режиме реального времени.
Своевременное понимание настроений населения, определяемых также как степень субъективного благополучия, может рассматриваться в качестве важного ориентира развития государства вместо используемых сегодня показателей, таких как валовой внутренний продукт.
Исследователи из Высшей школы бизнеса НИУ ВШЭ рассчитали индексы наблюдаемого субъективного благополучия для русскоязычного сегмента социальной сети Twitter*. В отличие от индекса субъективного благополучия, данные для которого собирают социологические центры (например, ВЦИОМ) на основе опросов, такой механизм фиксирует благополучие пользователя без прямого контакта с ним.
В качестве источника данных о твитах на русском языке исследователи взяли Twitter Stream Grab. Это общедоступная хронологическая коллекция JSON, полученная из общего потока Twitter «Spritzer» API. Согласно Twitter, этот API предоставляет один процент выборки полных общедоступных твитов и не привязан к конкретным темам. Поэтому, по мнению исследователей, его можно считать хорошим и репрезентативным источником твитов на широкий круг тем.
Для обучения модели машинного обучения был выбран крупнейший датасет твитов общего назначения на русском языке — RuSentiTweet. Это самый большой набор данных твитов с ручной аннотацией для анализа тональности. RuSentiTweet состоит из 13 392 твитов, сгруппированных в пять классов: позитивные, нейтральные, негативные, твиты, содержащие речевые акты и поздравления, и твиты, не выражающие четкого настроения или отношения к чему-либо.
Исследователи применили модель на 10 869 003 твитах в России, опубликованных 1 955 827 уникальными пользователями за 20 месяцев (в среднем 5,55 твита на пользователя). На основе полученных данных ученые составили рейтинг популярности праздников у пользователей социальной сети. Ожидаемо самым популярным праздником в русскоязычном Twitter оказался Новый год. Доля поздравлений 31 декабря превышает среднегодовое значение более чем в три раза и достигает 12,3 процента всех твитов за этот день. День защитника Отечества и Международный женский день занимают второе и третье место соответственно.
Хэллоуин в русскоязычном Twitter — один из самых популярных зарубежных праздников. Он занял девятое место среди всех праздников и обогнал, например, День России и 1 Мая. Этот вывод отличается от результатов опроса ВЦИОМ. Исследователи предполагают, что это связано с тем, что в Twitter доминирует младшая возрастная группа, более склонная к празднованию Хэллоуина, тогда как опрос ВЦИОМ дает репрезентативную выборку всего населения России.
Принимая во внимание, что есть также данные, утверждающие, что люди разного пола могут по-разному относиться к разным праздникам, был рассчитан рейтинг праздников для каждого пола отдельно.
«По всем рассматриваемым праздникам доля твитов с поздравлениями от женщин была выше, чем от мужчин, за исключением одного праздника — Дня космонавтики. Женщины чаще пишут поздравления и используют речевые акты не только на праздники, но и в целом», — добавляет аспирант Высшей школы бизнеса НИУ ВШЭ Сергей Сметанин.
Исследователи отмечают, что русскоязычные твиты от Twitter Stream Grab могут быть использованы только как дополнительная информация к традиционному опросному показателю субъективного благополучия населения, но не как основной источник информации. Во-первых, при анализе также учитывались твиты русскоязычных пользователей, не проживающих в России. У них может быть другой уровень субъективного благополучия, что может влиять на показатели исследования в ту или иную сторону. Во-вторых, старшие возрастные группы в исследовании были недостаточно представлены, поскольку Twitter наиболее популярен у молодой аудитории.
«Полученные результаты наблюдаемого субъективного благополучия сравнивались с индексом счастья ВЦИОМ. Нам удалось получить статистически значимую корреляцию. Исходя из этого, мы предполагаем, что при доступе к большему объему данных возможно получить еще более сильную корреляцию и потенциально доказать, что социальные сети могут использоваться сами по себе как надежный источник данных наблюдаемого субъективного благополучия населения», — отмечает Сергей Сметанин.
*Twitter — социальная сеть Twitter заблокирована на территории России по решению Генпрокуратуры.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
В эпоху искусственного интеллекта и стремительного развития технологий знание языка становится инструментальной компетенцией, а умение работать с учетом культурного контекста — стратегической. В День филолога, кандидат педагогических наук Екатерина Щавелева, заведующая кафедрой иностранных языков и коммуникативных технологий НИТУ МИСИС рассказывает, как гуманитарное образование приобретает новую ответственность и какое будущее у межкультурной коммуникации.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина предложили подход к отбору малодебетных нефтегазовых месторождений, которые составляют около 88% нераспределенного фонда нефтяных участков. Модель расчета поможет вовлечь в экономический оборот от 400 до 600 миллионов тонн ранее нерентабельных запасов.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
