Колумнисты

Нейросети отфильтруют «неуместные» высказывания чат-ботов

Исследователи из Сколтеха и МТС предложили научный подход к определению «неуместных» текстовых сообщений, представили корпус таких сообщений и нейросеть, обученную их находить. В числе возможных применений — предотвращение репутационного ущерба владельцам чат-ботов, модерация сообщений на форумах и родительский контроль.


Научная статья опубликована в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing. Чат-боты известны своей способностью находить самые неожиданные и творческие способы опозорить компанию, которая их использует. Вдохновленные образцами живой речи расистские твиты, подстрекательство к самоубийству и оправдание рабовладельческого строя — лишь некоторые примеры взаимодействия чат-ботов с темами, которые авторы исследования называют «чувствительными».

Чувствительные темы дают благодатную почву для неуважительной коммуникации. Хотя само по себе их обсуждение вполне приемлемо, оно со сравнительно высокой вероятностью может нанести вред репутации говорящего и потому требует особого внимания со стороны разработчиков чат-ботов. Авторы исследования сформировали список из 18 таких тем, в числе которых религия, политика, сексуальные меньшинства, самоубийство, порнография и преступления. В основу перечня легли рекомендации специалистов МТС по правовым вопросам и связям с общественностью.

©Павел Одинев / Сколтех

Понятие чувствительной темы служит основой для определения неуместных высказываний. Таковыми авторы работы называют сообщения на чувствительную тему, которые способны скомпрометировать говорящего, даже не будучи токсичными. При этом потенциал репутационного вреда определяется респондентом.

«Неуместность — шаг за рамки хорошо изученного понятия токсичности. Эта более тонкая категория охватывает более широкий круг ситуаций, в которых существует риск для репутации владельца чат-бота. Представьте, например, чат-бота, который любезно обсуждает с пользователем „лучшие способы покончить с собой“. Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — поясняет руководитель исследования, старший преподаватель Сколтеха Александр Панченко.

Для обучения моделей обнаружению чувствительных тем и неуместных сообщений авторы исследования сформировали два корпуса текстов с разметкой в рамках масштабного краудсорсингового проекта. На первом этапе носителям русского языка предложили опознать высказывания на чувствительные темы (и конкретную тему каждого) среди прочих сообщений, взятых с сайтов «Двач» и «Ответы Mail.ru».

На полученном таким образом корпусе обучили нейросетевую модель, которая затем набрала еще примерно столько же чувствительных высказываний с тех же сайтов. Расширенный таким образом датасет по чувствительности послужил основой для получения датасета по неуместности.

«Процент неуместных высказываний в реальных текстах, как правило, невысок. Поэтому для экономии ресурсов на втором этапе мы показывали разметчикам не произвольные сообщения, а примеры из корпуса чувствительных тем. Ведь про них мы подозревали, что они могут оказаться неуместными», — рассказывает Варвара Логачева, соавтор исследования. Увидев каждое сообщение, респондент должен был ответить на вопрос, навредит ли оно репутации отправителя. По итогам этого второго опроса сформировался корпус неуместных сообщений, на котором обучили новую модель распознавать такие сообщения.

Общая схема сбора данных / ©Варвара Логачева / Сколтех

«Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения — довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями, — комментирует результаты исследования один из его авторов, Николай Бабаков (Сколтех).

— В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными по версии респондентов». Коллектив из Сколтеха и МТС выложил в открытый доступ модели для распознавания неуместности и чувствительности высказываний и оба датасета: 163 тысяч предложений с разметкой «уместно — неуместно» и 33 тысяч высказываний на чувствительные темы.

«Наши модели можно усовершенствовать за счет ансамблей или альтернативных архитектур, — добавляет Бабаков. — Один из интересных вариантов продолжения работы — распространить понятие уместности на другие языки. Чувствительность тем варьируется между разными культурами. У каждой культуры свое понимание неуместности, поэтому переход к другим языкам меняет ситуацию.

Кроме того, можно расширить список из 18 чувствительных тем — мы не считаем его исчерпывающим». Результаты исследования были представлены на XVI Конференции европейского подразделения Ассоциации компьютерной лингвистики (EACL 2021).

Комментарии

  • Какие забавные примеры в теме. В реальности чат-боты скучны до безобразия и не способны ответить на мало-мальски нестандартный запрос. Что до требований политкорректности так с ними порой не справляются и живые люди, куда уж там бедным алгоритмам.

    • « Какие забавные примеры в теме»
      Это только верхушка айсберга.

      «В реальности чат-боты скучны до безобразия и не способны ответить на мало-мальски нестандартный запрос»

      В статье идёт речь не ботах отвечающих на вопросы, а ботах не дающих задавать «не стандартные» вопросы.

      The Golden Shield Project же в России внедряют.

      • Еще за 2,5 тысячи лет до интернета мудрец предложил: "С дурными не общайся"... Тем более, с тролль-ботами...

        • Все никак не дождусь когда вы последуете этому совету.

          • Вы, Иван, иногда реагируете на уровне условного рефлекса: стимул -- реакция...
            Впрочем, если башмак вам пришелся на ногу. носите на здоровье...

      • И что? Фейсбук давно уже внедрил систему обнаружения нехороших высказываний и даже целых пабликов. Знаю, знаю "это кого надо банят, а вот в России... ужос-ужос" И все же вопреки вашему мнению в статье идет речь именно про обучение чат ботов, для чего были использованы ответы из соцсетей. Откуда же еще брать базу оскорбительных и неуместных высказываний. Но вы посмотрели на рисуночек и заголосили "альтернативно-мыслящих обижают!!!!" "в России отрубают пальцы за торы и торренты!!!"

        • « все же вопреки вашему мнению в статье идет речь именно про обучение чат ботов»

          «В числе возможных применений — предотвращение репутационного ущерба владельцам чат-ботов, модерация сообщений на форумах и родительский контроль»©️ из статьи
          Я тут намедни 5 раз пытался комментарий написать со ссылкой на «Парламентскую газету» - ни один не прошёл. Пришлось хитрить. Хотя может это политика редакции naked-science. 

          «в Украине не борются с нежелательным контентом и не закрывают доступ к ресурсам))»

          Борются конечно.., Вся Россия - «нежелательный контент»

          • И даже это делают через попу потому что украинцев на российских сайтах пасется немеряно. Вот только рад буду если у _ваших_ охранителей наконец получится и граждане Украины перестанут ходить к нам и потреблять нежелательный контент.

          • Тут вы ошибаетесь. Все у них получилось. ВК и ОДНОКЛАССНИКИ полностью забыты и старшим и младшим поколением

          • Насчет "полностью забыты" это вы как всегда ошибаетесь хотя доля конечно снизилась с введением Украиной цензуры. Которая кстати нарушает европейские конвенции по правам человека, свободе информации и выражения мнений (Це Європа, ага) Забавно что при этом аудитория vk и ok приросла за счет пользователей из других стран в пророссийских настроениях ранее не замеченных (украинцев под vpn)
            https://marketer.ua/the-most-popular-social-networks-in-the-world/

          • Предвидя обвинения в "российской пропаганде" привел ссылку с украинского ресурса. Сами разбирайтесь кто у вас больше звездит и по какой причине. В соцсетях не бываю, но в коментах на этом сайте торчит куда больше украинцев чем думает ваша пропаганда. Уж всяко не 2-3% )) впрочем никоторый свое украинство не афиширует. Кто знает сколько казачков еще тут присутствует.

          • К вопросу это не имеет вообще отношения.
            ВК и ОДНОКЛАССНИКИ забыты полностью это факт!!

          • Ну и ладушки. Вы даже не представляете насколько я благодарен вашим спецслужбам, что избавили наши соцсети от агрессивных свидомитов. Вот еще бы NS внесли в свой черный список вообще была бы красота.

          • « Вы даже не представляете насколько я благодарен..»
            А мы то как рады😃 !!!

            «Вот еще бы NS внесли в свой черный список вообще была бы красота»

            Где же, Иван, я смогу вас читать? 😢 Обидно от вас такое слышать.

          • Вот ведь сволочи, украинцы! Им в морду плюют, а они спасибо не говорят... Сопротивляются...

          • А почему такое должно нравится россиянам? Никогда такая мысль не посещала вашу мудрую голову? Впрочем вопрос риторический. Конечно же никогда.

          • 5 раз пытался комментарий написать со ссылкой на «Парламентскую газету»

            Как там сказано выше "пальцы бы тебе поотрубать" )) Да нет никакой политики просто движок глючит. А может ваши борцы с нежелательным контентом стараются.

          • « Да нет никакой политики просто движок глючит»

            Да фиг там… только что попробовал написать тот же коммент - «и тишина…»😂

          • Тогда остается рубить пальцы. Быть может мальчик-вундеркинд поможет вам заменить их более ловкими, механическими.

          • « Тогда остается рубить пальцы..»
            Редакции журнала?
            Вот скрин… сообщение отправляется, но в ленте не появляется

          • А как же ваше слезное желание и дальше "читать Ивана"? На российские сайты вы тогда точно не попадете. А пока кусните себя за локоть - учения по отключению прошли, а рунет не рухнул. О том что меня должны были отключить от всего еще в июне вот сейчас узнаю от вас )) Какой удар, оказывается, по мнению украинцев, я на целый месяц был отключен от интернетов. Ужос-ужос.

          • « На российские сайты вы тогда точно не попадете»

            Мы попадём… Вы во внешний мир - нет.

            « О том что меня должны были отключить от всего еще в июне вот сейчас узнаю от вас ))»

            Хабр - российский ресурс.

            « по мнению украинцев»

            Я же лично вам писал - я не украинец.

          • И кто тут недавно жаловался что пять раз отправлял комент и ничего не смог? ))) Не кто иной как Sever Sergeev. Вот тебе бабушка и "журнал Мурзилка"

          • Это редакция NS блокирует ссылки на государственные ресурсы

          • Точно не ваши пальцы? Смотрю украинство у вас прогрессирует с каждым днем. Может вам все же маленько отдохнуть от борьбы с российской агрессией?

          • Повторю третий и последний раз для тех кто в бронепоезде. Сайт иногда глючит. Да это проблема нового движка сайта которую так и не удалось устранить. Когда отправка "задумывается" (больше чем на пару секунд) я просто копирую сообщение и жму кнопку "отменить" и вставляю комент заново. Без истерик. Повторная отправка обычно срабатывает. Но ваш "заблокированный" пост отправился вообще без проблем.

          • Повторяю в 7-й раз, для тех кто с суверенным интернетом». Сайт у меня не глючит.

            отправка никогда не "задумывается". Мгновенно все отправляется.

            «копирую сообщение и жму кнопку "отменить" и вставляю комент заново»

            Сколько не копируй - результат тот же.

            И главное… Любая другая ссылка не на гос. ресурсы оправляется мгновенно и сообщение сразу в ленте. С этой ссылкой сообщение после отправки пропадает.
            verstehen?

          • У тебя все блокируется у меня все норм. Ну и кто теперь "Мурзилка"? Вот сам своей незалежной головой подумай нафига редакции российского журнала блокировать ссылки на российские же ресурсы причем официальные. Совсем кукухой поехал? Ну ведь очевидно же что проблема на твоей стороне. Кэш почисти что ли страдалец.

      • Разумеется подобные алгоритмы могут быть использованы (и давно используются) для обнаружения нежелательной активности в тех же мессенджерах. Бот флибусты в телеге банят влет, да и рутрекерам зеркала поотрубали. И даже некоторые vpn запретили. Вот только не говорите что в Украине не борются с нежелательным контентом и не закрывают доступ к ресурсам)) Это очень легко проверяется, у вас нет шансов.

      • The Golden Shield Project же в России внедряют

        Китайцы, когда им приспичивает, как-то обходят эту напасть. Россияне навряд ли глупее.

        • Россияне умнее как раз. Зачем файерволл?! Можно вырубить глобальный интернет.

          • Зачем вырубать, когда проще провайдерам приказать? Страх перед начальством сильнее всякого файервола...

          • «проще провайдерам приказать»

            Там все уже приказано. Чуть выше давал Ивану ссылку на Habr.

          • Там все уже приказано. Чуть выше давал Ивану ссылку на Habr

            Вот только у вас в голове она перевернулось. Разумеется тестирование _работоспособности_ интернета проводилось на случай внешнего отключения. Вполне ожидаемая угроза в свете ваших скакалок "требуем отключить Россию от..." К примеру сейчаc Украина усиленно продавливает отключение России от SWIFT. Что конечно будет весьма неприятно, но отнюдь не катастрофа как думают ваши кравчуки и тарасы https://inosmi.ru/economic/20210508/249681208.html

          • Что же это вы так все буквально понимаете?
            Никто вам swift не отключит.
            Разве что ваши власти под эгидой борьбы с внешней угрозой сами отключаться . В таком случае Хава́ла вам в помощь - будете доллары как бананы через Белорусь таскать.

          • Россияне умнее как раз.

            Задорный так сказал?

          • « Задорный так сказал?»

            Он все больше по тупым американцам. Рассеяне у него от рас-се-я-лись, а не от ума.

  • Ну если исходить из того, что культура - это принятая модель поведения здесь и сейчас, то совсем необязательно проблема может быть в языках. Даже на разных сайтах культура поведения различается.