20.07.2021, 12:39

Сколтех

4,4 тыс

Нейросети отфильтруют «неуместные» высказывания чат-ботов

❋ 4.3

Исследователи из Сколтеха и МТС предложили научный подход к определению «неуместных» текстовых сообщений, представили корпус таких сообщений и нейросеть, обученную их находить. В числе возможных применений — предотвращение репутационного ущерба владельцам чат-ботов, модерация сообщений на форумах и родительский контроль.

Сколтех

# бот

# нейросети

# репутация

# твит

# чат

Нейросети отфильтруют «неуместные» высказывания чат-ботов / ©Павел Одинев / Сколтех / Автор: Ирина Мельникова

Научная статья опубликована в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing. Чат-боты известны своей способностью находить самые неожиданные и творческие способы опозорить компанию, которая их использует. Вдохновленные образцами живой речи расистские твиты, подстрекательство к самоубийству и оправдание рабовладельческого строя — лишь некоторые примеры взаимодействия чат-ботов с темами, которые авторы исследования называют «чувствительными».

Чувствительные темы дают благодатную почву для неуважительной коммуникации. Хотя само по себе их обсуждение вполне приемлемо, оно со сравнительно высокой вероятностью может нанести вред репутации говорящего и потому требует особого внимания со стороны разработчиков чат-ботов. Авторы исследования сформировали список из 18 таких тем, в числе которых религия, политика, сексуальные меньшинства, самоубийство, порнография и преступления. В основу перечня легли рекомендации специалистов МТС по правовым вопросам и связям с общественностью.

Понятие чувствительной темы служит основой для определения неуместных высказываний. Таковыми авторы работы называют сообщения на чувствительную тему, которые способны скомпрометировать говорящего, даже не будучи токсичными. При этом потенциал репутационного вреда определяется респондентом.

«Неуместность — шаг за рамки хорошо изученного понятия токсичности. Эта более тонкая категория охватывает более широкий круг ситуаций, в которых существует риск для репутации владельца чат-бота. Представьте, например, чат-бота, который любезно обсуждает с пользователем „лучшие способы покончить с собой“. Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — поясняет руководитель исследования, старший преподаватель Сколтеха Александр Панченко.

Для обучения моделей обнаружению чувствительных тем и неуместных сообщений авторы исследования сформировали два корпуса текстов с разметкой в рамках масштабного краудсорсингового проекта. На первом этапе носителям русского языка предложили опознать высказывания на чувствительные темы (и конкретную тему каждого) среди прочих сообщений, взятых с сайтов «Двач» и «Ответы Mail.ru».

На полученном таким образом корпусе обучили нейросетевую модель, которая затем набрала еще примерно столько же чувствительных высказываний с тех же сайтов. Расширенный таким образом датасет по чувствительности послужил основой для получения датасета по неуместности.

«Процент неуместных высказываний в реальных текстах, как правило, невысок. Поэтому для экономии ресурсов на втором этапе мы показывали разметчикам не произвольные сообщения, а примеры из корпуса чувствительных тем. Ведь про них мы подозревали, что они могут оказаться неуместными», — рассказывает Варвара Логачева, соавтор исследования. Увидев каждое сообщение, респондент должен был ответить на вопрос, навредит ли оно репутации отправителя. По итогам этого второго опроса сформировался корпус неуместных сообщений, на котором обучили новую модель распознавать такие сообщения.

Общая схема сбора данных / ©Варвара Логачева / Сколтех

«Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения — довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями, — комментирует результаты исследования один из его авторов, Николай Бабаков (Сколтех).

— В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными по версии респондентов». Коллектив из Сколтеха и МТС выложил в открытый доступ модели для распознавания неуместности и чувствительности высказываний и оба датасета: 163 тысяч предложений с разметкой «уместно — неуместно» и 33 тысяч высказываний на чувствительные темы.

«Наши модели можно усовершенствовать за счет ансамблей или альтернативных архитектур, — добавляет Бабаков. — Один из интересных вариантов продолжения работы — распространить понятие уместности на другие языки. Чувствительность тем варьируется между разными культурами. У каждой культуры свое понимание неуместности, поэтому переход к другим языкам меняет ситуацию.

Кроме того, можно расширить список из 18 чувствительных тем — мы не считаем его исчерпывающим». Результаты исследования были представлены на XVI Конференции европейского подразделения Ассоциации компьютерной лингвистики (EACL 2021).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.

Сколтех

# бот

# нейросети

# репутация

# твит

# чат

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Программа «Союз-Аполлон»: полет, подаривший надежду человечеству

Космонавтика и авиация

Москва

Центр «Архэ»

Санкт-Петербург

Лекция

18 Июл

600 ₽

Алкоголь и организм: мифы и реальность

ВСмысле

Онлайн

Лекция

18 Июл

Бесплатно

Введение в TTS (Text-to-Speech)

Библиотека им. М. Ю. Лермонтова

Санкт-Петербург

Лекция

18 Июл

Бесплатно

Город через экран смартфона

Политехнический музей

Москва

Космонавтика и авиация

Москва

Экскурсия

19 Июл

500 ₽

Человеческое в технике

Политехнический музей

Москва

Лекция

19 Июл

500 ₽

Немыслимо: о возможностях и ограничениях нашего мышления

ВСмысле

Онлайн

Лекция

20 Июл

Бесплатно

Как кишечник управляет мозгом: еда, микробиота и ось кишечник-мозг

Курилка Гутенберга

Москва

Популярное

За сутки

За неделю

За месяц

17 июля, 10:00

Губкинский университет

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина разработали синтетическое масло для газопоршневых двигателей, позволяющее снизить расход топливного метана на семь процентов. Продукт разработан в целях импортозамещения в сфере энергетики. Разработка открывает новые возможности распределенной энергетики на Крайнем Севере, Дальнем Востоке и других территориях без центральных сетей.

Губкинский университет

# двигатели

# материалы

# моторное масло

# промышленность

16 июля, 15:12

Evgenia Vavilova

Физики впервые воспроизвели в лаборатории процесс извлечения энергии из черной дыры

Процессы, сопровождающие жизнь черных дыр, интересуют не только теоретиков. Ученые уже знают, что энергия и частицы могут покидать черные дыры и теперь работают над способами эту энергию использовать.

Физика

# Роджер Пенроуз

# Черные дыры

# электромагнитные волны

# энергия

17 июля, 11:16

Игорь Байдов

У каменистой экзопланеты в зоне обитаемости впервые подтвердили атмосферу

До сих пор астрономы открывали атмосферы преимущественно у крупных экзопланет — горячих юпитеров, субнептунов и мини-нептунов. У потенциально пригодных для жизни миров, находящихся в зоне обитаемости, наличие газовой оболочки подтвердить не получалось. Теперь это удалось сделать команде американских ученых. Они получили первые убедительные свидетельства существования атмосферы у суперземли LHS 1140 b, расположенной приблизительно в 48 световых годах от Солнца. Открытие показало, что относительно небольшие экзопланеты возле красных карликов способны долгое время сохранять газовые оболочки, несмотря на активность своих звезд.

Астрономия

# атмосфера

# вода

# зона обитаемости

# красные карлики

# суперземли

# Суперземля

# экзопланета

13 июля, 14:06

Максим Абдулаев

Пережившие китобоев: как в России спасают гренландских китов Охотского моря и не только

Кит живет двести лет, умеет пробивать головой полуметровый лед и поет океанский джаз голосом несмазанной дверной петли. Охотоморские гренландские киты — это не просто многотонные ледоколы. Это древние узники, которые остались жить в Охотском море со времен последнего оледенения. Это счастливцы, которые смогли пережить гарпуны китобоев XIX-XX веков, но сегодня уязвимы не меньше. Чтобы спасти этих поразительных китов, российским ученым и команде фонда «Природа и люди» приходится: считать хвосты, читать биографии по шрамам, прятать подростков от хищников, стрелять (спутниковыми метками) с парамоторов и тяжелых дронов. Рассказываем, как устроена жизнь гренландских китов России и кто помогает им не исчезнуть навсегда с лица планеты.

Биология

# Баренцево море

# горбатые киты

# защита природы

# китообразные

# киты

# косатки

# природа

# усатые киты

Выбор редакции

12 июля, 12:24

Марк Чернов

Интервальное голодание оказалось не хуже подсчета калорий — и оно значительно легче переносится

Ученые выяснили, почему интервальное голодание для многих оказывается эффективнее обычных диет. Исследование показало, что ограничение времени для приема пищи избавляет худеющего от изнуряющего ощущения жесткого контроля и при этом позволяет сбросить ровно столько же, сколько при скрупулезном подсчете калорий.

Медицина

# диета

# интервальное голодание

# лишний вес

# метаболизм

# питание

# похудение

13 июля, 20:02

Evgenia Vavilova

Физик создал маленькую Вселенную, для которой нет понятия времени

Деревья растут и люди стареют не потому, что идет время, а из-за происходящих внутри них процессов. Но можно ли сказать, что именно эти процессы порождают время? Ученый создал маленькую Вселенную, в которой дела обстоят именно так.

Физика

# время

# коденсат Бозе-Эйнштейна

# лазеры

# Общая теория относительности

# рубидий

# энтропия

25 июня, 16:20

Любовь С.

Физики уточнили возможные размеры Вселенной

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

Астрономия

# бесконечность

# вселенная

# геометрия

# пространство

# реликтовое излучение

# свет

# топология

25 июня, 15:09

Марк Чернов

Физики подтвердили гипотезу о существовании двух жидких состояний воды

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

Физика

# вода

# Молекулярная биология

# структура воды

# фазовые переходы

26 июня, 14:54

Максим Абдулаев

Начало деменции у пожилых собак определили по их походке

Американские ветеринары установили, что длина шага передних лап у пожилых собак отражает возрастные изменения в работе мозга. Когда у собак развивается деменция, шаги их передних лап становятся короче, причем эта связь не зависит от хронической боли в суставах.

Биология

# деменция

# походка

# собаки

# старение

[miniorange_social_login]

Ну если исходить из того, что культура - это принятая модель поведения здесь и сейчас, то совсем необязательно проблема может быть в языках. Даже на разных сайтах культура поведения различается.

Ответить

Нейросети отфильтруют «неуместные» высказывания чат-ботов

По теме

Люди хуже отнеслись к коллегам, которые использовали ИИ для работы

В Пермском Политехе сделают ответы чат-ботов более точными

Новая база данных позволит обучить нейросети распознаванию лиц в темноте

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?