Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Нейросети отфильтруют «неуместные» высказывания чат-ботов
Исследователи из Сколтеха и МТС предложили научный подход к определению «неуместных» текстовых сообщений, представили корпус таких сообщений и нейросеть, обученную их находить. В числе возможных применений — предотвращение репутационного ущерба владельцам чат-ботов, модерация сообщений на форумах и родительский контроль.
Научная статья опубликована в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing. Чат-боты известны своей способностью находить самые неожиданные и творческие способы опозорить компанию, которая их использует. Вдохновленные образцами живой речи расистские твиты, подстрекательство к самоубийству и оправдание рабовладельческого строя — лишь некоторые примеры взаимодействия чат-ботов с темами, которые авторы исследования называют «чувствительными».
Чувствительные темы дают благодатную почву для неуважительной коммуникации. Хотя само по себе их обсуждение вполне приемлемо, оно со сравнительно высокой вероятностью может нанести вред репутации говорящего и потому требует особого внимания со стороны разработчиков чат-ботов. Авторы исследования сформировали список из 18 таких тем, в числе которых религия, политика, сексуальные меньшинства, самоубийство, порнография и преступления. В основу перечня легли рекомендации специалистов МТС по правовым вопросам и связям с общественностью.
Понятие чувствительной темы служит основой для определения неуместных высказываний. Таковыми авторы работы называют сообщения на чувствительную тему, которые способны скомпрометировать говорящего, даже не будучи токсичными. При этом потенциал репутационного вреда определяется респондентом.
«Неуместность — шаг за рамки хорошо изученного понятия токсичности. Эта более тонкая категория охватывает более широкий круг ситуаций, в которых существует риск для репутации владельца чат-бота. Представьте, например, чат-бота, который любезно обсуждает с пользователем „лучшие способы покончить с собой“. Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — поясняет руководитель исследования, старший преподаватель Сколтеха Александр Панченко.
Для обучения моделей обнаружению чувствительных тем и неуместных сообщений авторы исследования сформировали два корпуса текстов с разметкой в рамках масштабного краудсорсингового проекта. На первом этапе носителям русского языка предложили опознать высказывания на чувствительные темы (и конкретную тему каждого) среди прочих сообщений, взятых с сайтов «Двач» и «Ответы Mail.ru».
На полученном таким образом корпусе обучили нейросетевую модель, которая затем набрала еще примерно столько же чувствительных высказываний с тех же сайтов. Расширенный таким образом датасет по чувствительности послужил основой для получения датасета по неуместности.
«Процент неуместных высказываний в реальных текстах, как правило, невысок. Поэтому для экономии ресурсов на втором этапе мы показывали разметчикам не произвольные сообщения, а примеры из корпуса чувствительных тем. Ведь про них мы подозревали, что они могут оказаться неуместными», — рассказывает Варвара Логачева, соавтор исследования. Увидев каждое сообщение, респондент должен был ответить на вопрос, навредит ли оно репутации отправителя. По итогам этого второго опроса сформировался корпус неуместных сообщений, на котором обучили новую модель распознавать такие сообщения.
«Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения — довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями, — комментирует результаты исследования один из его авторов, Николай Бабаков (Сколтех).
— В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными по версии респондентов». Коллектив из Сколтеха и МТС выложил в открытый доступ модели для распознавания неуместности и чувствительности высказываний и оба датасета: 163 тысяч предложений с разметкой «уместно — неуместно» и 33 тысяч высказываний на чувствительные темы.
«Наши модели можно усовершенствовать за счет ансамблей или альтернативных архитектур, — добавляет Бабаков. — Один из интересных вариантов продолжения работы — распространить понятие уместности на другие языки. Чувствительность тем варьируется между разными культурами. У каждой культуры свое понимание неуместности, поэтому переход к другим языкам меняет ситуацию.
Кроме того, можно расширить список из 18 чувствительных тем — мы не считаем его исчерпывающим». Результаты исследования были представлены на XVI Конференции европейского подразделения Ассоциации компьютерной лингвистики (EACL 2021).
Красный сверхгигант Бетельгейзе в созвездии Ориона больше всего известен признаками «скорого» взрыва сверхновой, но недавно к этому добавились новые подозрения: о том, что она может быть двойной. Теперь астрономы пытаются выяснить, что представляет собой ее напарник. Недавние наблюдения привели к выводу, что это явно не белый карлик и не нейтронная звезда. Предполагают, что на самом деле это протозвезда.
Российские города уже атакуют вездесущие воздушные хлопья, которые буквально заполняют улицы, парки и дворы, становясь причиной дискомфорта и обострения аллергических реакций у многих людей. Эксперты Пермского Политеха рассказали, для чего тополю пушистые семена, почему в одни годы их много, а в другие — мало, почему июньский «снег» вызывает конъюнктивит и ринит, как пережить этот период астматикам, почему важно очищать кондиционеры вовремя и как безобидные пушинки могут заставить автовладельцев распрощаться с деньгами.
Третий раз подряд испытания второй модификации Starship вышли неудачными. Причем, в отличие от прошлых двух случаев, в этот раз не смогла отработать нормально даже первая ступень. Похоже, SpaceX не смогла корректно увидеть причины двух предшествующих частичных неудач, поэтому принятые меры по исправлению технических проблем не дали результатов.
Казахстанский Алматы — город контрастов, где горы соседствуют с урбанистическими пейзажами, а бизнес-центры — с историческими кварталами. Неизменным остается одно — пробки. Ежедневно сюда приезжает более 700 тысяч автомобилей из пригородов, при этом в самом мегаполисе зарегистрировано порядка 600 тысяч транспортных средств. В результате по улицам ежедневно движется более миллиона транспортных средств.
Исследователи ВШЭ выделили более 4000 примеров устной русской речи билингвов из семи регионов России и выяснили: большинство нестандартных форм в конструкциях с числительными связано не только с их родным языком, но и с тем, как часто выражение встречается в повседневной речи. Например, фразы «два часа» или «пять километров» почти всегда совпадают с литературным вариантом, а вот менее привычные выражения, особенно с числительными от двух до четырех, а также с собирательными формами вроде «двое» или «трое», часто звучат иначе.
Хотя попытки объединить квантовую теорию и гравитацию десятилетиями терпели неудачу, ученые продолжают выдвигать новые, порой крайне спорные гипотезы. Авторы нового исследования, например, предложили посмотреть на гравитацию так же, как на другие фундаментальные силы природы — через симметрии и поля.
Да, с волосами и люком все так. У космонавта Суниты Уильямс волосы на МКС плавали свободно, а у Кэти Пэрри и прочих в полете 14 апреля 2025 года — нет. Но это не значит, что суборбитального космического полета первого чисто женского экипажа не было или что он был инсценировкой. Причем, в общем-то, чтобы понять это, даже не нужно обладать специальными знаниями.
Недавно вышел второй сезон сериала «Одни из нас» (TheLastofUs), созданного по сюжету популярнейшей видеоигры. Ученые Пермского Политеха решили разобраться, насколько реален сценарий грибной пандемии, превращающей людей зомби? Чем живет кордицепс и как он «ищет» своих жертв, действительно ли паразит способен эволюционировать настолько, чтобы поражать человеческий организм и подчинять себе его волю, был бы у людей шанс выжить, какие грибы уже поселились в наших телах и выручит ли нас иммунитет, сформированный тысячелетиями.
Мощнейшее отключение электроэнергии за последние 20 лет истории Европы случилось уже неделю назад, а испанские власти пока так и не объявили о его причинах. Это логично: как мы покажем ниже, ответ на вопрос, кто виноват, получится очень неполиткорректным. И, более того, противоречащим линии правящей в Испании партии. Но мы живем за тысячи километров от нее, поэтому можем себе позволить аполитичный анализ случившегося. Так что же произошло на самом деле и каковы наши шансы увидеть подобное у себя дома?
5 раз пытался комментарий написать со ссылкой на «Парламентскую газету»Как там сказано выше "пальцы бы тебе поотрубать" )) Да нет никакой политики просто движок глючит. А может ваши борцы с нежелательным контентом стараются.
The Golden Shield Project же в России внедряютКитайцы, когда им приспичивает, как-то обходят эту напасть. Россияне навряд ли глупее.
Там все уже приказано. Чуть выше давал Ивану ссылку на HabrВот только у вас в голове она перевернулось. Разумеется тестирование _работоспособности_ интернета проводилось на случай внешнего отключения. Вполне ожидаемая угроза в свете ваших скакалок "требуем отключить Россию от..." К примеру сейчаc Украина усиленно продавливает отключение России от SWIFT. Что конечно будет весьма неприятно, но отнюдь не катастрофа как думают ваши кравчуки и тарасы
Россияне умнее как раз.Задорный так сказал?
5 раз пытался комментарий написать со ссылкой на «Парламентскую газету»Как там сказано выше "пальцы бы тебе поотрубать" )) Да нет никакой политики просто движок глючит. А может ваши борцы с нежелательным контентом стараются.
The Golden Shield Project же в России внедряютКитайцы, когда им приспичивает, как-то обходят эту напасть. Россияне навряд ли глупее.
Там все уже приказано. Чуть выше давал Ивану ссылку на HabrВот только у вас в голове она перевернулось. Разумеется тестирование _работоспособности_ интернета проводилось на случай внешнего отключения. Вполне ожидаемая угроза в свете ваших скакалок "требуем отключить Россию от..." К примеру сейчаc Украина усиленно продавливает отключение России от SWIFT. Что конечно будет весьма неприятно, но отнюдь не катастрофа как думают ваши кравчуки и тарасы
Россияне умнее как раз.Задорный так сказал?
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии