Космос под ногами: спецпроект Naked Science о космонавтике и «трудной» нефти
Читать
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
13.05.2021
Сколтех
1
1 001

Нейронные языковые модели расширили освоение человеческой речи

4.7

Исследователи Сколтеха и их коллеги провели первое в своем роде масштабное вычислительное исследование, в ходе которого сравнили самые современные языковые модели на основе нейронных сетей и оценили их возможности по решению одной из важнейших задач обработки естественного языка – лексической замены.

Нейронные языковые модели углубили освоение человеческой речи / ©Getty images

Результаты исследования были представлены на 28-й Международной конференции по компьютерной лингвистике (COLING-2020). Лексическая замена – это замена слова в предложении на другое слово, которое тем или иным образом связано с исходным словом и подходит для употребления в данном контексте. Например, в предложении «Пётр Ильич Чайковский – великий русский композитор» слово «великий» можно заменить синонимом «выдающийся».

В предложении «Мой брат − профессиональный теннисист» слово «теннисист» можно заменить на гипероним (то есть слово с более широким значением) «спортсмен», а вместо фразы «Я сегодня на машине» автомобилист вполне может сказать: «Я сегодня на колесах» (слово «колесо» является меронимом, то есть понятием, обозначающим составную часть целого предмета).

Для человека как носителя языка лексическая замена – вещь вполне простая и естественная, чего нельзя сказать о компьютере, решающем задачи обработки естественного языка (NLP). Компьютеру приходится «овладевать навыками» индукции, чтобы научиться определять значение слова по контексту, исправлять орфографические ошибки в зависимости от смысла слова и даже решать более сложные задачи, например, перефразирование или упрощение текста.

Именно для решения таких задач и создаются языковые модели на основе глубоких нейронных сетей, способные выполнять лексическую замену в зависимости от ближайшего контекста целевого слова. Старший преподаватель Сколтеха Александр Панченко и его коллеги из Исследовательского центра Samsung в России, НИУ ВШЭ и МГУ имени М. В. Ломоносова сравнили пять языковых моделей на основе нейронных сетей, поставив перед ними две задачи − собственно лексическая замена и индукция значения слова (во втором случае компьютер должен был уловить разницу между омонимами, например, словом «среда» в значении «окружающая среда» или «день недели»).

По мнению ученых, полученные результаты могут оказаться полезными при решении чисто практических задач NLP. В частности, исследователи показали связь между конкретной моделью и типом семантических отношений между словами (синоним, омоним, гипероним и так далее), а также установили, что наличие дополнительной информации о целевом слове позволяет значительно (или существенно, если продолжать тему синонимов) улучшить качество лексической замены.

«Во-первых, результаты нашего исследования по лексической замене можно применять для целей изучения языка (замена слов на более простые). Во-вторых, их можно использовать для аугментации текстовых данных при обучении нейронных сетей. Аналогичные методы аугментации уже широко используются в компьютерном зрении, а вот в анализе текста они пока применяются не так часто. Также вполне реально использовать их при написании текстов в качестве вспомогательного средства для автоматического подбора синонимов и перефразирования текста», − отмечает Александр Панченко.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 11:09
Сергей Васильев

Венерины мухоловки регистрируют до пяти стимуляций чувствительных волосков, чтобы захлопнуть свою ловушку и начать переваривание. Но уникальный мутант Dyscalculia не может «считать» даже до двух. Ученые показали, что это связано с нарушением восприятия ионов кальция.

Вчера, 16:24
Анна Новиковская

Сегодня популяции многих видов пчел в упадке, и британские исследователи предложили еще один способ спасти этих насекомых: превратить часть кирпичей в стенах домов в «мини-ульи».

Позавчера, 17:19
Александр Березин

Игру 2013 года и выходящий с января 2023 года сериал по ней часто принимают за научную фантастику. То есть произведение, основанное на предположениях, не противоречащих науке. Однако вряд ли дело обстоит таким образом. Проблема в том, что создатели мира The Last of Us слишком некритично подошли как к научному фундаменту, на котором основан их мир постапокалипсиса, так и к тому, что думает наука о самой реальности «постапов». Naked Science пробует разобраться в деталях.

24 января
Сергей Васильев

В 2009 году внутреннее ядро нашей планеты остановилось и с тех пор раскручивается в противоположном направлении. Новая работа китайских геологов показала, что его вращение может меняться примерно каждые 35 лет.

24 января
ФизТех

Исследователь из России открыл механизм «молекулярной коммутации» ДНК, который меняет наше представление об одной из главных парадигм биологии. Более 70 лет считалось, что ДНК хранит и обрабатывает информацию за счет структуры двойной спирали – однозначно соответствующих друг другу (комплементарных) молекулярных цепей. Руководитель направления «Нанобиомедицина» Университета «Сириус», заведующий лабораторией МФТИ Максим Никитин экспериментально доказал, что для эффективной обработки генетической информации ДНК совершенно не обязательно образовывать двойную спираль. ДНК может хранить и передавать информацию за счет слабоаффинных взаимодействий, реализующийся в том случае, когда молекулы имеют низкое сродство друг к другу. Более того, он показал, что короткая ДНК, даже максимально некомплементарная гену, может регулировать его работу.

23 января
Алиса Гаджиева

В Валенсии конца XIV — начала XV веков городские власти не наказывали женщину, которая работала в публичном доме или была наложницей, но только в том случае, если она не пыталась совместить одно с другим. Правда, запреты не очень действовали.

10 января
Алиса Гаджиева

Исследователи, изучающие систему обороны Великой стены, обнаружили следы более 130 секретных сквозных проходов и полагают, что это только начало.

25 января
Василий Парфенов

Пока фанаты SpaceX увлеченно следят за достижениями компании, астрономы грустно наблюдают, как их работа становится сложнее с каждым запуском спутников Starlink. Прогресс не проходит без жертв. Поэтому различные научные ассоциации ищут способы снизить негативное влияние множества новых рукотворных объектов в околоземном пространстве на качество данных, получаемых телескопами. Некоторые решения со стороны выглядят экстремальными — например, теперь лазеры для корректировки адаптивной оптики можно не выключать, если в поле зрения есть спутник Starlink. А это десятки ватт излучения!

5 января
Александра Медведева

Биологи показали, что нейронные сети гиппокампа, ответственные за пространственное восприятие, изменяются не линейным образом, а в соответствии с гиперболической геометрией. То есть мозг представляет пространство в форме расширяющихся песочных часов. Результаты исследования могут иметь значение для лучшего понимания различных нейродегенеративных расстройств.

[miniorange_social_login]

Комментарии

1 Комментарий

-
1
+
Материалы Сколтеха комментировать нельзя?!.. Всяко, мне это уже дважды не удалось...Вот сейчас попробовал, опять новый комментарий не появился. Сейчас проверю, можно ли критиковать, отредактировав уже прошедшую реплику?..Читаешь вот такое -- "для аугментации текстовых данных" -- и невольно вспоминаешь профессора Преображенского: "Потрудитесь излагать ваши мысли яснее..." Даже слазив в интернет не нашел значения слова "аугментация", применимого к машинному лингвистическому анализу текстов, а только к музыке, стоматологии и компьютерным играм... Друг наш, Сколтех, об одном тебя прошу: не говори красиво... А если уж говоришь, то сказанное сложно поясняй простыми словами...
Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: