13.05.2021, 11:24

Сколтех

1,1 тыс

Нейронные языковые модели расширили освоение человеческой речи

❋ 4.7

Исследователи Сколтеха и их коллеги провели первое в своем роде масштабное вычислительное исследование, в ходе которого сравнили самые современные языковые модели на основе нейронных сетей и оценили их возможности по решению одной из важнейших задач обработки естественного языка – лексической замены.

Сколтех

# лексика

# лексическая замена

# нейронные языки

# речь

# человек

Нейронные языковые модели углубили освоение человеческой речи / ©Getty images / Автор: Visellia Orfius

Результаты исследования были представлены на 28-й Международной конференции по компьютерной лингвистике (COLING-2020). Лексическая замена – это замена слова в предложении на другое слово, которое тем или иным образом связано с исходным словом и подходит для употребления в данном контексте. Например, в предложении «Пётр Ильич Чайковский – великий русский композитор» слово «великий» можно заменить синонимом «выдающийся».

В предложении «Мой брат − профессиональный теннисист» слово «теннисист» можно заменить на гипероним (то есть слово с более широким значением) «спортсмен», а вместо фразы «Я сегодня на машине» автомобилист вполне может сказать: «Я сегодня на колесах» (слово «колесо» является меронимом, то есть понятием, обозначающим составную часть целого предмета).

Для человека как носителя языка лексическая замена – вещь вполне простая и естественная, чего нельзя сказать о компьютере, решающем задачи обработки естественного языка (NLP). Компьютеру приходится «овладевать навыками» индукции, чтобы научиться определять значение слова по контексту, исправлять орфографические ошибки в зависимости от смысла слова и даже решать более сложные задачи, например, перефразирование или упрощение текста.

Именно для решения таких задач и создаются языковые модели на основе глубоких нейронных сетей, способные выполнять лексическую замену в зависимости от ближайшего контекста целевого слова. Старший преподаватель Сколтеха Александр Панченко и его коллеги из Исследовательского центра Samsung в России, НИУ ВШЭ и МГУ имени М. В. Ломоносова сравнили пять языковых моделей на основе нейронных сетей, поставив перед ними две задачи − собственно лексическая замена и индукция значения слова (во втором случае компьютер должен был уловить разницу между омонимами, например, словом «среда» в значении «окружающая среда» или «день недели»).

По мнению ученых, полученные результаты могут оказаться полезными при решении чисто практических задач NLP. В частности, исследователи показали связь между конкретной моделью и типом семантических отношений между словами (синоним, омоним, гипероним и так далее), а также установили, что наличие дополнительной информации о целевом слове позволяет значительно (или существенно, если продолжать тему синонимов) улучшить качество лексической замены.

«Во-первых, результаты нашего исследования по лексической замене можно применять для целей изучения языка (замена слов на более простые). Во-вторых, их можно использовать для аугментации текстовых данных при обучении нейронных сетей. Аналогичные методы аугментации уже широко используются в компьютерном зрении, а вот в анализе текста они пока применяются не так часто. Также вполне реально использовать их при написании текстов в качестве вспомогательного средства для автоматического подбора синонимов и перефразирования текста», − отмечает Александр Панченко.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.

Сколтех

# лексика

# лексическая замена

# нейронные языки

# речь

# человек

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Млекопитающие выбирают воду

Medio Modo

Москва

Лекция

15 Мар

Бесплатно

Русский язык как донор: что мир заимствовал у нас

ВДНХ

Москва

Лекция

15 Мар

Бесплатно

Путешествие в Древний Рим

Библиотека иностранной литературы

Москва

Космонавтика и авиация

Москва

Экскурсия

15 Мар

Бесплатно

Нереализованные проекты

Космонавтика и авиация

Москва

Medio Modo

Санкт-Петербург

Лекция

16 Мар

Бесплатно

Информатика: запись и хранение информации

Библиотека им. Н. А. Некрасова

Москва

Лекция

17 Мар

1000 ₽

Коллегия понтификов: организация и полномочия

Центр «Архэ»

Москва

Лекция

18 Мар

850 ₽

Антоцеротовые (Anthocerotophyta): загадочный отдел высших растений

Центр «Архэ»

Онлайн

Популярное

За сутки

За неделю

За месяц

13 марта, 13:57

Татьяна Зайцева

В Долине царей нашли автографы индийских туристов, оставленные две тысячи лет назад

Археологи обнаружили на стенах гробниц египетской знати в Долине царей надписи на древних индийских языках. Эти граффити оставили путешественники из Южной Азии, посещавшие Египет в начале первого тысячелетия нашей эры, когда он был провинцией Римской империи. Находки подтвердили, что Долина царей уже в те времена была популярным туристическим аттракционом.

Археология

# гробницы

# древние языки

# египет

# Индия

# история

# Нил

# фараон

13 марта, 13:03

ФизТех

Российские ученые описали функции белка, который важен для развития нейродегенераций

Антиген стволовых клеток простаты (PSCA) — это белок, который участвует в патогенезе заболеваний предстательной железы. Его вторая роль касается развития болезни Альцгеймера и других неврологических патологий. Новая статья ученых из МФТИ и ИБХ РАН с соавторами описала структуру PSCA, его фармакологические свойства и участие в нейровоспалении, что поможет создать новые лекарства.

ФизТех

# белок

# биохимия

# болезнь Альцгеймера

# нейробиология

# нейродегенерация

# стволовая клетка

13 марта, 13:24

Илья Гриднев

Грибы научились у бактерий превращать воду в лед при околонулевых температурах

Белки из почвенного мицелия связали частицы воды и запустили кристаллизацию при слабом минусе. Эти молекулы работали в виде водного раствора без привязки к липидным оболочкам живых клеток. Грибы получили такую способность от бактерий сотни тысяч лет назад через параллельный перенос генов.

Биология

# бактерии

# гены

# грибы

# кристаллизация

13 марта, 13:57

Татьяна Зайцева

В Долине царей нашли автографы индийских туристов, оставленные две тысячи лет назад

Археология

# гробницы

# древние языки

# египет

# Индия

# история

# Нил

# фараон

13 марта, 13:03

ФизТех

Российские ученые описали функции белка, который важен для развития нейродегенераций

ФизТех

# белок

# биохимия

# болезнь Альцгеймера

# нейробиология

# нейродегенерация

# стволовая клетка

12 марта, 07:55

Игорь Байдов

Биологи рассказали, как королевы шмелей дышат под водой

Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.

Биология

# вода

# насекомые

# шмели

# эксперимент

3 марта, 14:06

Александр Березин

Россия вернула себе возможность пилотируемых космических полетов

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

Космонавтика

# Байконур

# космонавтика

# космос

# Роскосмос

# Россия

5 марта, 08:10

Александр Березин

Иран против США: технологические возможности стран на поле боя

Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.

Оружие и техника

# беспилотники

# военная техника

# ВПК

# ЗРК

# Израиль

# Иран

# сша

Выбор редакции

28 февраля, 16:50

Игорь Байдов

Ученые впервые доказали, что римляне добывали золото в испанских Пиренеях

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

Археология

# добыча полезных ископаемых

# Золото

# Рим

# Римская империя

[miniorange_social_login]

Материалы Сколтеха комментировать нельзя?!.. Всяко, мне это уже дважды не удалось...Вот сейчас попробовал, опять новый комментарий не появился. Сейчас проверю, можно ли критиковать, отредактировав уже прошедшую реплику?..Читаешь вот такое -- "для аугментации текстовых данных" -- и невольно вспоминаешь профессора Преображенского: "Потрудитесь излагать ваши мысли яснее..." Даже слазив в интернет не нашел значения слова "аугментация", применимого к машинному лингвистическому анализу текстов, а только к музыке, стоматологии и компьютерным играм... Друг наш, Сколтех, об одном тебя прошу: не говори красиво... А если уж говоришь, то сказанное сложно поясняй простыми словами...

Ответить

Лев Григорьев

13.05.2021

Ответить

Нейронные языковые модели расширили освоение человеческой речи

По теме

Ученые: человечество спаслось от вирусов, перестав кусаться

Оговорочка по Фрейду

Звуковая карта мозга поможет прочесть мысли

Популярное

В Долине царей нашли автографы индийских туристов, оставленные две тысячи лет назад

Российские ученые описали функции белка, который важен для развития нейродегенераций

Грибы научились у бактерий превращать воду в лед при околонулевых температурах

В Долине царей нашли автографы индийских туристов, оставленные две тысячи лет назад

Российские ученые описали функции белка, который важен для развития нейродегенераций

Биологи рассказали, как королевы шмелей дышат под водой

Россия вернула себе возможность пилотируемых космических полетов

Иран против США: технологические возможности стран на поле боя

Ученые впервые доказали, что римляне добывали золото в испанских Пиренеях

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

2027: Каким будет ваш дом через 10 лет

Рукопись Войнича: как ученые делают сенсации из ничего

С точки зрения психоанализа: политика

О пыльце в ноздрях помпейцев, в московском воздухе и в криминалистике — разговор за жизнь с палинологом Еленой Северовой

Mobile World Congress — 2019: все самое интересное

Темная сторона иммунитета

Гренландия: зачем на самом деле она нужна Трампу?

Первый полет второй лунной гонки: зачем и как американцы возвращаются на Луну?

Нейронные языковые модели расширили освоение человеческой речи

По теме

Ученые: человечество спаслось от вирусов, перестав кусаться

Оговорочка по Фрейду

Звуковая карта мозга поможет прочесть мысли

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?