• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
15 мая, 10:59
НИУ ВШЭ
242

Нейросеть научили анализировать научные статьи и патенты на русском языке

❋ 4.6

Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании.

Робот читает книгу / © ИИ-генерация, freepik

Объем научно-технической информации (патентов, статей, отчетов) с каждым днем стремительно увеличивается. Эффективно работать с этим массивом данных помогает искусственный интеллект. Как правило, большие языковые модели, представленные на рынке, мультиязычные и обучены на разных языках. Но в популярных чат-ботах с генеративным искусственным интеллектом, таких как ChatGPT, превалируют данные на английском, что грозит появлением монокультуры данных в области ИИ.

Ученые Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели, чтобы получить инструмент, способный более точно анализировать научные тексты на русском языке с пониманием предметной специфики. Основой послужил корпус данных iFORA-QA, вручную собранный более чем 150 экспертами ИСИЭЗ из аналитических материалов и отчетов в области науки, технологий и инноваций. Программа прошла государственную регистрацию. 

После адаптации точность модели при ответах на узкопрофессиональные вопросы в сфере науки, технологий и инноваций выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.

«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта, научный сотрудник и ведущий эксперт Центра стратегической аналитики и больших данных ИСИЭЗ Анастасия Малашина

Уже в этом году исследователи разработают дополнительные полезные инструменты на базе адаптированной модели. Первым станет умный поисковик — он снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники информации. Второй инструмент — граф связей, который позволит выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать, то есть не просто давать ответ, а сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать подробный ответ.

В итоге все эти возможности объединятся в единую мультиагентную систему, которая позволит решать сложные задачи автоматически.

«Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Она будет работать на базе большой языковой модели и сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчеркивает Анастасия Малашина.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

26 июня, 10:25
Любовь С.

Ученые нашли способ «увидеть» свойства горизонта событий черной дыры — области, из которой не может вырваться даже свет. Анализ гравитационных волн от недавнего сигнала слияния космических «монстров» помог выявить признаки, напрямую связанные с этой границей. Открытие может стать новым инструментом для изучения самых экстремальных объектов во Вселенной.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

21 июня, 16:10
Evgenia Vavilova

Паразитические организмы иногда не учитывают, что сами могут оказаться целью паразита более высокого уровня. Сосредотачивая все свои силы на инфицировании и размножении, они остаются беззащитными перед агрессивным специализированным нахлебником.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

27 мая, 17:06
Александр Березин

Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Ошибка авторизации
По закону на российских сайтах теперь нельзя авторизовываться с помощью иностранных сервисов. Используйте другой способ или восстановите доступ по почте.
Восстановить доступ
Войти по-другому
Вход через почту
Введите привязанную к соцсети почту, чтобы восстановить доступ или получить одноразовую ссылку для входа на сайт.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно