Нейросеть научили анализировать научные статьи и патенты на русском языке
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании.
Объем научно-технической информации (патентов, статей, отчетов) с каждым днем стремительно увеличивается. Эффективно работать с этим массивом данных помогает искусственный интеллект. Как правило, большие языковые модели, представленные на рынке, мультиязычные и обучены на разных языках. Но в популярных чат-ботах с генеративным искусственным интеллектом, таких как ChatGPT, превалируют данные на английском, что грозит появлением монокультуры данных в области ИИ.
Ученые Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели, чтобы получить инструмент, способный более точно анализировать научные тексты на русском языке с пониманием предметной специфики. Основой послужил корпус данных iFORA-QA, вручную собранный более чем 150 экспертами ИСИЭЗ из аналитических материалов и отчетов в области науки, технологий и инноваций. Программа прошла государственную регистрацию.
После адаптации точность модели при ответах на узкопрофессиональные вопросы в сфере науки, технологий и инноваций выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.
«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта, научный сотрудник и ведущий эксперт Центра стратегической аналитики и больших данных ИСИЭЗ Анастасия Малашина.
Уже в этом году исследователи разработают дополнительные полезные инструменты на базе адаптированной модели. Первым станет умный поисковик — он снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники информации. Второй инструмент — граф связей, который позволит выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать, то есть не просто давать ответ, а сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать подробный ответ.
В итоге все эти возможности объединятся в единую мультиагентную систему, которая позволит решать сложные задачи автоматически.
«Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Она будет работать на базе большой языковой модели и сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчеркивает Анастасия Малашина.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.
Ученые нашли способ «увидеть» свойства горизонта событий черной дыры — области, из которой не может вырваться даже свет. Анализ гравитационных волн от недавнего сигнала слияния космических «монстров» помог выявить признаки, напрямую связанные с этой границей. Открытие может стать новым инструментом для изучения самых экстремальных объектов во Вселенной.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.
Паразитические организмы иногда не учитывают, что сами могут оказаться целью паразита более высокого уровня. Сосредотачивая все свои силы на инфицировании и размножении, они остаются беззащитными перед агрессивным специализированным нахлебником.
Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.
Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.
Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
