15.11.2024, 11:04

НИУ ВШЭ

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

❋ 4.4

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.

НИУ ВШЭ

# GPT-4

# задачи

# искусственный интеллект

# образование

Ученые НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач / © Polimerek, ru.wikipedia.org

Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.

Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.

«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».

Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.

«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.

Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.

«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.

Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.

В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.

«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# GPT-4

# задачи

# искусственный интеллект

# образование

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Генетика в СССР в условиях лысенковщины

Центр «Архэ»

Онлайн

Лекция

23 Фев

850 ₽

Чувство ритма. Нейробиология точности

Центр «Архэ»

Онлайн

Лекция

24 Фев

1000 ₽

Приматы: взбираемся по древу эволюции

Центр «Архэ»

Москва

Лекция

25 Фев

1000 ₽

Жизненный цикл: «изобретение», определившее судьбу растений

Центр «Архэ»

Москва

Лекция

25 Фев

500 ₽

Квазары: ультраяркие космические машины

Московский Планетарий

Москва

Лекция

25 Фев

Бесплатно

Как «Союзмультфильм» не стал Pixar: краткая история компьютерной анимации в СССР

ВДНХ

Москва

Лекция

26 Фев

Бесплатно

Микрохирургическое лечение церебральных аневризм. Перспективы развития

Нейрокампус

Москва

Лекция

26 Фев

Бесплатно

Справедливость: научный подход

Центр «Архэ»

Москва

Лекция

26 Фев

Бесплатно

Трехмерный мир белков и разработка лекарств

Курилка Гутенберга

Москва

Популярное

За сутки

За неделю

За месяц

21 февраля, 12:18

Игорь Байдов

В кормах с рыбой для домашних питомцев обнаружили большую концентрацию «вечных химикатов»

Ученые проверили 100 популярных кормов для собак и кошек и во многих из них нашли ПФАС, так называемые «вечные химикаты», причем одни из самых высоких концентраций обнаружили в продуктах на основе рыбы. Во многих случаях их уровень превышает пороги безопасности для людей, установленные европейским регулятором.

Биология

# вечные химикаты

# домашние питомцы

# корма

# кошки

# ПФАС

# собаки

23 февраля, 10:00

Evgenia Vavilova

Ученые нашли «криптонит» против постельных клопов

Оказалось, что насекомые активно избегают влажных поверхностей.

Биология

# вода

# клопы

# поверхностное натяжение

22 февраля, 10:18

Игорь Байдов

Не только мопсы и бульдоги: ученые выявили 12 пород собак, страдающих от проблем с дыханием

Во время обследования почти 900 собак ученые выявили 12 пород, склонных к брахицефалическому обструктивному синдрому дыхательных путей, который может ухудшать сон и влиять на переносимость физических нагрузок. Авторы нового исследования выяснили, что список пород, предрасположенных к серьезным нарушениям дыхания, куда шире, чем считалось ранее.

Биология

# животные

# породы собак

# собаки

21 февраля, 12:18

Игорь Байдов

В кормах с рыбой для домашних питомцев обнаружили большую концентрацию «вечных химикатов»

Биология

# вечные химикаты

# домашние питомцы

# корма

# кошки

# ПФАС

# собаки

17 февраля, 09:30

СПбГУ

В СПбГУ ускорили поиск неоптерина в крови

Исследователи Санкт-Петербургского государственного университета разработали эффективный способ обнаружения в крови важнейшего биомаркера иммунитета — неоптерина — с помощью нанотехнологий и лазера.

СПбГУ

# биомаркеры

# иммунитет

# инфекции

# кровь

# наночастицы

# технологии

22 февраля, 10:18

Игорь Байдов

Не только мопсы и бульдоги: ученые выявили 12 пород собак, страдающих от проблем с дыханием

Биология

# животные

# породы собак

# собаки

12 февраля, 07:52

Адель Романова

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

Астрономия

# космос

# межзвездные объекты

# метеороиды

# падение метеорита

28 января, 10:50

Игорь Байдов

В Мексике нашли небольшого динозавра, решавшего споры лбом

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

Палеонтология

# динозавры

# древние виды

# древние животные

# меловой период

26 января, 14:26

Александр Березин

Анализ лунного грунта опроверг космическое происхождение земной воды

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

Астрономия

# внеземная вода

# Земля

# Луна

[miniorange_social_login]

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

По теме

Нейросети и образование: как безопасно внедрять ИИ в университетах

Ученые Пермского Политеха рассказали, как диалог с нейросетью меняет систему образования

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

Популярное

В кормах с рыбой для домашних питомцев обнаружили большую концентрацию «вечных химикатов»

Ученые нашли «криптонит» против постельных клопов

Не только мопсы и бульдоги: ученые выявили 12 пород собак, страдающих от проблем с дыханием

В кормах с рыбой для домашних питомцев обнаружили большую концентрацию «вечных химикатов»

В СПбГУ ускорили поиск неоптерина в крови

Не только мопсы и бульдоги: ученые выявили 12 пород собак, страдающих от проблем с дыханием

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

В Мексике нашли небольшого динозавра, решавшего споры лбом

Анализ лунного грунта опроверг космическое происхождение земной воды

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

«Кислородные горки» перевели земную жизнь на следующий уровень

Вопреки мифам: как выбросы углерода породили озеленение Земли

Миллион бобров завоевывает Евразию: к добру или к худу?

Восхождение на Арарат

Марсианский укроп и «атомный тормоз»: что остановит Илона Маска на пути к четвертой планете?

Необычные музыкальные инструменты

Черная желчь: что такое депрессия

Зачем в Европе жгут вышки 5G и почему такие теории бессмертны?

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

По теме

Нейросети и образование: как безопасно внедрять ИИ в университетах

Ученые Пермского Политеха рассказали, как диалог с нейросетью меняет систему образования

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?