15.11.2024, 11:04

НИУ ВШЭ

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

❋ 4.4

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.

НИУ ВШЭ

# GPT-4

# задачи

# искусственный интеллект

# образование

Ученые НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач / © Polimerek, ru.wikipedia.org

Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.

Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.

«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».

Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.

«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.

Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.

«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.

Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.

В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.

«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# GPT-4

# задачи

# искусственный интеллект

# образование

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Что общего у автомагистралей с египетскими мумиями?

Библиотека Планетарий 1

Санкт-Петербург

Лекция

28 Ноя

Бесплатно

Слова, строящие мосты

Библиотека им. Н. А. Некрасова

Москва

Лекция

28 Ноя

750 ₽

Взаимодействие аллелей одного гена. Взаимодействие генов

Центр «Архэ»

Онлайн

Лекция

29 Ноя

Бесплатно

Русские в Калифорнии и на Аляске

Библиотека иностранной литературы

Москва

Лекция

29 Ноя

Бесплатно

На пути к искусственной гравитации

Космонавтика и авиация

Москва

Лекция

29 Ноя

Бесплатно

Да никто в Москве так не говорит!

ВДНХ

Москва

Лекция

29 Ноя

1000 ₽

Следы забытых богов Древней Греции

Medio Modo

Москва

Лекция

29 Ноя

1300 ₽

Черная дыра: от рождения до полного исчезновения

Medio Modo

Санкт-Петербург

Лекция

29 Ноя

1000 ₽

Остеопатическая медицина: островок в океане иллюзий

ВСмысле

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

26 ноября, 12:39

Игорь Байдов

Налоги на урожай, а не сельское хозяйство в целом, подтолкнули людей к созданию первых государств

Что стало настоящим фундаментом власти — умение обрабатывать землю или контроль над некоторыми культурными растениями? Авторы нового исследования пришли к выводу, что появление первых крупных сообществ и государств зависело не от земледелия в целом, а от выращивания определенных злаков. Эти культуры было легко хранить и, еще важнее, невероятно просто облагать налогом, что и дало толчок появлению цивилизации.

История

# земледелие

# зерновые культуры

# письменность

# сельское хозяйство

27 ноября, 09:22

ПНИПУ

Как снизить брак в литейном производстве: новая программа на 97% предсказала поведение фотополимера

Фотополимер — специальный пластик для высокоточной 3D-печати. Часто применяется в ювелирном деле, медицине и особенно в литейной промышленности, позволяя создавать сложные детали с внутренними каналами, например, турбинные лопатки. Однако в процессе термообработки до 450°C, необходимой для выжигания прототипа, материал расширяется, вызывая микротрещины в керамической форме. Это приводит к браку при заливке металлом. Применяемые сегодня расчетные модели не учитывают, что при нагреве меняется вязкоупругое поведение фотополимера — сочетание его упругости и способности течь, — что и вызывает ошибки прогнозирования и производственные дефекты. Для решения этой проблемы ученые Пермского Политеха разработали принципиально новую программу, которая принимает в расчет оба этих ключевых параметра и предсказывает поведение пластика на 97%.

ПНИПУ

# дефекты

# математическая модель

# моделирование

# пластик

# фотополимеры

21 ноября, 10:02

ПНИПУ

Зумеры против альфа: сравнение цифровых привычек, мышления и жизненных стратегий

Так называемые зумеры и альфа, несмотря на молодой возраст, уже формируют ключевые поведенческие и потребительские тренды. Ученые Пермского Политеха рассказали, почему обозначение поколений начали с конца алфавита, как альфа и зумеры отличаются в способности к терпеливости, совмещении цифрового и реального «Я», подходу к профессиональной деятельности и отношении к финансам, какое мышление пришло на смену клиповому и как использование искусственного интеллекта повлияет на авторитет родителей.

ПНИПУ

# демография

# зумеры

# интернет

# молодежь

# общество

# подростки

# поколения

# теория поколений

26 ноября, 16:18

ФизТех

Тайная архитектура пьезокерамики: как атомная симметрия породила уникальные свойства материалов

Коллектив российских ученых из МИРЭА — Российского технологического университета, Центра фотоники двумерных материалов МФТИ, Института металлургии и материаловедения им. А. А. Байкова РАН и ряда других ведущих научных центров провел глубокое исследование кристаллической структуры широко используемых пьезоэлектрических материалов на основе цирконата-титаната свинца. Используя метод рентгеноструктурного анализа, исследователи впервые смогли в деталях установить, как небольшие химические добавки кардинально меняют фазовый состав керамики и напрямую определяют ее электрофизические характеристики. Это открывает путь к целенаправленному дизайну «умных» материалов с заранее заданными свойствами для передовой электроники и сенсорики.

ФизТех

# атомная структура

# керамика

# кристаллическая решетка

# материал

# пьезоэлектрика

# структура

26 ноября, 17:00

Курчатовский институт

Ученые разработали штамм цианобактерии, способный поглощать в три раза больше фосфора из сточных вод

Фосфор – элемент, играющий ключевую роль в росте растений. В сельском хозяйстве он используется в составе многих минеральных удобрений. В то же время фосфор, содержащийся в сточных водах — серьезный загрязнитель, который при попадании в водоемы нарушает баланс экосистем и вызывает цветение водорослей. Ученые Национального исследовательского центра «Курчатовский институт» и Южного федерального университета предложили новый экологичный способ выделения фосфора из сточных вод с помощью фотосинтезирующих микроорганизмов.

Курчатовский институт

# бактерии

# биоуголь

# сточные воды

# фосфор

# цианобактерии

# экология

20 ноября, 13:12

Полина Меньшова

Анализ 2430 языков показал сходства и различия их правил грамматики

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

Психология

# грамматика

# лингвистика

# морфология

# синтаксис

# языки

8 ноября, 18:29

Адель Романова

Астрономы вычислили, откуда на Землю прилетают межзвездные объекты

По расчетам, большинство «гостей» из других звездных систем летят к Земле примерно со стороны созвездия Геркулес. Скорее всего, они время от времени падают на нашу планету, просто мы еще не научились это замечать. Как удалось вычислить, чаще всего они должны падать зимой и где-то в окрестностях экватора.

Астрономия

# космос

# межзвездные объекты

# Солнечная система

12 ноября, 10:47

Максим Абдулаев

Бактерии со сломанными жгутиками поплыли вперед на собственных продуктах жизнедеятельности

Ученые открыли новый, ранее неизвестный способ передвижения бактерий по поверхностям, для которого не нужны жгутики. Эти микроорганизмы на краю колонии переваривают сахара, выделяют метаболиты и создают осмотическое давление. Оно вызывает микроскопическое «цунами», и на нем бактерии катятся вперед.

Биология

# бактерии

# жгутики

# локомоция

# микробиология

[miniorange_social_login]

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

По теме

Нейросети и образование: как безопасно внедрять ИИ в университетах

Пентагон использовал чат-боты для управления боевыми действиями в StarCraft II

Ученые Пермского Политеха рассказали, как диалог с нейросетью меняет систему образования

Популярное

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Налоги на урожай, а не сельское хозяйство в целом, подтолкнули людей к созданию первых государств

Как снизить брак в литейном производстве: новая программа на 97% предсказала поведение фотополимера

Зумеры против альфа: сравнение цифровых привычек, мышления и жизненных стратегий

Тайная архитектура пьезокерамики: как атомная симметрия породила уникальные свойства материалов

Ученые разработали штамм цианобактерии, способный поглощать в три раза больше фосфора из сточных вод

Анализ 2430 языков показал сходства и различия их правил грамматики

Астрономы вычислили, откуда на Землю прилетают межзвездные объекты

Бактерии со сломанными жгутиками поплыли вперед на собственных продуктах жизнедеятельности

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Странная шестерка: легенды научного шарлатанства

Гиперзвуковой орлан: новое оружие американцев

Год в космосе: 5 сумасшедших фактов

Невидимая темная материя

Травля большая и малая: с чего начинается буллинг

Связанные одной сетью: будет ли человек жить в виртуальном мире?

Резервуары жизни: как обнаружить океаны ледяных лун за 12 минут

«Это как после светового микроскопа перейти на электронный — вот примерно такая же революция у нас произошла в палеонтологии за последние годы»

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

По теме

Нейросети и образование: как безопасно внедрять ИИ в университетах

Пентагон использовал чат-боты для управления боевыми действиями в StarCraft II

Ученые Пермского Политеха рассказали, как диалог с нейросетью меняет систему образования

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?