• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
15.11.2024, 11:04
НИУ ВШЭ
192

В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач

❋ 4.4

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.

Ученые НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач / © Polimerek, ru.wikipedia.org

Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.

Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.

«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».

Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.

«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.

Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.

«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.

Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.

В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.

«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
16 июня, 10:59
НИУ ВШЭ

Исследователи НИУ ВШЭ выяснили, как российские интернет-пользователи проверяют сомнительную информацию и что заставляет их это делать. Оказалось, что более половины, заподозрив обман, пытаются отыскать первоисточник. А определяющими факторами в деле проверки становятся возраст, место жительства, социальное положение, навыки работы с информацией и использование ИИ.

16 июня, 07:59
ТПУ

Физики Инженерной школы ядерных технологий ТПУ разработали новый подход к созданию материалов водородной энергетики, основанный на управлении дефектной структурой и иерархической архитектурой материала. Подход позволяет перейти от традиционного подбора составов и добавок к проектированию материалов с заданными характеристиками хранения и транспорта водорода.

16 июня, 08:35
Марк Чернов

Международная группа ученых выяснила, что макаки способны мысленно моделировать свои решения и заранее готовиться к грядущим событиям. Ранее умение просчитывать альтернативные варианты развития ситуации и оценивать собственные шансы на успех эксперты считали одной из ключевых особенностей исключительно человеческого мышления.

16 июня, 10:36
Александр Березин

Согласно американским СМИ, небольшая часть модуля МКС «Звезда» больше не будет использоваться космонавтами. Причиной якобы стала невозможность ликвидировать утечки воздуха в ней, несмотря на попытки, предпринятые «Роскосмосом» 5 июня 2026 года.

11 июня, 10:59
НИУ ВШЭ

Исследователи НИУ ВШЭ и МГУ доказали универсальный закон, описывающий время исчезновения популяций в случайной среде. Анализ эволюции ветвящихся процессов — сложных вероятностных систем — показал, что вне зависимости от изначального числа особей процесс вымирания подчиняется строгим математическим закономерностям.

14 июня, 10:35
Игорь Байдов

Сам факт того, что после распада Западной Римской империи возникали новые государства, историкам известен давно. Нет сомнений в существовании королевств готов, франков, лангобардов и других постримских политических образований. Авторы нового исследования сосредоточились на более сложном вопросе. Они попытались выяснить, как именно происходило формирование таких обществ на уровне отдельных людей, семей и общин. Впервые благодаря сочетанию генетических и археологических данных исследователи смогли реконструировать развитие одного постримского политического общества, которое располагалось на территории Паннонии.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Ошибка авторизации
По закону на российских сайтах теперь нельзя авторизовываться с помощью иностранных сервисов. Используйте другой способ или восстановите доступ по почте.
Восстановить доступ
Войти по-другому
Вход через почту
Введите привязанную к соцсети почту, чтобы восстановить доступ или получить одноразовую ссылку для входа на сайт.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно