Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач
Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.
Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.
Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.
«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».
Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.
«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.
Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.
«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.
Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.
В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.
«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.
Ученые из Аргентины в серии экспериментов проследили за поведением домашних собак во время разногласий между членами семьи и выявили у четвероногих питомцев ряд характерных реакций на конфликт.
Американские ученые проанализировали данные о поедании фекалий животными, чтобы выяснить, какие причины стоят за этим поведением и какие закономерности можно проследить. В результате они разделили всю выборку более чем из 150 видов на семь категорий по тому, что заставляет зверей питаться таким сомнительным продуктом.
Работать под началом шефа-абьюзера тяжело, но свежее исследование показало, что бывают варианты похуже. Ученые выяснили, что еще негативнее на моральный дух и производительность труда сотрудников влияет, когда во главе команды стоит самодур, у которого вспышки агрессии непредсказуемо сменяются этичным поведением.
Международная коллаборация физиков под руководством ученых из Йельского университета в США представила самые убедительные на сегодня подтверждения существования нового типа сверхпроводящих материалов. Доказательство существования нематической фазы вещества — научный прорыв, открывающий путь к созданию сверхпроводимости совершенно новым способом.
Принято считать, что естественный спутник Земли возник в результате ее столкновения с другой планетой, но к этой версии есть вопросы. Теперь ученые предложили рассмотреть сценарий возможного захвата Луны притяжением Земли из пролетавшей мимо двойной системы.
Ученые из Аргентины в серии экспериментов проследили за поведением домашних собак во время разногласий между членами семьи и выявили у четвероногих питомцев ряд характерных реакций на конфликт.
Под рыжим верхним слоем с виду обычного камня открылся целый калейдоскоп довольно неожиданных оттенков. Это особенно интересно с учетом того, где лежит камень — в марсианском кратере, который по всем признакам когда-то был озером.
Международная коллаборация физиков под руководством ученых из Йельского университета в США представила самые убедительные на сегодня подтверждения существования нового типа сверхпроводящих материалов. Доказательство существования нематической фазы вещества — научный прорыв, открывающий путь к созданию сверхпроводимости совершенно новым способом.
Органические молекулы с пи-связью образуют очень устойчивые геометрии, которые не любят нарушаться. В 1924 году немецкий химик Юлиус Бредт сформулировал соответствующий запрет, вошедший в учебники химии. Тем не менее это в некоторых случаях возможно. В новой работе американские исследователи представили несколько «антибредтовских» соединений из класса олефинов.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии