Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач
Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.
Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.
Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.
«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».
Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.
«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.
Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.
«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.
Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.
В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.
«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.
Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.
Антиген стволовых клеток простаты (PSCA) — это белок, который участвует в патогенезе заболеваний предстательной железы. Его вторая роль касается развития болезни Альцгеймера и других неврологических патологий. Новая статья ученых из МФТИ и ИБХ РАН с соавторами описала структуру PSCA, его фармакологические свойства и участие в нейровоспалении, что поможет создать новые лекарства.
Существует мнение, что астронавты в космосе — «балласт». Но на практике в сложных условиях именно люди выполняют ключевую работу, а автоматы резко уступают им по возможностям. Поэтому научных работ по итогам лунных экспедиций людей было больше, чем по итогам работы на Луне всех автоматов за всю историю. Несмотря на это, существует серьезная вероятность того, что у нового американского средства доставки людей на Луну не будет возможности ручной посадки.
Коллектив климатологов из Института географии РАН, Института физики атмосферы имени А. М. Обухова РАН и МФТИ разобрал одну из самых загадочных страниц климатической летописи: почему Арктика так резко потеплела в первой половине XX века, причем особенно сильно зимой. Ученые оценили, какую долю в тех температурных скачках могли сыграть «внутренние ритмы» атмосферы и океана Северного полушария и почему ответ меняется в зависимости от того, как именно отделять естественные колебания климата от внешних факторов вроде роста парниковых газов и загрязнения воздуха аэрозолями.
Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.
Согласно гипотезе о так называемой Еврогондване, в эпоху динозавров Европа, как часть северного суперконтинента Лавразия, еще не полностью отделилась от южного суперконтинента Гондвана и животные могли свободно мигрировать между Европой и Африкой. Однако новый анализ найденных в Венгрии костей первобытного крокодила показал, что его сходство с гондванскими видами обусловлено не близким родством, а схожим образом жизни.
В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.
Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
