Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
В НИУ ВШЭ разработали новую методику оценки искусственного интеллекта для образовательных задач
Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. Подход основан на психометрических принципах и проиллюстрирован на примере проверки GPT-4. Это первый шаг к проверке реальной готовности генеративной модели к роли ассистента педагога или ученика.
Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более важной частью образовательных процессов, и перед разработчиками возникает важный вопрос: как оценивать способности ИИ, особенно если речь идет о его роли в обучении? Ученые Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для проверки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Подход опирается на таксономию Блума, которую наряду с существованием достаточного числа бенчмарков (тестов для языковых моделей) не так активно используют именно в рамках проверки результатов.
Отличительная черта представленной методологии в том, что сравниваются различные уровни заданий — и легкие (знаниевые), и профессиональные (как применять знания), и оценка заданий происходит с учетом этих характеристик. Это необходимо для того, чтобы оценить, насколько качественными будут рекомендации модели в совершенно разных ситуациях и насколько ей можно довериться в педагогической сфере. В рамках исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проходил на модели GPT-4 в русскоязычной версии.
«Мы разработали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».
Современные ИИ, например ChatGPT, действительно обладают удивительной способностью очень быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Например, ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных аутентичных педагогических кейсах. В том числе ChatGPT не на 100 процентов успешен в решении теоретических задач, иногда совсем простых и для обычных студентов.
«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в знаниевой области, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым все необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — рассказывает научный руководитель НИУ ВШЭ Ярослав Кузьминов.
Среди возможных сценариев использования ИИ в образовании ученые во всем мире называют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также оперативную подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако пока все еще необходимо совершенствовать модели и подходы к их обучению и оценке.
«Проведенный тест помог нам понять не только и не столько то, как учить большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут попробовать составить учебный план или, например, список литературы к уроку, в каких-то случаях — проверить задания.
Тем не менее мы все еще сталкиваемся с галлюцинациями модели, когда, не имея информации о явлении, она сама придумывает ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — дал оценку результатам проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.
В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрить в него более сложные типы заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.
«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут создаваться для того, чтобы дообучать модели с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с еще более высоким уровнем точности такую устойчивость проверить, в противном случае это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.
Астрономы подсчитали, что с поверхности летящего по Солнечной системе межзвездного объекта 3I/ATLAS каждую секунду испаряется около 40 килограммов водяного льда. Такую сильную кометную активность он проявил, будучи в три с половиной раза дальше Земли от Солнца. По мнению ученых, это довольно необычно.
Новый подход к быстрому поиску жизни может однозначно обнаруживать ее всего одним инструментом. Он уже есть на борту обоих действующих американских марсоходов. Правда, NASA может не захотеть воспользоваться этой возможностью.
Представьте, что вы решили куда-то сходить. Выходите из дома, поворачиваете налево и проходите примерно один квартал. Внезапно становится понятно: если бы сразу повернули направо — путь занял бы намного меньше времени. Еще достаточно близко, чтобы вернуться и пойти по более короткому маршруту, но сделаете ли вы это? Скорее всего, нет, считают американские ученые, которым удалось объяснить причины такого нерационального поведения.
Астрономы подсчитали, что с поверхности летящего по Солнечной системе межзвездного объекта 3I/ATLAS каждую секунду испаряется около 40 килограммов водяного льда. Такую сильную кометную активность он проявил, будучи в три с половиной раза дальше Земли от Солнца. По мнению ученых, это довольно необычно.
Анализ заселенности ключевого региона майя классического периода привел ученых к новым данным о численности этого народа в первом тысячелетии нашей эры. Показатель оказался кратно выше оценок населения Древнего Египта эпохи строительства пирамид и вообще эпохи фараонов. Это достаточно необычно, поскольку майя не знали металлических орудий и тягловых животных, технологически находясь в каменном веке.
Через несколько месяцев после внедрения инструментов искусственного интеллекта в повседневную практику клиник опытные специалисты при выполнении колоноскопии без помощи ИИ стали на 20% реже находить у пациентов предраковые новообразования, чем до начала регулярного применения технологии. В процедурах с ИИ-поддержкой уровень выявляемости патологий, напротив, был более высоким.
Прибывшая из межзвездного пространства предполагаемая комета 3I/ATLAS движется по траектории, максимально удобной для гравитационных маневров управляемого корабля, при этом возможность ее отслеживания с Земли практически минимальна. По мнению некоторых ученых, такое «поведение» объекта наводит на определенные мысли.
Примерно 12 800 лет назад в Северном полушарии началось резкое изменение климата, которое сопровождалось вымиранием мегафауны и угасанием культуры Кловис. Такое могло произойти, например, из-за прорыва пресных вод в Атлантику или мощного вулканического извержения. Несколько лет назад ученые обнаружили места на суше с повышенным содержанием элементов платиновой группы, прослоями угля, микрочастицами расплава. По их мнению, это может быть признаком пребывания Земли в потоке обломков кометы или астероида. В новой работе впервые представлены доказательства кометного события в позднем дриасе из морских осадочных толщ.
Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Комментарии