Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Исследователи предложили подход к «воспитанию» языковых моделей, уменьшающий количество неуместных или «галлюцинаторных» ответов
Команда исследователей из Т-Технологий и МФТИ предложила новый подход к «воспитанию» больших языковых моделей, позволяющий им становиться умнее и безопаснее, не страдая от «сверхоптимизации» — парадоксального эффекта, когда слишком усердное обучение приводит к деградации качества. Разработанное семейство алгоритмов, получившее название Trust Region (TR), динамически обновляет «точку отсчета» для модели, позволяя ей постоянно развиваться и выходить за рамки первоначальных знаний, сохраняя при этом стабильность и адекватность.
Создание современных языковых моделей, таких как Llama 3, — это многоступенчатый процесс, похожий на обучение и воспитание человека. Сначала модель проходит «школу», поглощая гигантские объемы текстов из интернета, чтобы выучить язык, факты и закономерности мира. Затем наступает этап «тонкой настройки» или «воспитания», когда модель учат быть не просто эрудированной, а полезной, честной и безвредной для человека. Для этого используют наборы данных, где люди-оценщики указывают, какой из двух ответов на один и тот же вопрос является лучшим. Современные методы, такие как Direct Preference Optimization, учат модель предпочитать «хорошие» ответы «плохим».
Однако здесь возникает фундаментальная проблема, известная как сверхоптимизация. В процессе дообучения модель стремится как можно сильнее отличаться от своей первоначальной, базовой версии (так называемой референтной), чтобы максимизировать свою «полезность». Но если она отходит слишком далеко, происходит срыв: модель начинает генерировать странные, бессмысленные или шаблонные ответы, теряя здравый смысл. Это похоже на ученика, который, пытаясь угодить учителю, вместо глубокого понимания предмета начинает выискивать формальные лазейки и хитрости для получения высокой оценки, что в итоге приводит к провалу на экзамене. До сих пор считалось, что чрезмерное отклонение от референтной модели — это зло, которого нужно избегать.
Российские ученые предположили, что корень проблемы кроется не в самом отклонении, а в том, что точка отсчета — референтная модель — остается неподвижной. Это все равно что пытаться научить корабль навигации, заставляя его постоянно оглядываться на порт отправления. Чем дальше он уходит в море, тем менее релевантной становится эта исходная точка. Исследователи предложили элегантное решение: сделать порт отправления «подвижным». Их метод Trust Region (TR) в процессе обучения периодически обновляет саму референтную модель, заменяя ее текущей, улучшенной версией. Результаты, показавшие значительное превосходство нового подхода на ведущих мировых бенчмарках, были представлены на международной конференции ICLR 2025. Работа исследователей была также опубликована в виде препринта на научном портале arXiv.
Борис Шапошников, руководитель научной группы AI Alignment, T-Bank AI Research, аспирант МФТИ, рассказал: «Представьте скалолаза, который поднимается всё выше. Его цель — вершина, а точки страховки — это референсная политика. Если всё время держать страховку в одной точке внизу, любое движение вверх становится опасным: можно сорваться, переусердствовать, потерять устойчивость. В наших Trust Region методах мы по мере подъёма переставляем точки страховки выше — обновляем опорную политику, чтобы она соответствовала текущему уровню модели. Это позволяет двигаться дальше и выше, сохраняя баланс между смелостью и безопасностью — без переоптимизации и отката в качестве».
Команда разработала и протестировала две стратегии обновления: «мягкое», при котором параметры новой лучшей модели постепенно «подмешиваются» в референтную на каждом шаге обучения, и «жесткое», когда старая референтная модель полностью заменяется новой через определенное количество итераций. Схематично этот процесс можно представить так: классический DPO — это поезд, идущий от одной станции с оглядкой на нее на всем пути. Метод TR — это поезд, который на каждой новой крупной станции прокладывает маршрут заново, считая уже ее новой отправной точкой.
Никита Балаганский, аспирант МФТИ, руководитель научной группы LLM Foundations, T-Bank AI Research, добавил: «Чтобы доказать эффективность нашей идеи, мы провели серию экспериментов с моделями разных архитектур (Pythia и Llama 3) на задачах ведения диалога и суммаризации текстов. Результаты сравнивались на авторитетных бенчмарках AlpacaEval 2 и Arena-Hard, которые оценивают качество работы чат-ботов. Во всех сценариях модели, обученные с помощью TR-методов (TR-DPO, TR-IPO и TR-KTO), показали значительное и статистически достоверное преимущество над своими «ванильными» аналогами».

При одинаковом уровне отклонения от исходной точки модели, обученные с помощью TR, демонстрируют значительно более высокое качество ответов. Более того, они способны уходить от старта гораздо дальше, не теряя в качестве, тем самым достигая новых высот производительности. Вместо того чтобы рассматривать референтную модель как незыблемый якорь, который не дает модели «уплыть» в область бессмыслицы, ученые предложили видеть в ней динамический ориентир, который движется вместе с моделью по мере ее совершенствования. Это позволяет решить внутреннее противоречие современных методов: как позволить модели сильно улучшиться, не рискуя при этом сломать ее базовые способности.
Более качественное и стабильное «воспитание» языковых моделей напрямую ведет к созданию более умных, адекватных и безопасных ИИ-ассистентов. Это означает меньше странных, неуместных или «галлюцинаторных» ответов в диалоге с пользователем, более точные и релевантные краткие изложения текстов, и в целом — более надежное поведение ИИ в реальных задачах. Такой подход открывает дорогу к созданию по-настоящему полезных помощников, которым можно доверять.
В дальнейшем коллектив исследователей планирует исследовать более сложные стратегии обновления референтной модели, возможно, даже адаптивные, когда модель сама будет решать, когда ей пора «обновить ориентиры». Также представляет интерес применение этого подхода не только к языковым моделям, но и к другим областям глубокого обучения.
Ученые из МФТИ разработали и предложили новую систему единиц для электродинамики, способную примирить два главенствующих, но исторически несовместимых подхода. Эта компромиссная система, названная авторами физико-технической (ФТ), сохраняет практическое удобство Международной системы единиц (СИ), используемой инженерами по всему миру, и в то же время отражает теоретическую стройность и симметрию гауссовой системы (СГС), предпочитаемой физиками-теоретиками.
Ученые из коллаборации LIGO, VIRGO и KAGRA впервые зафиксировали гравитационно-волновые события, указывающие на существование черных дыр второго поколения — «потомков» предыдущих слияний. Открытие позволит понять, как именно во Вселенной рождаются сверхмассивные черные дыры.
Эксперимент, устроенный в морском аквариуме в Лос-Анджелесе, продемонстрировал, что акулы и скаты, принадлежащие к пластиножаберным рыбам, могут обладать более высоким уровнем интеллекта. Значит, им необходима обогащенная среда обитания при содержании в неволе.
Ученые из МФТИ разработали и предложили новую систему единиц для электродинамики, способную примирить два главенствующих, но исторически несовместимых подхода. Эта компромиссная система, названная авторами физико-технической (ФТ), сохраняет практическое удобство Международной системы единиц (СИ), используемой инженерами по всему миру, и в то же время отражает теоретическую стройность и симметрию гауссовой системы (СГС), предпочитаемой физиками-теоретиками.
Исследователи объяснили, как цивилизация майя добивалась высокой точности в предсказании солнечных затмений на протяжении столетий. Для коррекции накапливающихся астрономических неточностей они использовали сложную систему пересекающихся календарных таблиц.
В последние годы содержание кошек дома без возможности свободного выгула все чаще преподносят как идеальную модель, которая ограждает дикую фауну от нападений и обеспечивает благополучие самих питомцев. Подобные утверждения в разных частях мира звучат от некоторых защитников природы и представителей властей. Однако группа ветеринаров из Австралии и Дании недавно раскритиковала такой подход. Ученые не спорят с тем, что кошки влияют на уязвимые экосистемы и что ограничение их свободы — действенная мера по смягчению этого эффекта. Тем не менее исследователи настаивают, что жизнь в изоляции для питомцев совсем не благо. Заявляющие обратное как минимум ошибаются, а в худшем случае намеренно вводят общественность в заблуждение.
Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.
В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.
Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
