Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.
Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Самообучающийся разум: новая эра математических рассуждений
Исследователи представили OpenSIR, платформу самообучения с подкреплением, использующую самоигру и разнообразные награды для развития математического мышления больших языковых моделей. Модель OpenSIR демонстрирует способность к самостоятельному освоению математических задач без участия человека, открывая путь к развитию искусственного интеллекта, способного к непрерывному обучению.

Исследователи представили OpenSIR, систему, использующую самообучение и разнообразные награды для решения математических задач и генерации новых, с верифицируемой обратной связью.
Современные подходы к обучению языковых моделей с подкреплением для рассуждений часто требуют размеченных данных для оценки результатов, что ограничивает потенциал достижения сверхчеловеческого уровня. В данной работе представлен OpenSIR: Open-Ended Self-Improving Reasoner – фреймворк самообучения, в котором модель самостоятельно генерирует и решает новые математические задачи, попеременно выполняя роли учителя и ученика без внешнего контроля. Эксперименты показали, что OpenSIR значительно улучшает навыки решения задач у моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct на наборах данных GSM8K и College Math, благодаря оптимизации сложности и разнообразия генерируемых задач. Способен ли такой подход к самообучению привести к созданию действительно автономных систем искусственного интеллекта, способных к неограниченному обучению и открытиям?
Иллюзия Рассуждений: Ограничения Больших Языковых Моделей
Современные большие языковые модели (LLM) демонстрируют впечатляющую производительность, однако часто испытывают трудности при решении сложных, многошаговых задач рассуждения, ограничивая их надежность в критических приложениях. Традиционные подходы к обучению с подкреплением требуют обширной ручной аннотации, создавая узкое место при масштабировании. Это требует значительных затрат и затрудняет адаптацию моделей к новым задачам.

Включение вознаграждения за разнообразие приводит к генерации задач с низкой текстовой схожестью и минимальным перекрытием концепций, что свидетельствует об эффективном исследовании различных типов задач.
Ограничения существующих методов стимулируют поиск альтернативных стратегий для повышения способности LLM к комплексному рассуждению без чрезмерной зависимости от ручной аннотации. Необходимо создание систем, способных к самообучению и адаптации в условиях неопределенности. Стабильность – это всего лишь иллюзия, которая хорошо кэшируется.
OpenSIR: Эволюция Учителя и Ученика
В рамках исследований в области искусственного интеллекта представлена система OpenSIR – новая парадигма самообучения, позволяющая большим языковым моделям (LLM) итеративно генерировать и решать математические задачи без внешнего контроля. Ключевым элементом OpenSIR является динамика “Учитель-Ученик”, где одна модель генерирует задачи, а другая – решает. Постоянное взаимодействие и взаимное обучение способствуют непрерывному улучшению обеих моделей.
Использование принципа самообучения направлено на повышение способности моделей к логическому мышлению и решению сложных задач. Цикл генерации задач и их решения обеспечивает постоянную тренировку и совершенствование навыков, позволяя моделям развивать более глубокое понимание математических концепций.
Управление Разнообразием и Сложностью в OpenSIR
В системе OpenSIR для оценки качества задач и корректности решений используется функция оценки, направляющая процесс обучения и позволяющая модели совершенствовать свои навыки. Для стимулирования исследования разнообразных математических концепций применяется награда за разнообразие, поощряющая генерацию новых типов задач и расширяющую область знаний системы.
Расстояние между задачами (Embedding Distance) используется для измерения семантической близости. Это обеспечивает исследование широкого спектра концепций и предотвращает зацикливание на узком наборе тем. Кроме того, система динамически регулирует сложность задач посредством калибровки сложности, поддерживая оптимальный уровень вызова для модели.
OpenSIR: Валидация на Стандартных Наборах Данных
Система OpenSIR демонстрирует существенные улучшения в производительности на сложных наборах данных для математического рассуждения, таких как GSM8K и MATH. Эффективность подхода к самообучению подтверждена оценками с использованием моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct.
Применение OpenSIR наблюдает повышение показателя успешности решения задач для сложных проблем. Модель Llama-3.2-3B-Instruct улучшила свою точность на GSM8K на 4.4 процентных пункта (до 78.3%), а на College Math — на 5.6 процентных пункта (до 34.4%). Система способствует увеличению охвата концепций. Модель Gemma-2-2B-Instruct продемонстрировала улучшение точности на GSM8K на 20.2 процентных пункта (до 58.7%), а на College Math — на 4.3 процентных пункта (до 23.4%). Система не просто решает задачи, она взращивает понимание.
Расширяя Горизонты Автономного Рассуждения
Дальнейшие исследования будут сосредоточены на масштабировании OpenSIR для ещё более крупных моделей и сложных предметных областей. Особое внимание уделяется оптимизации вычислительных ресурсов и разработке алгоритмов, способных эффективно работать с данными высокой размерности. Изучение различных структур вознаграждения и стратегий обучения по учебным программам может дополнительно оптимизировать процесс обучения.
Рассматривается возможность использования методов обучения с подкреплением и активного обучения для повышения эффективности и скорости сходимости модели. Применение OpenSIR в таких областях, как научные открытия и генерация кода, обещает открыть новые уровни автоматизации и инноваций. Способность фреймворка генерировать разнообразные и сложные задачи также имеет потенциал для создания более надёжных и устойчивых систем искусственного интеллекта.
Представленная работа демонстрирует стремление к созданию систем, способных к самостоятельному развитию, что неминуемо ведёт к усложнению архитектуры. OpenSIR, стремясь к генерации и решению новых задач, подобна организму, растущему и развивающемуся без внешнего контроля. Эта тенденция к самообучению, несомненно, порождает необходимость в постоянной адаптации и пересмотре первоначальных принципов. Как однажды заметила Ада Лавлейс: «Самое главное – это предвидеть последствия». В контексте OpenSIR это означает, что при проектировании системы самообучения необходимо учитывать не только текущие возможности, но и потенциальные направления её развития, чтобы избежать непредсказуемых ошибок и обеспечить устойчивость к будущим изменениям. Развитие подобных систем не является построением, а скорее взращиванием, где каждый архитектурный выбор — это пророчество о будущем сбое.
Что дальше?
Представленная работа, стремясь к автономному обучению математическому рассуждению, неизбежно сталкивается с фундаментальным вопросом: что есть «прогресс» в системе, лишенной внешнего наблюдателя? OpenSIR демонстрирует способность генерировать и решать задачи, но само определение «интересной» или «сложной» задачи остается заложенным в архитектуре вознаграждения. Система, которая идеально оптимизирует заранее заданные метрики, рискует зациклиться на локальных оптимумах, игнорируя потенциальные пути развития, которые не вписываются в узкие рамки критериев оценки.
Следующим шагом представляется не столько увеличение масштаба модели или усложнение алгоритмов, сколько исследование механизмов внутренней диверсификации. Система, которая никогда не ошибается, мертва. Настоящая самообучающаяся система должна не избегать ошибок, а активно их искать, рассматривая сбои не как дефекты, а как акты очищения, обнажающие скрытые предположения и ограничения.
В конечном счете, перспектива открытого, самообучающегося разума заключается не в создании идеального решателя задач, но в формировании сложной, непредсказуемой экосистемы, где обучение — это не оптимизация, а непрерывный процесс адаптации и трансформации. И в этом процессе, как и в любом другом, нет места совершенству – только постоянное движение к новым, неизбежно несовершенным, состояниям.
Оригинал статьи: https://arxiv.org/pdf/2511.00602.pdf
Некоторые исключительно хорошо узнают ранее увиденные незнакомые лица. Такие свидетели не раз помогали раскрывать преступления. Психологи из Австралии, изучающие этот тип людей, которых они назвали «суперузнавателями», в новом исследовании привлекли искусственный интеллект, чтобы разобраться, в чем секрет суперспособности.
Гигантский комплекс Агуада-Феникс в Мексике, древнейшее монументальное сооружение в зоне расселения майя, был построен как модель Вселенной. На это указали его общая планировка и найденный в центре ритуальный тайник с цветными пигментами, расположенными по сторонам света.
Высокое расположение сердца, обеспеченное длинными ногами, позволяет снизить кровяное давление и сэкономить энергию, необходимую для кровоснабжения мозга. Без этой адаптации жирафы не могли бы иметь двухметровую шею из-за критической нагрузки на сердечно-сосудистую систему.
Третий в истории наблюдений объект из другой звездной системы 3I/ATLAS произвел впечатление своей активностью и необычным химическим составом. Астрофизики пришли к выводу, что это последствия миллиардов лет воздействия на комету космических лучей.
Международная группа ученых провела необычный эксперимент. Исследователи взяли образцы фекалий у детей с разными типами темперамента и пересадили их крысам. После этого животные начали вести себя по-разному: те, кто получил микробиоту от активных детей, стали смелее и больше исследовали новое пространство. Это открытие намекает на то, что бактерии, живущие в кишечнике с детства, в какой-то мере способны влиять на формирование личности.
Обитающий в полярных районах Северного полушария гренландский кит (Balaena mysticetus) живет более двух столетий и почти не болеет раком. Секрет его долголетия оказался скрыт в клетках соединительной ткани, ответственной за заживление ран: при пониженной температуре в них активируется особый белок, усиливающий восстановление поврежденной ДНК.
Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.
Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.
В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии