Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

6 ноября, 20:03

Рейтинг: 0

Посты: 1

Самообучающийся разум: новая эра математических рассуждений

Исследователи представили OpenSIR, платформу самообучения с подкреплением, использующую самоигру и разнообразные награды для развития математического мышления больших языковых моделей. Модель OpenSIR демонстрирует способность к самостоятельному освоению математических задач без участия человека, открывая путь к развитию искусственного интеллекта, способного к непрерывному обучению.

Сообщество

# AI

# LLM

# ИИ

# искусственный интеллект

# технологии

Исследователи представили OpenSIR, систему, использующую самообучение и разнообразные награды для решения математических задач и генерации новых, с верифицируемой обратной связью.

Современные подходы к обучению языковых моделей с подкреплением для рассуждений часто требуют размеченных данных для оценки результатов, что ограничивает потенциал достижения сверхчеловеческого уровня. В данной работе представлен OpenSIR: Open-Ended Self-Improving Reasoner – фреймворк самообучения, в котором модель самостоятельно генерирует и решает новые математические задачи, попеременно выполняя роли учителя и ученика без внешнего контроля. Эксперименты показали, что OpenSIR значительно улучшает навыки решения задач у моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct на наборах данных GSM8K и College Math, благодаря оптимизации сложности и разнообразия генерируемых задач. Способен ли такой подход к самообучению привести к созданию действительно автономных систем искусственного интеллекта, способных к неограниченному обучению и открытиям?

Иллюзия Рассуждений: Ограничения Больших Языковых Моделей

Современные большие языковые модели (LLM) демонстрируют впечатляющую производительность, однако часто испытывают трудности при решении сложных, многошаговых задач рассуждения, ограничивая их надежность в критических приложениях. Традиционные подходы к обучению с подкреплением требуют обширной ручной аннотации, создавая узкое место при масштабировании. Это требует значительных затрат и затрудняет адаптацию моделей к новым задачам.

Включение вознаграждения за разнообразие приводит к генерации задач с низкой текстовой схожестью и минимальным перекрытием концепций, что свидетельствует об эффективном исследовании различных типов задач.

Ограничения существующих методов стимулируют поиск альтернативных стратегий для повышения способности LLM к комплексному рассуждению без чрезмерной зависимости от ручной аннотации. Необходимо создание систем, способных к самообучению и адаптации в условиях неопределенности. Стабильность – это всего лишь иллюзия, которая хорошо кэшируется.

OpenSIR: Эволюция Учителя и Ученика

В рамках исследований в области искусственного интеллекта представлена система OpenSIR – новая парадигма самообучения, позволяющая большим языковым моделям (LLM) итеративно генерировать и решать математические задачи без внешнего контроля. Ключевым элементом OpenSIR является динамика “Учитель-Ученик”, где одна модель генерирует задачи, а другая – решает. Постоянное взаимодействие и взаимное обучение способствуют непрерывному улучшению обеих моделей.

Использование принципа самообучения направлено на повышение способности моделей к логическому мышлению и решению сложных задач. Цикл генерации задач и их решения обеспечивает постоянную тренировку и совершенствование навыков, позволяя моделям развивать более глубокое понимание математических концепций.

Управление Разнообразием и Сложностью в OpenSIR

В системе OpenSIR для оценки качества задач и корректности решений используется функция оценки, направляющая процесс обучения и позволяющая модели совершенствовать свои навыки. Для стимулирования исследования разнообразных математических концепций применяется награда за разнообразие, поощряющая генерацию новых типов задач и расширяющую область знаний системы.

Расстояние между задачами (Embedding Distance) используется для измерения семантической близости. Это обеспечивает исследование широкого спектра концепций и предотвращает зацикливание на узком наборе тем. Кроме того, система динамически регулирует сложность задач посредством калибровки сложности, поддерживая оптимальный уровень вызова для модели.

OpenSIR: Валидация на Стандартных Наборах Данных

Система OpenSIR демонстрирует существенные улучшения в производительности на сложных наборах данных для математического рассуждения, таких как GSM8K и MATH. Эффективность подхода к самообучению подтверждена оценками с использованием моделей Llama-3.2-3B-Instruct и Gemma-2-2B-Instruct.

Применение OpenSIR наблюдает повышение показателя успешности решения задач для сложных проблем. Модель Llama-3.2-3B-Instruct улучшила свою точность на GSM8K на 4.4 процентных пункта (до 78.3%), а на College Math — на 5.6 процентных пункта (до 34.4%). Система способствует увеличению охвата концепций. Модель Gemma-2-2B-Instruct продемонстрировала улучшение точности на GSM8K на 20.2 процентных пункта (до 58.7%), а на College Math — на 4.3 процентных пункта (до 23.4%). Система не просто решает задачи, она взращивает понимание.

Расширяя Горизонты Автономного Рассуждения

Дальнейшие исследования будут сосредоточены на масштабировании OpenSIR для ещё более крупных моделей и сложных предметных областей. Особое внимание уделяется оптимизации вычислительных ресурсов и разработке алгоритмов, способных эффективно работать с данными высокой размерности. Изучение различных структур вознаграждения и стратегий обучения по учебным программам может дополнительно оптимизировать процесс обучения.

Рассматривается возможность использования методов обучения с подкреплением и активного обучения для повышения эффективности и скорости сходимости модели. Применение OpenSIR в таких областях, как научные открытия и генерация кода, обещает открыть новые уровни автоматизации и инноваций. Способность фреймворка генерировать разнообразные и сложные задачи также имеет потенциал для создания более надёжных и устойчивых систем искусственного интеллекта.

Представленная работа демонстрирует стремление к созданию систем, способных к самостоятельному развитию, что неминуемо ведёт к усложнению архитектуры. OpenSIR, стремясь к генерации и решению новых задач, подобна организму, растущему и развивающемуся без внешнего контроля. Эта тенденция к самообучению, несомненно, порождает необходимость в постоянной адаптации и пересмотре первоначальных принципов. Как однажды заметила Ада Лавлейс: «Самое главное – это предвидеть последствия». В контексте OpenSIR это означает, что при проектировании системы самообучения необходимо учитывать не только текущие возможности, но и потенциальные направления её развития, чтобы избежать непредсказуемых ошибок и обеспечить устойчивость к будущим изменениям. Развитие подобных систем не является построением, а скорее взращиванием, где каждый архитектурный выбор — это пророчество о будущем сбое.

Что дальше?

Представленная работа, стремясь к автономному обучению математическому рассуждению, неизбежно сталкивается с фундаментальным вопросом: что есть «прогресс» в системе, лишенной внешнего наблюдателя? OpenSIR демонстрирует способность генерировать и решать задачи, но само определение «интересной» или «сложной» задачи остается заложенным в архитектуре вознаграждения. Система, которая идеально оптимизирует заранее заданные метрики, рискует зациклиться на локальных оптимумах, игнорируя потенциальные пути развития, которые не вписываются в узкие рамки критериев оценки.

Следующим шагом представляется не столько увеличение масштаба модели или усложнение алгоритмов, сколько исследование механизмов внутренней диверсификации. Система, которая никогда не ошибается, мертва. Настоящая самообучающаяся система должна не избегать ошибок, а активно их искать, рассматривая сбои не как дефекты, а как акты очищения, обнажающие скрытые предположения и ограничения.

В конечном счете, перспектива открытого, самообучающегося разума заключается не в создании идеального решателя задач, но в формировании сложной, непредсказуемой экосистемы, где обучение — это не оптимизация, а непрерывный процесс адаптации и трансформации. И в этом процессе, как и в любом другом, нет места совершенству – только постоянное движение к новым, неизбежно несовершенным, состояниям.

Оригинал статьи: https://arxiv.org/pdf/2511.00602.pdf

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Популярное

За сутки

За неделю

За месяц

23 декабря, 10:51

Игорь Байдов

Астрономы приблизились к доказательству существования квазизвезд

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

Астрономия

# вселенная

# гравитационное линзирование

# Джеймс Уэбб

# звезды

# ранняя вселенная

# телескоп Джеймса Уэбба

# Черные дыры

23 декабря, 10:17

Максим Абдулаев

Палеонтологи выяснили, что выживание видов акул зависит от их «стажа»

Группа исследователей опровергла классическую теорию о случайности вымирания видов на примере морских хищников. Анализ эволюции акул и скатов за последние 145 миллионов лет показал, что риск исчезновения вида напрямую зависит от времени его существования: «новички» погибают гораздо чаще, чем эволюционные долгожители. Кроме того, ученые установили, что знаменитый астероид, погубивший динозавров, нанес океану не такой сильный удар, как последующее изменение климата.

Биология

# акулы

# Палеонтология

# эволюция

22 декабря, 11:17

ПНИПУ

Ученый объяснил, чем опасен сухой воздух в квартире и как с ним бороться

С началом отопительного сезона воздух в помещениях становится критически сухим. Это не просто временный дискомфорт, а серьезный фактор, который незаметно, но постоянно ослабляет наши защитные силы. Страдают также предметы интерьера, растения и домашние животные, а статическое электричество становится постоянным спутником. Вместе с экспертом ПНИПУ разбираемся, как сухой воздух влияет на наш организм и стоит ли с ним бороться.

ПНИПУ

# воздух

# здоровье

# квартира

# технологии

# увлажнители воздуха

23 декабря, 10:51

Игорь Байдов

Астрономы приблизились к доказательству существования квазизвезд

Астрономия

# вселенная

# гравитационное линзирование

# Джеймс Уэбб

# звезды

# ранняя вселенная

# телескоп Джеймса Уэбба

# Черные дыры

19 декабря, 15:22

Андрей Серегин

В морских пещерах Средиземного моря насчитали до сотни тысяч фрагментов пластика на квадратный метр

Экологическое состояние морей, омывающих развитые и развивающиеся страны, — давняя проблема, о которой говорят ученые. Авторы нового исследования выявили в Средиземном море пещеры с рекордным количеством мусора.

Биология

# пещера

# пластик

# тюлени

# экология

19 декабря, 20:02

Evgenia Vavilova

Физики доказали универсальный закон фондовых рынков

Исследователи доказали, что влияние больших сделок на рынок описывается квадратичной зависимостью. Основой для анализа стали данные Токийской биржи.

Физика

# биржа

# Теория сложных систем

# фондовый рынок

# экономика

8 декабря, 13:09

Александр Березин

Новая орбита национальной орбитальной станции лишит Россию возможности запускать космонавтов со своей территории

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

Космонавтика

# космос

# МКС

# Российская орбитальная станция

# Россия

17 декабря, 14:19

Игорь Байдов

Пингвины Аргентины столкнулись с новым сухопутным врагом

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

Биология

# животные

# охота

# Пингвины

# птицы

# пума

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

[miniorange_social_login]

Самообучающийся разум: новая эра математических рассуждений

Иллюзия Рассуждений: Ограничения Больших Языковых Моделей

OpenSIR: Эволюция Учителя и Ученика

Управление Разнообразием и Сложностью в OpenSIR

OpenSIR: Валидация на Стандартных Наборах Данных

Расширяя Горизонты Автономного Рассуждения

Что дальше?

Комментарии

По теме

Человеческие тексты научат ИИ морали

Microsoft опасается за свою репутацию из-за искусственного интеллекта

«Мир Дикого Запада»: что о нем думают ученые

Популярное

Последние новости:

Пустынная пыль помогла прояснить процесс формирования марсианских бурь

Астрономы обнаружили, что черные дыры могут быть привередливы к «еде»

Компьютерные игры снизили риск выгорания у молодых людей

Космический телескоп SPHEREx составил первую карту неба в инфракрасном диапазоне

Инфографика: сравнение российского термоядерного реактора с ИТЭР

Советское наступление под Москвой: почему Красная армия победила, несмотря на немецкое превосходство

Как Россия разрабатывает материалы для реакторов нового поколения — от земных АЭС до космических систем. Интервью с Алексеем Дубом

Какой ядерный реактор строить: тест ваших предпочтений

Последние комментарии

Самые обсуждаемые

Физики доказали универсальный закон фондовых рынков

Пингвины Аргентины столкнулись с новым сухопутным врагом

Мировой отчет о неравенстве сообщил о его серьезном росте в России. Однако в работе нашлись ошибки

Межзвездная комета 3I/ATLAS почти месяц подряд испускала узкую газовую струю