23.01.2024, 11:00

НИУ ВШЭ

Ученые помогли нейросети лучше ориентироваться в пространстве

❋ 4.4

Исследователи из НИУ ВШЭ, НИТУ МИСИС и AIRI нашли способ эффективнее проводить обучение с подкреплением для нейросетей, заточенных на ориентацию в пространстве. С помощью механизма внимания эффективность работы графовой нейросети увеличилась на 15 процентов.

НИУ ВШЭ

# дроны

# нейросеть

# пространство

# роботы

Дрону, доставляющему посылки, крайней важно уметь не врезаться в препятствия (например, в деревья) / © Getty images / Автор: Павел Сорокин

Результаты исследования опубликованы в журнале IEEE Access. Человечеству пригодились бы роботы, которые могут сами перенести коробку из точки A в точку B, грузовики, умеющие ездить самостоятельно, и дроны-доставщики, способные не врезаться в деревья. Для ориентации в трехмерном пространстве таким устройствам-агентам обязательно нужны нейросети: окружающая среда требует быстрой реакции и возможности реагировать на изменяющиеся условия.

«Если мы хотим научить агента работать самостоятельно, то должны оценивать его работу в процессе обучения. Нельзя просто дать ему проблему и наблюдать — практически всегда она будет решена не тем образом и не с тем результатом, которого мы хотим. Поэтому нейросеть получает бонусный квест: при выполнении задачи набрать как можно больше очков. Очки даются за продвижение к оптимальному решению. Это и есть обучение с подкреплением. Пока нейросеть обучается, выполняя одно и то же задание много раз, мы оцениваем ее результаты и либо поощряем “наградой” за движение в нужном направлении, либо признаем результат вредным и уменьшаем количество заработанных “очков”», — объясняет один из авторов статьи, аспирант факультета компьютерных наук НИУ ВШЭ Матвей Герасёв.

Изображение сред «Четыре комнаты» и «Лабиринт» / © Пресс-служба НИУ ВШЭ

Ориентирование в пространстве — одна из самых сложных задач в мире нейросетей. Проблема в том, что в этой задаче у нейросети зачастую нет полной информации о ее текущем окружении, например глубины или карты местности. Еще меньше нейросеть знает о перспективах награды: вознаграждение выдается не поэтапно, а один раз в конце, после полного выполнения задания.

Представьте, что вам нужно пройти через лес к башне, заинтересовав как можно больше белок. Важно, что они сидят в основном на самом коротком пути (на пути оптимального решения) и, если увидят вас, пойдут за вами. При этом вы их не видите, где башня — не знаете и количество заинтересовавшихся вами зверей узнаете, только достигнув цели. Такого типа задачи достаются пространственным нейросетям.

Получение награды выражено математически функцией вознаграждения, и нейросеть должна определить ее как можно точнее, чтобы получить большую награду. Хорошая функция помогает сети эффективнее решать задачу и обучаться.

Авторы исследования предложили новый метод формирования функции вознаграждения с учетом специфики однократного получения вознаграждения после полного решения проблемы. Он основывается на дополнительных вторичных вознаграждениях — шейпинге вознаграждения. Ученые применили два способа улучшения техники, которую в 2020 году предложили канадские ученые из Макгиллского университета.

Первый использует продвинутые агрегирующие функции, а второй — механизм внимания. Продвинутые агрегирующие функции учитывают, в каком порядке и что видит нейросеть. В статье ученые указывают на важность подбора агрегирующей функции под архитектуру конкретной нейросети. Механизм внимания позволяет модели сосредоточиться на наиболее важных входных данных при создании прогнозов. Признаки важного, выгодного решения нейросеть находит при сопоставлении последовательных шагов решения задачи.

Исследователи провели серию экспериментов с поэтапным вознаграждением (разреженным вознаграждением, sparse reward). Для них использовали задачи на ориентацию в виртуальных пространствах «Четыре комнаты» и «Лабиринт».

В «Четырех комнатах» нейросеть должна обнаружить красный ящик, который случайным образом появляется в одной из комнат. Нейросеть может перемещаться только прямо, влево или вправо. Ящик — цель механизма внимания. Нейросеть учится параллельно в 16 таких пространствах, совершая пять миллионов действий.

Обученные по методу исследователей ВШЭ нейросети представлены зеленым и оранжевым графиком. X — количество шагов с начала обучения (шт.), Y — среднее вознаграждение, безразмерная шкала (от 0 до 1). Сверху — результаты задачи «Четыре комнаты», снизу — «Лабиринта» / © Пресс-служба НИУ ВШЭ

В «Лабиринте» помещенный в произвольную точку агент должен найти выход. Сам лабиринт каждый раз генерируется случайным образом, и для успешного обучения модели требуется пройти 20 миллионов шагов.

Исследование показало, что при формировании функции вознаграждения на основе механизма внимания агент обучается сосредотачиваться на ребрах графа, соответствующих важным переходам в трехмерной среде — тем, при которых цель попадает в поле зрения агента. Это до 15 процентов повышает эффективность работы нейросетей.

«Нам важно было оптимизировать процесс обучения именно для графовых нейронных сетей. Граф нельзя наблюдать целиком напрямую, но для эффективного обучения графовой нейронной сети достаточно рассматривать его части. Их можно наблюдать в виде отдельных траекторий перемещения агента. Таким образом, для обучения необязательны все варианты траекторий. Применение механизма внимания — перспективное решение, поскольку оно существенно ускоряет процесс обучения. Ускорение происходит за счет учета структуры графа марковского процесса, что недоступно неграфовым нейросетям», — рассказывает Илья Макаров, доцент факультета компьютерных наук и приглашенный преподаватель Лаборатории алгоритмов и технологий анализа сетевых структур НИУ ВШЭ в Нижнем Новгороде, руководитель группы «ИИ в промышленности» Института AIRI, директор Центра ИИ МИСИС.

В исследовании использовались ресурсы Программы фундаментальных исследований НИУ ВШЭ и вычислительные ресурсы HPC-кластера НИУ ВШЭ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# дроны

# нейросеть

# пространство

# роботы

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Объединенные Арабские Эмираты: культурный код, стратегия будущего

Библиотека иностранной литературы

Москва

Лекция

28 Июл

Бесплатно

Бобры. Все о речных строителях

Российская государственная библиотека для молодежи

Москва

Лекция

28 Июл

Бесплатно

О строении Земли и земного ядра

Русское географическое общество

Москва

Лекция

28 Июл

Бесплатно

Тайна «Маленьких Красных Точек»: что скрывает ранняя Вселенная?

Астрокомплекс им. С.П. Королева

Москва

Лекция

29 Июл

Бесплатно

Как строят метро в Петербурге

Библиотека Планетарий 1

Санкт-Петербург

Лекция

29 Июл

Бесплатно

«Отцы и дети» И. Тургенева: не война поколений, а тест на гибкость

ВДНХ

Москва

Лекция

29 Июл

1000 ₽

В скольких измерениях мы живем?

ВСмысле

Санкт-Петербург

Лекция

29 Июл

2000 ₽

Что мы можем и не можем увидеть на звездном небе

Московский Планетарий

Москва

Лекция

30 Июл

Бесплатно

Превентивная медицина, биохакинг и спорт

Курилка Гутенберга

Москва

Популярное

За сутки

За неделю

За месяц

27 июля, 13:06

Игорь Байдов

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Исследователи из США нашли в организме человека ранее неизвестный пептид BRP и проверили его работу на животных. В экспериментах он помог снизить аппетит и процент содержания жира без побочных эффектов. По механизму действия BRP напоминает препараты для снижения веса на основе ГПП-1, к которым относится семаглутид, но, предположительно, действует иначе: не через кишечник и поджелудочную железу, а преимущественно через центральные сигнальные пути в мозге, включая области гипоталамуса, участвующие в регуляции аппетита. Авторы новой научной работы рассматривают открытие как основу для принципиально нового класса лекарств от ожирения.

Медицина

# лекарства

# лишний вес

# ожирение

# Оземпик

# похудение

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Формально почти вся программа тринадцатого полета самой большой ракеты в истории выполнена. Однако испытания показали неполную отлаженность ключевого элемента системы. SpaceX оказывается в ситуации действительно плотных сроков: до намеченного возвращения людей на Луну всего два года и два месяца.

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

27 июля, 13:20

Александр Березин

Геологи нашли следы самой длинной эры пожаров в истории Земли

Четыре точки Европы показали одну и ту же картину: как минимум несколько десятков тысяч лет регулярных сильных пожаров. До сих пор ученые не сталкивались с ископаемыми следами настолько длительных регулярных событий такого типа. Авторы новой работы предложили феномену объяснение, но оно имеет существенные недостатки.

Геология

# палеоботаника

# Палеонтология

# триас

24 июля, 11:13

Игорь Байдов

Звуки помогли повысить урожайность

Правильно подобранные звуковые последовательности способны не только стимулировать рост растений, но и влиять на их урожайность. К такому выводу пришли авторы нового исследования. Они разработали технологию, которая позволяет воздействовать на процессы развития растений через акустические сигналы без использования генной инженерии или химикатов. В экспериментах добились повышения урожайности мяты, сои, болгарского перца и конопли.

Биология

# ботаника

# звуки

# каннабис

# конопля

# растения

# урожайность

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

24 июля, 12:05

Андрей Серегин

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

Сегодня на земле существует примерно 7500 языков, однако ученые давно подозревали, что в прошлом их было значительно больше. Международная группа лингвистов реконструировала историю языкового разнообразия за последние 12 тысяч лет и пришла к выводу, что человечество уже пережило «золотой век» языков, после которого их число начало быстро сокращаться.

Антропология

# голоцен

# колонизация

# культура

# лингвистика

# языки

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

1 июля, 11:54

Марк Чернов

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

История

# Древний Рим

# инженерия

# инструменты

# история

# Римская империя

19 июля, 20:09

Александр Березин

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Очереди на заправках стали привычным явлением в России, а на фоне информационного вакуума от властей о конкретных показателях производства бензина в июне население вынуждено ориентироваться на слухи. Все это выглядит довольно странно, но есть нюанс: скорее всего, кризис уже начинает выдыхаться. Как именно мы это выяснили?

С точки зрения науки

# бензин

# нпз

# Россия

# экономика

Выбор редакции

[miniorange_social_login]

Ученые помогли нейросети лучше ориентироваться в пространстве

По теме

Пермяки научили робота находить и устранять дефекты на лопатках турбин

Создан оптимальный алгоритм децентрализованной оптимизации для динамических сетей

В МТУСИ разработали нейросетевую модель распознавания голосовых команд для системы управления роботом-манипулятором

Популярное

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Геологи нашли следы самой длинной эры пожаров в истории Земли

Звуки помогли повысить урожайность

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Перехватчик МиГ-41: «Лисья гончая» XXI века

«Ударная» четверка: лучшие боевые вертолеты России и США

Дар богини: создана лучшая в истории трехмерная карта Млечного Пути

«Москвич» представил свой электромобиль. Что с ним не так?

Законы марсианских колоний — какими они будут?

Климатическое оружие: между фантастикой и наукой

Starship: проверка орбитальной баллистикой уже не за горами

Ученые помогли нейросети лучше ориентироваться в пространстве

По теме

Пермяки научили робота находить и устранять дефекты на лопатках турбин

Создан оптимальный алгоритм децентрализованной оптимизации для динамических сетей

В МТУСИ разработали нейросетевую модель распознавания голосовых команд для системы управления роботом-манипулятором

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?