• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
23.01.2024, 11:00
НИУ ВШЭ
231

Ученые помогли нейросети лучше ориентироваться в пространстве

❋ 4.4

Исследователи из НИУ ВШЭ, НИТУ МИСИС и AIRI нашли способ эффективнее проводить обучение с подкреплением для нейросетей, заточенных на ориентацию в пространстве. С помощью механизма внимания эффективность работы графовой нейросети увеличилась на 15 процентов.

Дрон
Дрону, доставляющему посылки, крайней важно уметь не врезаться в препятствия (например, в деревья) / © Getty images / Автор: Павел Сорокин

Результаты исследования опубликованы в журнале IEEE Access. Человечеству пригодились бы роботы, которые могут сами перенести коробку из точки A в точку B, грузовики, умеющие ездить самостоятельно, и дроны-доставщики, способные не врезаться в деревья. Для ориентации в трехмерном пространстве таким устройствам-агентам обязательно нужны нейросети: окружающая среда требует быстрой реакции и возможности реагировать на изменяющиеся условия.

«Если мы хотим научить агента работать самостоятельно, то должны оценивать его работу в процессе обучения. Нельзя просто дать ему проблему и наблюдать — практически всегда она будет решена не тем образом и не с тем результатом, которого мы хотим. Поэтому нейросеть получает бонусный квест: при выполнении задачи набрать как можно больше очков. Очки даются за продвижение к оптимальному решению. Это и есть обучение с подкреплением. Пока нейросеть обучается, выполняя одно и то же задание много раз, мы оцениваем ее результаты и либо поощряем “наградой” за движение в нужном направлении, либо признаем результат вредным и уменьшаем количество заработанных “очков”», — объясняет один из авторов статьи, аспирант факультета компьютерных наук НИУ ВШЭ Матвей Герасёв.

Изображение сред «Четыре комнаты» и «Лабиринт» / © Пресс-служба НИУ ВШЭ

Ориентирование в пространстве — одна из самых сложных задач в мире нейросетей. Проблема в том, что в этой задаче у нейросети зачастую нет полной информации о ее текущем окружении, например глубины или карты местности. Еще меньше нейросеть знает о перспективах награды: вознаграждение выдается не поэтапно, а один раз в конце, после полного выполнения задания.

Представьте, что вам нужно пройти через лес к башне, заинтересовав как можно больше белок. Важно, что они сидят в основном на самом коротком пути (на пути оптимального решения) и, если увидят вас, пойдут за вами. При этом вы их не видите, где башня — не знаете и количество заинтересовавшихся вами зверей узнаете, только достигнув цели. Такого типа задачи достаются пространственным нейросетям.

Получение награды выражено математически функцией вознаграждения, и нейросеть должна определить ее как можно точнее, чтобы получить большую награду. Хорошая функция помогает сети эффективнее решать задачу и обучаться.

Авторы исследования предложили новый метод формирования функции вознаграждения с учетом специфики однократного получения вознаграждения после полного решения проблемы. Он основывается на дополнительных вторичных вознаграждениях — шейпинге вознаграждения. Ученые применили два способа улучшения техники, которую в 2020 году предложили канадские ученые из Макгиллского университета.

Первый использует продвинутые агрегирующие функции, а второй — механизм внимания. Продвинутые агрегирующие функции учитывают, в каком порядке и что видит нейросеть. В статье ученые указывают на важность подбора агрегирующей функции под архитектуру конкретной нейросети. Механизм внимания позволяет модели сосредоточиться на наиболее важных входных данных при создании прогнозов. Признаки важного, выгодного решения нейросеть находит при сопоставлении последовательных шагов решения задачи.

Исследователи провели серию экспериментов с поэтапным вознаграждением (разреженным вознаграждением, sparse reward). Для них использовали задачи на ориентацию в виртуальных пространствах «Четыре комнаты» и «Лабиринт».

В «Четырех комнатах» нейросеть должна обнаружить красный ящик, который случайным образом появляется в одной из комнат. Нейросеть может перемещаться только прямо, влево или вправо. Ящик — цель механизма внимания. Нейросеть учится параллельно в 16 таких пространствах, совершая пять миллионов действий.

Обученные по методу исследователей ВШЭ нейросети представлены зеленым и оранжевым графиком. X — количество шагов с начала обучения (шт.), Y — среднее вознаграждение, безразмерная шкала (от 0 до 1). Сверху — результаты задачи «Четыре комнаты», снизу — «Лабиринта» / © Пресс-служба НИУ ВШЭ

В «Лабиринте» помещенный в произвольную точку агент должен найти выход. Сам лабиринт каждый раз генерируется случайным образом, и для успешного обучения модели требуется пройти 20 миллионов шагов.

Исследование показало, что при формировании функции вознаграждения на основе механизма внимания агент обучается сосредотачиваться на ребрах графа, соответствующих важным переходам в трехмерной среде — тем, при которых цель попадает в поле зрения агента. Это до 15 процентов повышает эффективность работы нейросетей.

«Нам важно было оптимизировать процесс обучения именно для графовых нейронных сетей. Граф нельзя наблюдать целиком напрямую, но для эффективного обучения графовой нейронной сети достаточно рассматривать его части. Их можно наблюдать в виде отдельных траекторий перемещения агента. Таким образом, для обучения необязательны все варианты траекторий. Применение механизма внимания — перспективное решение, поскольку оно существенно ускоряет процесс обучения. Ускорение происходит за счет учета структуры графа марковского процесса, что недоступно неграфовым нейросетям», — рассказывает Илья Макаров, доцент факультета компьютерных наук и приглашенный преподаватель Лаборатории алгоритмов и технологий анализа сетевых структур НИУ ВШЭ в Нижнем Новгороде, руководитель группы «ИИ в промышленности» Института AIRI, директор Центра ИИ МИСИС.

В исследовании использовались ресурсы Программы фундаментальных исследований НИУ ВШЭ и вычислительные ресурсы HPC-кластера НИУ ВШЭ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
9 апреля, 08:30
Максим Абдулаев

Окаменелые остатки рептилии возрастом 289 миллионов лет сохранили полное анатомическое устройство грудной клетки ранних покорителей суши. Благодаря нетронутым хрящам исследователи реконструировали механику первого полноценного реберного дыхания. Наличие в тканях оригинальных белков подтвердило, что сложные органические молекулы способны сохраняться в палеонтологической летописи почти на 100 миллионов лет дольше, чем считалось.

10 апреля, 10:51
Татьяна Зайцева

Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.

9 апреля, 13:25
Андрей Серегин

Представления о политическом устройстве древних майя долгое время сводились к образу всемогущего обожествленного царя. Однако новые находки археологов в джунглях Гватемалы показали, что на смену абсолютной монархии там пришла куда более открытая форма власти — с советами, открытыми заседаниями и коллективной ответственностью.

5 апреля, 15:48
Александр Березин

Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.

9 апреля, 08:30
Максим Абдулаев

Окаменелые остатки рептилии возрастом 289 миллионов лет сохранили полное анатомическое устройство грудной клетки ранних покорителей суши. Благодаря нетронутым хрящам исследователи реконструировали механику первого полноценного реберного дыхания. Наличие в тканях оригинальных белков подтвердило, что сложные органические молекулы способны сохраняться в палеонтологической летописи почти на 100 миллионов лет дольше, чем считалось.

10 апреля, 10:51
Татьяна Зайцева

Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

19 марта, 12:41
Игорь Байдов

Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.

5 апреля, 15:48
Александр Березин

Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно