• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
19.10.2022, 11:00
НИУ ВШЭ
6,2 тыс

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

❋ 4.5

Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением / ©Getty images / Автор: Наталья Федосеева

Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.

Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.

Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.

Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.

«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.

Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.

Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.

Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
8 мая, 15:51
Татьяна Зайцева

Мужчина, отправившийся на утреннюю прогулку на юго-западе Норвегии, случайно сделал крайне редкую и ценную находку — золотое украшение для ножен меча в виде переплетенных между собой змееподобных существ. По мнению ученых, в VI веке нашей эры этот артефакт специально поместили в трещину в скале в качестве подношения богам во времена голода и социальных потрясений.

9 мая, 12:15
Любовь С.

Астрономы впервые использовали гравитационные волны, чтобы косвенно оценить параметры одного из ключевых процессов термоядерного горения в массивных светилах. Именно от него зависит, какие звезды взрываются, какие превращаются в черные дыры и как во Вселенной появляются углерод и кислород — элементы, без которых не было бы ни планет, ни жизни.

8 мая, 17:12
СПбГУ

Нейробиологи СПбГУ продемонстрировали, что активация рецептора следовых аминов TAAR1 эффективно подавляет агрессивное поведение, вызванное полным отсутствием серотонина в мозге. В дальнейшем этот результат поможет в разработке лекарственных препаратов, направленных на коррекцию патологических форм агрессии, возникающих при посттравматическом стрессовом расстройстве (ПТСР) и шизофрении.

7 мая, 14:25
Максим Абдулаев

Канадские исследователи идентифицировали останки четырех членов пропавшей полярной экспедиции Джона Франклина 1845 года, сравнив их ДНК с генетическим материалом современных потомков. Открытие решило полуторавековую загадку с переодетым матросом и помогло восстановить маршрут отступления экипажа по льдам. Выяснилось, что при эвакуации моряки разделились по кораблям, после чего бросили ослабевших товарищей в спасательных шлюпках.

4 мая, 11:05
Понамарева Валерия

Генетика интеллекта сложна и связана с разными психоневрологическими состояниями. Оказалось, то, что повышает эрудицию, может ухудшать способность решать творческие задачи, — и наоборот. Причем паттерны этих связей уникальны для каждого диагноза.

8 мая, 15:51
Татьяна Зайцева

Мужчина, отправившийся на утреннюю прогулку на юго-западе Норвегии, случайно сделал крайне редкую и ценную находку — золотое украшение для ножен меча в виде переплетенных между собой змееподобных существ. По мнению ученых, в VI веке нашей эры этот артефакт специально поместили в трещину в скале в качестве подношения богам во времена голода и социальных потрясений.

23 апреля, 18:34
Александр Березин

В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.

10 апреля, 10:51
Татьяна Зайцева

Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.

21 апреля, 20:03
Evgenia Vavilova

Химические связи в материале, из которого сделана электроника, разрываются не из-за накопительного износа от протекания тока через них, а из-за электронов с конкретной энергией.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно