• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
19.10.2022
НИУ ВШЭ
6 087

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

4.5

Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением / ©Getty images

Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.

Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.

Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.

Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.

«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.

Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.

Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.

Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — одно из крупнейших и самых востребованных высших учебных заведений России, стран СНГ и государств Восточной Европы. В НИУ ВШЭ представлены все уровни образовательной подготовки (от лицея для школьников до аспирантуры и MBA) по широкому спектру направлений в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также творческих специальностей. Научные подразделения ВШЭ — институты, центры, лаборатории, возглавляемые ведущими российскими и зарубежными учеными, ориентированы как на фундаментальные исследования, так и на прикладные разработки по заказам федеральных и региональных органов власти, министерств и ведомств, российских и зарубежных компаний. Высшая школа экономики стабильно занимает высокие места в предметных рейтингах Times Higher Education (THE) и QS, а также является единственным российским университетом в топ-50 рейтингов молодых университетов сразу двух агентств.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 16:02
Ольга Иванова

Финские ученые узнали, что характер кошек и собак и в первую очередь их привязанность к хозяину формируются под влиянием невротичных проявлений человека.

Вчера, 20:27
Василий Парфенов

Существующая разведывательная спутниковая группировка США позволяет фиксировать запуски баллистических ракет по всему миру. Но ее разрешающей способности достаточно только для отслеживания активных участков траектории — пока работают двигатели ускорителей. Если ракета имеет маневрирующую или гиперзвуковую головную часть, определить, куда именно летят боеголовки, пока затруднительно. Новые спутники, которые недавно заказал Пентагон, исправят этот недочет.

9 часов назад
Игорь Байдов

Ведущий эксперт по старению из Великобритании выдвинул необычную гипотезу. Ученый предположил, что динозавры, которые играли важную роль на Земле, вероятно, повлияли на возникновение у млекопитающих, в том числе людей, генетических механизмов, «ускоряющих старение».

24 ноября
Ольга Иванова

Исследователь из Британии пришел к выводу, что люди, которые излишне оптимистично относятся к своему финансовому положению в будущем, обладают более низкими когнитивными способностями по сравнению с теми, кто старается смотреть на вещи реально или даже пессимистично.

27 ноября
Кирилл Отавин

Мы предлагаем за несколько минут узнать, на какого специалиста в атомной сфере вы больше всего похожи. И кто знает — быть может, именно этот путь вам и предстоит?

Позавчера, 18:39
Мария Азарова

Исследовательница пришла к выводу, что слова и словосочетания из популярнейшей и крупнейшей медиафраншизы «достигли высочайшего уровня интеграции» в язык — главным образом благодаря тому, что со временем стали независимыми от вселенной «Звездных войн».

15 ноября
Александр Березин

Парниковый эффект от американского природного газа, поставляемого в Старый Свет, неожиданно оказался выше, чем от сжигания местного угля. И намного выше, чем от российского газа.

10 ноября
Михаил Орлов

Известно всего несколько примеров злокачественных опухолей, которые ведут себя подобно инфекции — передаются другим организмам. Среди них — трансмиссивный рак двустворчатых моллюсков BTN. Авторы новой статьи описали географические и экологические аспекты распространения BTN среди мидий в Баренцевом море, оценили число больных моллюсков и узнали, как расселение «заразного рака» связано с Северным морским путем.

5 ноября
Александр Березин

Первый полет Ил-96-400М с новой — и полностью российской — авионикой преподносят как большой успех. «Это демонстрация высочайшего уровня компетенций отечественных КБ и авиазаводов», — не скупится на похвалы министр Денис Мантуров. Но есть и иная точка зрения: первый полет Ил-96 был еще в 1988 году. И для сегодняшнего дня он подходит не сильно больше, чем типичный автомобиль той же эпохи. Российские пилоты не скрывают: экономически такой самолет будет тяжелым ядром на ноге той авиакомпании, что его купит. Но значит ли это, что он не нужен? И что вообще будет с широкофюзеляжными авиалайнерами в нашей стране?

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: