19.10.2022

НИУ ВШЭ

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

❋ 4.5

Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.

НИУ ВШЭ

# алгоритмы

# искусственный интеллект

# компьютерные игры

# машинное обучение

# оптимизм

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением / ©Getty images / Автор: Наталья Федосеева

Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.

Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.

Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.

Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.

«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.

Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.

Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.

Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# алгоритмы

# искусственный интеллект

# компьютерные игры

# машинное обучение

# оптимизм

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Болезнь Альцгеймера: новая парадигма диагностики и терапии

Парк «Зарядье»

Москва

Лекция

03 Июл

Бесплатно

Растения большого города

Центр «Архэ»

Москва

Лекция

03 Июл

Бесплатно

Применение ИИ в разработке лекарств

Библиотека Планетарий 1

Санкт-Петербург

Лекция

03 Июл

1300 ₽

Как астрономы помогают физикам

Живое слово

Тверь

Курилка Гутенберга

Москва

Лекция

03 Июл

Бесплатно

Исторические цивилизации на Северном Тянь-Шане

Русское географическое общество

Москва

Лекция

04 Июл

Бесплатно

Гипотезы о происхождении языка

ВДНХ

Москва

Лекция

05 Июл

Бесплатно

Диагноз по картине: болезни художников, повлиявшие на их творчество

ВДНХ

Москва

Лекция

05 Июл

Бесплатно

Власть Вечного города: как Древний Рим подчинил наше сознание?

ВДНХ

Москва

Популярное

За сутки

За неделю

За месяц

Вчера, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

Вчера, 09:51

КБГУ

Ученые выяснили, какие гены позволяют кабардино-балкарцам так долго жить

Кавказ — один из мировых лидеров по числу долгожителей. Ученые КБГУ задались целью выяснить, что позволяет людям в Кабардино-Балкарии жить так долго и сохранять активность. Работа исследователей открывает новые перспективы в понимании процессов старения и разработке стратегий для продления жизни.

КБГУ

# болезнь Альцгеймера

# гены

# Долгожители

# долголетие

# Кавказ

Вчера, 19:44

Игорь Байдов

Древняя ДНК раскрыла состав популярного в Римской империи соуса

Гарум — знаменитый рыбный соус, который был неотъемлемой частью кухни Древнего Рима и других средиземноморских культур. Он стоял на столах и в хижинах бедняков, и в пиршественных залах патрициев. Философ Сенека с отвращением называл его «‎драгоценной сукровицей протухших рыб», но миллионы римлян обожали эту приправу. Что на самом деле входило в ее состав? Ответ на вопрос нашла международная команда ученых с помощью чанов, которые использовались для приготовления соуса.

Археология

# ДНК

# пища

# Рим

# римляне

# Римская империя

28 июня, 18:58

Игорь Байдов

Человек сделал балтийскую треску «карликом»

За последние 30 лет размер трески, обитающей в Балтийском море, значительно уменьшился. Если раньше рыбаки вылавливали из воды особей размером с маленького ребенка, то теперь добытая рыба легко помещается в ладонях. Авторы нового исследования винят в этом человека, который заставил один из видов эволюционировать в «карликов».

Биология

# Балтийское море

# Балтика

# виды

# промысел рыбы

# Рыба

# треска

# эволюция

Вчера, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

27 июня, 09:47

Авдей Палиш

Биологи запустили стрим из «мегалогова» гремучих змей, чтобы восстановить их репутацию

Снимки с фотоловушек давно стали культурным явлением. Особенно забавными выглядят медведи. Мы с удовольствием смотрим на зверей, попавших в объектив камер в национальных парках: тигр украл фотоловушку, муравьед проехал верхом на муравьеде и так далее. Но не все животные настолько обаятельные. Ученые из США решили развить эмпатию к гремучим змеям, которых многие боятся. Для этого специалисты запустили трансляцию из «мегалогова», где рептилии отдыхают и рожают потомство.

Биология

# гремучая змея

# змеи

# камера

# сша

# трансляция

# фотоловушки

# эмпатия

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех

# «Суперджет»

# самолет

# сверхзвуковой

# суперкомпьютеры

# Шум

5 июня, 13:20

Александр Березин

Нашествие миллиона антилоп на Россию заставило фермеров просить об отстреле с вертолетов

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

Биология

# антилопы

# глобальное озеленение

# Россия

[miniorange_social_login]

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

По теме

Российская разработка сократит время создания компьютерных игр более, чем на половину

Гипертонию «вычислили» по голосу пациента

Знаете ли вы…

Популярное

Коров покормили отходами конопли и проверили их молоко на психоактивность

Ученые выяснили, какие гены позволяют кабардино-балкарцам так долго жить

Древняя ДНК раскрыла состав популярного в Римской империи соуса

Человек сделал балтийскую треску «карликом»

Коров покормили отходами конопли и проверили их молоко на психоактивность

Биологи запустили стрим из «мегалогова» гремучих змей, чтобы восстановить их репутацию

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Нашествие миллиона антилоп на Россию заставило фермеров просить об отстреле с вертолетов

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 65

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Человек человеку — друг?

Ужасная десятка: страшные инструменты прошлого

Животные-экстремалы

Черных дыр пятница

Гамма-всплески, марсианский лед и космическая пассионарность: как Россия исследует Вселенную. Интервью с Игорем Митрофановым

Ученые из Уханя действительно создали «искусственный» коронавирус — но не тот

Геноцид армян: Холокост Востока

Ижевский стрелок: почему экс-выпускники убивают школьников

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

По теме

Российская разработка сократит время создания компьютерных игр более, чем на половину

Гипертонию «вычислили» по голосу пациента

Знаете ли вы…

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 65

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?