Как ИИ изменит нашу жизнь — в специальном проекте Naked Science!
Перейти
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
19 октября
НИУ ВШЭ
5 711

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением

4.5

Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.

Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением / ©Getty images

Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.

Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.

Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.

Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.

«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.

Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.

Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.

Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — одно из крупнейших и самых востребованных высших учебных заведений России, стран СНГ и государств Восточной Европы. В НИУ ВШЭ представлены все уровни образовательной подготовки (от лицея для школьников до аспирантуры и MBA) по широкому спектру направлений в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также творческих специальностей. Научные подразделения ВШЭ — институты, центры, лаборатории, возглавляемые ведущими российскими и зарубежными учеными, ориентированы как на фундаментальные исследования, так и на прикладные разработки по заказам федеральных и региональных органов власти, министерств и ведомств, российских и зарубежных компаний. Высшая школа экономики стабильно занимает высокие места в предметных рейтингах Times Higher Education (THE) и QS, а также является единственным российским университетом в топ-50 рейтингов молодых университетов сразу двух агентств.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Сегодня, 13:24
Александр Березин

Глава Daimler Мартин Даум и Билл Гейтс в разное время, но вполне единодушно отмечали, что законы физики делают грузовую фуру — ключевой элемент современных перевозок — несовместимой с чистой электротягой. Многотонная батарея отнимает слишком много пространства и веса у коммерческого груза, поэтому проекты Tesla Semi Дауму и Гейтсу представлялись «непрактичными». А теперь Илон Маск наконец начал поставки этого грузовика — и просачивающиеся данные о его реальной массе показывают, что Гейтс и Даум ошибались. Как Маску удалось то, что все в один голос считали настолько невозможным, что никто даже не попытался составить ему конкуренцию? И почему это изменит мир вокруг нас?

3 декабря
Василий Парфенов

На «Заводе 42» компании Northrop Grumman в Палмдейле, штат Калифорния, прошла торжественная церемония выкатки новейшего стратегического бомбардировщика B-21 Raider. Малозаметный самолет должен в ближайшем будущем частично заменить устаревающий парк Rockwell B-1 Lancer и Northrop Grumman B-2 Spirit, и даже взять на себя ряд задач, которые выполняют совсем уж «старички» Boeing B-52 Stratofortress.

Сегодня, 09:22
Василий Парфенов

Аббревиатура ЖКХ хорошо знакома каждому россиянину. За ней скрывается целый спектр привычных образов. При этом цифровизация и применение искусственного интеллекта в этом контексте вспоминаются далеко не первыми. Сфера коммунальных услуг не чужда высоким технологиям, просто они не всегда заметны пользователю. Naked Science рассказывает, как искусственный интеллект, большие данные, нейросети и машинное обучение делают городскую инфраструктуру надежнее и эффективнее.

2 декабря
Алиса Гаджиева

Серию секретных рисунков и надписей, добавленных таинственной женщиной-переписчицей, обнаружили в рукописи возрастом более 1200 лет.

2 декабря
Анна Новиковская

Найти лекарство от старости — заветная мечта человечества, но вполне может оказаться, что для мужчин и для женщин их придется разрабатывать по отдельности. Во всяком случае, один из самых многообещающих антивозрастных препаратов, рапамицин, по-разному воздействовал на самцов и самок дрозофил, продлив жизнь одним и не повлияв на других.

3 декабря
Василий Парфенов

На «Заводе 42» компании Northrop Grumman в Палмдейле, штат Калифорния, прошла торжественная церемония выкатки новейшего стратегического бомбардировщика B-21 Raider. Малозаметный самолет должен в ближайшем будущем частично заменить устаревающий парк Rockwell B-1 Lancer и Northrop Grumman B-2 Spirit, и даже взять на себя ряд задач, которые выполняют совсем уж «старички» Boeing B-52 Stratofortress.

19 ноября
Анна Новиковская

В последний раз черношейного фазанового голубя видели еще в 1882 году, и с тех пор ученые не знали, живет ли еще в лесах острова Фергуссон эта красивая птица. Теперь, наконец, им повезло: одна из камер запечатлела представителя редчайшего подвида фазановых голубей.

24 ноября
Редакция

Режиссер Илай Сасик (Eli Sasich), вдохновившись классическими научно-фантастическими фильмами «Чужой» и «Бегущий по лезвию», несколько лет назад снял короткометражный фильм «Атропа», который стоит посмотреть, если вы интересуетесь наукой и космическими технологиями.

24 ноября
Анна Новиковская

В то время как основные мировые языки со временем упрощают письменность, существует одно яркое исключение: китайский язык. За свою историю, насчитывающую три тысячелетия, его система письма становилась только сложнее и до сих пор остается крайне сложной для изучения.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: