Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением
Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.
Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.
Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.
Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.
Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.
«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.
Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.
Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.
Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта».
Финские ученые узнали, что характер кошек и собак и в первую очередь их привязанность к хозяину формируются под влиянием невротичных проявлений человека.
Существующая разведывательная спутниковая группировка США позволяет фиксировать запуски баллистических ракет по всему миру. Но ее разрешающей способности достаточно только для отслеживания активных участков траектории — пока работают двигатели ускорителей. Если ракета имеет маневрирующую или гиперзвуковую головную часть, определить, куда именно летят боеголовки, пока затруднительно. Новые спутники, которые недавно заказал Пентагон, исправят этот недочет.
Ведущий эксперт по старению из Великобритании выдвинул необычную гипотезу. Ученый предположил, что динозавры, которые играли важную роль на Земле, вероятно, повлияли на возникновение у млекопитающих, в том числе людей, генетических механизмов, «ускоряющих старение».
Исследователь из Британии пришел к выводу, что люди, которые излишне оптимистично относятся к своему финансовому положению в будущем, обладают более низкими когнитивными способностями по сравнению с теми, кто старается смотреть на вещи реально или даже пессимистично.
Мы предлагаем за несколько минут узнать, на какого специалиста в атомной сфере вы больше всего похожи. И кто знает — быть может, именно этот путь вам и предстоит?
Исследовательница пришла к выводу, что слова и словосочетания из популярнейшей и крупнейшей медиафраншизы «достигли высочайшего уровня интеграции» в язык — главным образом благодаря тому, что со временем стали независимыми от вселенной «Звездных войн».
Парниковый эффект от американского природного газа, поставляемого в Старый Свет, неожиданно оказался выше, чем от сжигания местного угля. И намного выше, чем от российского газа.
Известно всего несколько примеров злокачественных опухолей, которые ведут себя подобно инфекции — передаются другим организмам. Среди них — трансмиссивный рак двустворчатых моллюсков BTN. Авторы новой статьи описали географические и экологические аспекты распространения BTN среди мидий в Баренцевом море, оценили число больных моллюсков и узнали, как расселение «заразного рака» связано с Северным морским путем.
Первый полет Ил-96-400М с новой — и полностью российской — авионикой преподносят как большой успех. «Это демонстрация высочайшего уровня компетенций отечественных КБ и авиазаводов», — не скупится на похвалы министр Денис Мантуров. Но есть и иная точка зрения: первый полет Ил-96 был еще в 1988 году. И для сегодняшнего дня он подходит не сильно больше, чем типичный автомобиль той же эпохи. Российские пилоты не скрывают: экономически такой самолет будет тяжелым ядром на ноге той авиакомпании, что его купит. Но значит ли это, что он не нужен? И что вообще будет с широкофюзеляжными авиалайнерами в нашей стране?
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии