Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением
Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.
Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.
Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.
Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.
Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.
«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.
Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.
Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.
Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта».
Арахнологи описали новый вид пауков, который копирует облик мертвой особи, пораженной паразитическим грибом, чтобы хищники меньше обращали на него внимание. В природе такой гриб заражает хозяина и воздействует на его нервную систему, после чего заставляет подниматься на возвышенность, откуда легче распространять споры. Открытие расширит представления ученых о мимикрии у животных.
Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ и Института биоорганической химии им. М. М. Шемякина и Ю. А. Овчинникова РАН с коллегами представили метод получения и очистки трансмембранного домена шиповидного белка коронавируса SARS-CoV-2 (SARStm) дикого типа. Этот «якорь» не только удерживает шип, которым вирус «атакует» клетки, в его оболочке, но и участвует в процессе слияния вирусной и клеточной оболочек. В новом протоколе используется бесклеточная экспрессия — синтез белка в очищенном бактериальном экстракте, что позволяет получать его в течение нескольких часов вместо дней и значительно упрощает очистку. Метод открывает возможность для детального изучения структуры белка с помощью спектроскопии ядерного магнитного резонанса (ЯМР).
Нанопластика становится все больше в диете среднего человека, но ученые ищут способы не дать ему переместиться из еды в организм навсегда. Оказалось, что источником защиты может стать квашеная капуста.
В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.
Арахнологи описали новый вид пауков, который копирует облик мертвой особи, пораженной паразитическим грибом, чтобы хищники меньше обращали на него внимание. В природе такой гриб заражает хозяина и воздействует на его нервную систему, после чего заставляет подниматься на возвышенность, откуда легче распространять споры. Открытие расширит представления ученых о мимикрии у животных.
20 марта Московскому авиационному институту исполняется 96 лет. За эти годы университет прошел большой путь становления, и во многом его развитие определяли люди, посвятившие себя науке и подготовке инженерных кадров. Один из таких — выдающийся ученый, заслуженный работник высшей школы Российской Федерации, доктор технических наук, профессор Борис Семенович Зечихин. Более 70 лет его жизнь неразрывно связана с кафедрой 310 «Электроэнергетические, электромеханические и биотехнические системы» и НИО-310 МАИ. Научная и педагогическая работа Бориса Семеновича получила широкое признание в России и за рубежом, а его вклад в развитие электромеханических специальностей и подготовку инженерных кадров оказал существенное влияние на отечественную авиационную и электротехническую промышленность. Сегодня Борис Семенович продолжает свою работу, участвует в проектах по созданию электрических и гибридных силовых установок, передает опыт и знания молодым специалистам в рамках развития Передовой инженерной школы и всего МАИ в целом.
В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.
Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.
За 10 лет лежания в почве сигаретные фильтры не растворились, а лишь замаскировались под грязь. Их пластиковые волокна распались на микрочастицы, намертво склеились с минералами и превратились во вторичный микропластик. Более того, на пятом году гниения мусор начал отравлять землю с новой силой.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
