Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Разработан эффективный «оптимистичный» алгоритм для обучения с подкреплением
Международный коллектив ученых из России, Франции и Германии с участием исследователей факультета компьютерных наук, Центра искусственного интеллекта ВШЭ и Научно-исследовательского института искусственного интеллекта AIRI разработали новый алгоритм обучения с подкреплением (Bayes-UCBVI). Это первый байесовский алгоритм, который имеет математическое доказательство эффективности и успешно протестирован на практике в Atari-играх.
Результат был представлен на конференции ICML-2022. Обучение с подкреплением — один из видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие.
Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: исследование или использование известных данных.
Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. Разработанный исследователями алгоритм Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко.
Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.
«Представим, что возле вашего дома есть кофейня. Каждое утро вы покупаете там кофе и выпечку, которые вам нравятся. Но неподалеку открывается еще одно кафе, и вы думаете: а вдруг там и булочка вкуснее, и кофе более ароматный? На следующее утро перед вами дилемма: исследовать новое кафе или же пойти в проверенное место, где вы уверены в результате.
Вы решаете исследовать новое место, и кофе там оказался невкусный. Но вы попробовали кофе один раз и не знаете: возможно, просто последняя партия кофейных зерен была неудачной. Исходя из принципа оптимизма, вы дадите этой кофейне хотя бы еще один шанс», — поясняет один из авторов статьи, сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных и AIRI Даниил Тяпкин.
Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом. Алгоритм, представленный учеными, позволил преодолеть пропасть между теорией и практикой.
Авторский коллектив впервые предложил обобщение этого алгоритма и протестировал его на 57 играх Atari. «Это первый алгоритм, обладающий теоретической и практической значимостью, — говорит один из авторов, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Алексей Наумов. — Доказанные результаты Bayes-UCBVI играют большую роль для развития машинного обучения, они объединяют сообщества теоретиков и практиков. Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта».
Научный консультант Международной лаборатории биоинформатики НИУ ВШЭ Алан Герберт предложил новое объяснение одной из нерешенных загадок биологии — происхождения генетического кода. Согласно исследованию, современный генетический код мог возникнуть благодаря самоорганизующимся молекулярным комплексам — тинкерам. Новую гипотезу автор выдвинул на основе анализа вторичных структур ДНК с помощью нейросети AlphaFold3.
Остывшая после Большого взрыва Вселенная была наполнена холодным, нейтральным газом, заслонявшим свет звезд. К счастью, за космологическими Темными веками пришла эпоха реионизации. Первые звезды и галактики ионизировали межгалактическое пространство, и Вселенная вновь засияла. И вот ученые нашли древнейшую галактику, излучение которой реионизирует окружающий нейтральный газ.
Во многих западных странах рождаемость снижается или стагнирует, но при этом статистика свидетельствует о росте числа собак-компаньонов. В результате в некоторых государствах, к примеру, в США, домашних псов уже больше, чем детей. О возможных причинах, стоящих за тенденцией, в новом исследовании размышляет Энико Кубиньи (Enikő Kubinyi), профессор и заведующая кафедрой этологии в Университета Этвёша Лоранда (Венгрия).
Крупные современные города России — продукт своеобразной эволюции. Их морфология может сочетать историческую застройку, советское наследие и здания времен рыночной экономики. Авторы новой статьи — ученые из ВШЭ и Института географии РАН — заинтересовались, насколько российские города соответствуют современной концепции 15-минутного города. Она описывает доступность инфраструктуры для жителей: могут ли те самостоятельно добраться (пешком или на велосипеде) до школ, больниц, театров и других необходимых заведений за четверть часа.
К современному транспорту и строениям предъявляются жесткие требования по остеклению. Оно должно обеспечивать безопасность, хорошую тепло- и шумоизоляцию, противостоять сложным погодным условиям. Белорусские инженеры предложили революционное решение — вакуумные модули остекления (ВМО), которые практически исключают теплопередачу за счет вакуумной прослойки между стеклами. Эта разработка особенно актуальна в контексте глобального тренда на энергоэффективность и экологичность транспортных средств.
Прежде чем на Земле появились привычные нам животные, ее населяли «черновики Бога». Это таинственные существа, жившие в эдиакарском периоде и совсем не похожие на своих преемников. В новом исследовании ученые описали 211 окаменелостей мелкой двусторонне-симметричной Parvancorina minchami, найденных у берегов Белого моря. Авторы сумели реконструировать рост и развитие парванкорины, а также оценили продолжительность ее жизни.
Когда пара расстается, многие люди продолжают испытывать чувства к своим бывшим. Если разрыв произошел по инициативе другой стороны и отношения длились много лет, полностью «забыть» еще недавно близкого человека может быть непросто. Существует мнение, что и после расставания привязанность к экс-партнерам в какой-то мере сохраняется. Впрочем, согласно другой точке зрения, со временем эта эмоциональная связь ослабевает и утрачивается. Разобраться, как происходит на самом деле и сколько времени может потребоваться на полный эмоциональный разрыв с бывшими возлюбленными, взялись психологи из Иллинойсского университета в Урбане-Шампейне (США).
В двойственных, или обратимых, изображениях зритель может увидеть разные объекты в зависимости от того, на каких деталях концентрируется его внимание. Среди известных примеров таких рисунков — иллюзия «кролик-утка», сочетающая двух животных, и обратимая ваза (или ваза Рубина), которая может казаться двумя силуэтами лиц, если сосредоточиться на фоне. В соцсетях и популярных СМИ часто публикуют подобные картинки, утверждая, что по тому, какое изображение человек видит в первую очередь, можно судить о его личностных чертах и особенностях мышления. Двое психологов из Великобритании недавно проверили, так ли это на самом деле.
Масштабный анализ геномов показал, что вид Homo sapiens возник в результате смешения двух древних популяций. Они разделились полтора миллиона лет назад, а затем воссоединились до расселения по миру.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии