Нейросеть освоила видеоигру по языковому гайду — Naked Science
5 минут
Редакция

Нейросеть освоила видеоигру по языковому гайду

Студенты Стэнфордского университета разработали компьютерный алгоритм, который обучили проходить видеоигру посредством простых команд на английском языке.

maxresdefault
©Wikipedia

В большинстве случаев при обучении искусственных нейросетей прохождению видеоигр используются алгоритмы с подкреплением — этот метод предполагает получение компьютером внешней обратной связи о своих действиях, например в виде зарабатывания очков. В процессе тренировок система совершает произвольные действия до получения вознаграждения, после чего стремится повторить «выгодный» шаблон. Авторы новой работы при обучении нейросети применили альтернативный подход, позволивший ей освоить одну из сложнейших видеоигр для приставки Atari 2600 — «Месть Монтесумы» (Montezuma’s Revenge). Из-за специфики геймплея она не впервые участвует в экспериментах с искусственным интеллектом: в этой игре редко встречаются положительные и доступные для оценки стимулы, такие как ключ для отпирания двери.

 

Чтобы упростить тренировку нейросети при прохождении игры с недостатком источников подкрепления, на первом этапе студенты обучили систему распознаванию команд на естественном языке, при этом фразы сопровождались скриншотом целевого действия игрового персонажа. Затем они передали алгоритму набор команд для прохождения каждой локации и позволили самостоятельно практиковаться. В рамках демонстрации авторы описали прохождение нейросетью комнаты с последовательностью команд типа «поднимись по лестнице» без доступа к данным о прошлых этапах обучения — это имитировало ситуацию первичного ознакомления с комнатой. Результаты показали, что искусственный интеллект верно интерпретировал команды и даже игнорировал некоторые из них при условии, что существует более оптимальная стратегия прохождения.

 

Пример последовательности языковых команд / ©Russell Kaplan et al., arXiv.org, 2017

 

Эффективность предложенного подхода студенты оценили с помощью платформы для проектирования и сравнения алгоритмов обучения с подкреплением OpenAI Gym. Согласно сопоставлению, представленная нейросеть за время прохождения Montezuma’s Revenge набрала 3500 очков, тогда как показатель ближайшего конкурента составил 2500 очков. Тем не менее, максимальное значение по-прежнему остается за алгоритмом Google DeepMind — 6600 очков, — хотя обучение последнего потребовало двое больше времени. В последующем авторы статьи намерены сократить количество инструкций на естественном языке, необходимых для освоения нейросетями видеоигр, с тем чтобы сделать их более независимыми.

 

Подробности работы представлены на сервере препринтов arXiv.org.

 

Ранее международная группа исследователей представила компьютерную программу, которая самостоятельно научилась сложным тактикам игры в StarCraft. Так, система освоила тактику «Ударил-убежал», атаку прикрывающим огнем и сосредоточенный огонь по отдельным целям малыми группами. По мнению исследователей, алгоритм оптимально подходит для взаимодействия и тренировки с несколькими агентами.

 

Видеозапись прохождения / ©Christopher Sauer

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
16 апреля
4 минуты
Илья Ведмеденко

Исследователи установили, что обнаруженный в Баренцевом море объект — погибшая советская субмарина типа «Крейсерская». Это одна из самых больших подлодок СССР периода Второй мировой.

3 часа назад
2 минуты
Илья Ведмеденко

Сегодня, в 13:15 (мск), NASA начнет трансляцию исторического события: первого полета вертолета Ingenuity, доставленного на Марс вместе с планетоходом Perseverance. Посмотреть трансляцию можно на нашем сайте.

Вчера, 21:00
7 минут
Василий Парфенов

Уже этой осенью в путешествие отправится крупнейший из созданных человеком космических телескопов — JWST. Он не только сменит на «посту» стремительно устаревающего «Хаббла», но и существенно раздвинет границы нашего понимания Вселенной. Американские астрономы с помощью моделирования показали, насколько быстро этот научный инструмент сможет обнаружить биосигнатуры в атмосферах планет у других звезд.

16 апреля
4 минуты
Илья Ведмеденко

Исследователи установили, что обнаруженный в Баренцевом море объект — погибшая советская субмарина типа «Крейсерская». Это одна из самых больших подлодок СССР периода Второй мировой.

16 апреля
8 минут
Александр Березин

Исследователь из Гарварда проанализировал вероятность полного оледенения всей поверхности — включая экватор — для планет земного типа. Оказалось, это частый сценарий. И он может быть причиной уничтожения всей сложной жизни. Работа показывает неожиданную уязвимость нашей планеты для такого хода событий. По расчетам, в последние 20 тысяч лет Земля прошла буквально в нескольких градусах от полного и постоянного оледенения, исключающего выживание крупных наземных многоклеточных.

Вчера, 11:45
37 минут
Александр Березин

Витамины и минералы считают «хорошими» пищевыми добавками, а нитраты и нитриты натрия вместе с тартразином – «плохими». На самом деле, первые далеко не так полезны, а вторые не столь сильно вредны, как кажется. Наиболее же опасными из пищевых добавок следует считать так называемые непрямые. Рассмотрим подробнее: чего лучше избегать, а на что не стоит обращать особого внимания.

25 марта
36 минут
Александр Березин

Улыбающийся мультимиллиардер планирует понять, насколько эффективно мел в стратосфере защищает планету от солнечного света, и если результат хорош, распылить его там в гигантских количествах. Потенциально это результативная задумка: ученые давно показали, что так можно добиться полного покрытия Земли устойчивыми льдами — вплоть до экватора. Увы, идея Гейтса — плагиат, причем не лучший. Советский исследователь предложил похожее полвека назад с более эффективной серой. Интереснее другое: подобные мероприятия один раз едва не уничтожили человечество. Разбираемся в деталях, а также в том, грозит ли нам повторение.

31 марта
51 минута
Александр Березин

Самый зловещий оружейный проект всех времен и народов — термоядерная торпеда, предназначенная для радиационного поражения огромных площадей и создания искусственного цунами. Никогда до этого ни одна страна даже не заявляла о намерении сделать нечто настолько опасное для живых существ. Поэтому российский проект «Посейдон», обещающий именно это, вызывает бурю эмоций. Однако тщательный технический анализ показывает: в реальности он будет совсем не таким, как об этом пишут в СМИ. Даже если он предназначен для радиационного поражения обширных площадей, оно не будет долгим. А уже через год «омытые» им районы будут абсолютно безопасны. Тем не менее новая система действительно изменит стратегический баланс на планете — но не так, как все думают. Попробуем разобраться в ситуации подробнее.

26 марта
12 минут
Василий Парфенов

Похоже, история с американскими военными и «неопознанными воздушными феноменами» только набирает обороты. Новое расследование раскрыло многократные встречи нескольких кораблей Военно-морского флота Соединенных Штатов с аномально ведущими себя летательными аппаратами. Причем происходило это вне пределов досягаемости для любого коммерческого дрона или иного известного компактного БПЛА.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: