• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
26.04.2017
Редакция Naked Science
506

Нейросеть освоила видеоигру по языковому гайду

Студенты Стэнфордского университета разработали компьютерный алгоритм, который обучили проходить видеоигру посредством простых команд на английском языке.

maxresdefault
©Wikipedia / Автор: Ольга Кузьмина

В большинстве случаев при обучении искусственных нейросетей прохождению видеоигр используются алгоритмы с подкреплением — этот метод предполагает получение компьютером внешней обратной связи о своих действиях, например в виде зарабатывания очков. В процессе тренировок система совершает произвольные действия до получения вознаграждения, после чего стремится повторить «выгодный» шаблон. Авторы новой работы при обучении нейросети применили альтернативный подход, позволивший ей освоить одну из сложнейших видеоигр для приставки Atari 2600 — «Месть Монтесумы» (Montezuma’s Revenge). Из-за специфики геймплея она не впервые участвует в экспериментах с искусственным интеллектом: в этой игре редко встречаются положительные и доступные для оценки стимулы, такие как ключ для отпирания двери.

 

Чтобы упростить тренировку нейросети при прохождении игры с недостатком источников подкрепления, на первом этапе студенты обучили систему распознаванию команд на естественном языке, при этом фразы сопровождались скриншотом целевого действия игрового персонажа. Затем они передали алгоритму набор команд для прохождения каждой локации и позволили самостоятельно практиковаться. В рамках демонстрации авторы описали прохождение нейросетью комнаты с последовательностью команд типа «поднимись по лестнице» без доступа к данным о прошлых этапах обучения — это имитировало ситуацию первичного ознакомления с комнатой. Результаты показали, что искусственный интеллект верно интерпретировал команды и даже игнорировал некоторые из них при условии, что существует более оптимальная стратегия прохождения.

 

Пример последовательности языковых команд / ©Russell Kaplan et al., arXiv.org, 2017

 

Эффективность предложенного подхода студенты оценили с помощью платформы для проектирования и сравнения алгоритмов обучения с подкреплением OpenAI Gym. Согласно сопоставлению, представленная нейросеть за время прохождения Montezuma’s Revenge набрала 3500 очков, тогда как показатель ближайшего конкурента составил 2500 очков. Тем не менее, максимальное значение по-прежнему остается за алгоритмом Google DeepMind — 6600 очков, — хотя обучение последнего потребовало двое больше времени. В последующем авторы статьи намерены сократить количество инструкций на естественном языке, необходимых для освоения нейросетями видеоигр, с тем чтобы сделать их более независимыми.

 

Подробности работы представлены на сервере препринтов arXiv.org.

 

Ранее международная группа исследователей представила компьютерную программу, которая самостоятельно научилась сложным тактикам игры в StarCraft. Так, система освоила тактику «Ударил-убежал», атаку прикрывающим огнем и сосредоточенный огонь по отдельным целям малыми группами. По мнению исследователей, алгоритм оптимально подходит для взаимодействия и тренировки с несколькими агентами.

 

Видеозапись прохождения / ©Christopher Sauer

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 12:55
Игорь Байдов

Существует несколько гипотез о том, как на самом деле древние египтяне строили свои пирамиды. Если о способах возведения монументальных сооружений и инструментах, которые использовали строители, более-менее известно, то о методах доставки блоков и их установки мнения разнятся. Команда французских архитекторов и египтологов изучила ландшафт вокруг самой древней из сохранившихся египетских пирамид — Джосера — и рассказала, как египтяне могли доставлять и поднимать камни для ее строительства.

Вчера, 10:00
ПНИПУ

Эпоксидные смолы известны своей прочностью, устойчивостью к химическим воздействиям и хорошими электрическими свойствами. Такие полимеры используют в качестве основы красок, покрытий, клеев и изоляционных материалов. Однако их применение ограничено высокой вязкостью. Ученые ПНИПУ синтезировали низковязкую, но прочную эпоксидную смолу. Разработка откроет новые горизонты ее использования, избавит от потребности применять разбавители и станет модификатором более высоковязких существующих смол без понижения механических характеристик. Например, клей и краска станут более устойчивыми.

Позавчера, 15:20
Юлия Трепалина

В прошлом ИИ-системы выполняли определенный набор задач, а при появлении новых их нужно было переобучать. На это уходили дополнительные финансовые и вычислительные ресурсы. Открытие лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI меняет ситуацию. Ученые первыми в мире создали модель в области контекстного обучения (In-Context Learning), которая на нескольких примерах сама может учиться новым действиям.

23 июля
Андрей

Человек множеством способов загрязняет природу вокруг себя, преимущественно воду. В Мировой океан попадают как отходы с производств, так и тонны пластикового мусора. Все это способно отравлять жизнь морских животных, особенно редких вроде акул. Одним из малоизученных токсичных источников можно назвать наркотики, в частности кокаин. Случайное употребление этого вещества акулами раньше только предполагали, но теперь бразильские биологи нашли прямые доказательства.

23 июля
НИУ ВШЭ

Международная команда исследователей с участием ученых из НИУ ВШЭ изучила, как люди, владеющие двумя языками (билингвы), ассоциируют время с пространством. Оказалось, что и в первом, и во втором языке они связывают прошлое с левой частью пространства, а будущее — с правой. При этом чем выше уровень владения вторым языком, тем сильнее выражена эта связь.

24 июля
Дарья Г.

На сегодня удалось подтвердить существование тысяч экзопланет, но лишь около 25 из них получилось запечатлеть напрямую. Причем из них лишь шесть объектов старше 100 миллионов лет. И вот, наконец, ученые смогли сделать снимок взрослой экзопланеты.

1 июля
Александр Березин

Необычный биологический вид, по оценке авторов новой научной работы, пригоден для заселения четвертой планеты без каких-либо предварительных условий — уже в том виде, в котором он существует сейчас. Поскольку речь идет о фотосинтетическом организме, он способен нарабатывать существенное количество кислорода. Интересно, что кандидат на терраформирование Марса сохранил жизнеспособность после месяца в жидком азоте.

12 июля
Александр Березин

Falcon 9 Block 5 впервые за три сотни запусков дал частично неудачный полет. Ракета выводила 20 спутников компании SpaceX, с 15 связь уже пропала, еще пять могут быть потеряны в ближайшее время.

15 июля
Александр Березин

Авторы нового исследования впервые показали, что круглые провалы в лунной поверхности не просто близки к многокилометровым пещерам на естественном спутнике Земли, но и располагают тоннелями, ведущими в глубину.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно