• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
26.04.2017
Редакция Naked Science
485

Нейросеть освоила видеоигру по языковому гайду

Студенты Стэнфордского университета разработали компьютерный алгоритм, который обучили проходить видеоигру посредством простых команд на английском языке.

maxresdefault
©Wikipedia

В большинстве случаев при обучении искусственных нейросетей прохождению видеоигр используются алгоритмы с подкреплением — этот метод предполагает получение компьютером внешней обратной связи о своих действиях, например в виде зарабатывания очков. В процессе тренировок система совершает произвольные действия до получения вознаграждения, после чего стремится повторить «выгодный» шаблон. Авторы новой работы при обучении нейросети применили альтернативный подход, позволивший ей освоить одну из сложнейших видеоигр для приставки Atari 2600 — «Месть Монтесумы» (Montezuma’s Revenge). Из-за специфики геймплея она не впервые участвует в экспериментах с искусственным интеллектом: в этой игре редко встречаются положительные и доступные для оценки стимулы, такие как ключ для отпирания двери.

 

Чтобы упростить тренировку нейросети при прохождении игры с недостатком источников подкрепления, на первом этапе студенты обучили систему распознаванию команд на естественном языке, при этом фразы сопровождались скриншотом целевого действия игрового персонажа. Затем они передали алгоритму набор команд для прохождения каждой локации и позволили самостоятельно практиковаться. В рамках демонстрации авторы описали прохождение нейросетью комнаты с последовательностью команд типа «поднимись по лестнице» без доступа к данным о прошлых этапах обучения — это имитировало ситуацию первичного ознакомления с комнатой. Результаты показали, что искусственный интеллект верно интерпретировал команды и даже игнорировал некоторые из них при условии, что существует более оптимальная стратегия прохождения.

 

Пример последовательности языковых команд / ©Russell Kaplan et al., arXiv.org, 2017

 

Эффективность предложенного подхода студенты оценили с помощью платформы для проектирования и сравнения алгоритмов обучения с подкреплением OpenAI Gym. Согласно сопоставлению, представленная нейросеть за время прохождения Montezuma’s Revenge набрала 3500 очков, тогда как показатель ближайшего конкурента составил 2500 очков. Тем не менее, максимальное значение по-прежнему остается за алгоритмом Google DeepMind — 6600 очков, — хотя обучение последнего потребовало двое больше времени. В последующем авторы статьи намерены сократить количество инструкций на естественном языке, необходимых для освоения нейросетями видеоигр, с тем чтобы сделать их более независимыми.

 

Подробности работы представлены на сервере препринтов arXiv.org.

 

Ранее международная группа исследователей представила компьютерную программу, которая самостоятельно научилась сложным тактикам игры в StarCraft. Так, система освоила тактику «Ударил-убежал», атаку прикрывающим огнем и сосредоточенный огонь по отдельным целям малыми группами. По мнению исследователей, алгоритм оптимально подходит для взаимодействия и тренировки с несколькими агентами.

 

Видеозапись прохождения / ©Christopher Sauer

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 11:02
Игорь Байдов

Грузовой самолет будут использовать для перевозки 90-метровых лопастей ветряных турбин, которые невозможно доставить по суше из-за размеров. Предполагается, что этот аппарат произведет революцию в сфере возобновляемых источников энергии.

Вчера, 19:23
Полина

Распространено мнение, что, чтобы справиться с гневом, необходимо дать волю негативным эмоциям. Исследователи из США доказали, что такой метод не позволяет снизить уровень агрессии.

Вчера, 13:48
Университет «Дубна»

В поле внимания ученых университета «Дубны» оказался Z-бозон — фундаментальная частица слабого взаимодействия. Они провели анализ различных вращательно инвариантных величин с помощью экспериментальных данных по рассеянию мезонов на фиксированной мишени из вольфрама. Результат анализа — их хорошая согласованность с теоретическими предсказаниями: качественно показано, что инварианты не изменяются при вращении системы отсчета, в которой рассеиваются частицы. Это значит, что такие инварианты можно с высокой точностью применять в будущих научных исследованиях, связанных с поиском новых частиц и проверкой теоретических моделей.

Вчера, 11:02
Игорь Байдов

Грузовой самолет будут использовать для перевозки 90-метровых лопастей ветряных турбин, которые невозможно доставить по суше из-за размеров. Предполагается, что этот аппарат произведет революцию в сфере возобновляемых источников энергии.

Позавчера, 08:39
Михаил Орлов

Глобальные изменения климата сказываются как на природе, так и на населении Земли. Среди последствий потепления — волны жары и увеличение числа жарких дней, которые напрямую влияют на здоровье людей и повседневную жизнь. Российские ученые из Высшей школы экономики и Института географии РАН спрогнозировали, как летний зной будет влиять на жителей России в ближайшие десятилетия. Они назвали регионы РФ, которые могут пострадать от жары сильнее всего, и выявили ведущие факторы таких изменений.

15 марта
Юлия Трепалина

Рассмотрев опыт ферм по выращиванию крупных питонов в Азии, ученые пришли к выводу, что это один из эффективных, но в то же время наименее вредных для экологии видов животноводства. По мнению исследователей, людям стоит всерьез задуматься о его внедрении в массовых масштабах.

11 марта
Игорь Байдов

Американская компания Stratolaunch сообщила об успешном завершении летных испытаний прототипа гиперзвукового аппарата Talon-A, оснащенного ракетным двигателем. Во время беспилотного полета планер развил сверхзвуковую скорость.

13 марта
Алиса Гаджиева

Древние переселенцы из Анатолии не только устроили геноцид в Скандинавии, но и одарили выживших новыми болезнями.

20 февраля
Полина

В Российской академии наук завершили первый Большой словарь ударений, его издадут к концу года. Лингвисты собрали наиболее современные нормы произношения привычных слов и зафиксировали ударение для лексики, которая появилась в русском языке недавно.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: