Ему не нужно указывать на правильные и ложные варианты: он сам учится, анализируя разные изображения.
Инженеры из Массачусетского технологического института (MIT) создали систему машинного обучения, разбивающую картинку на сетку, из которой она вычленяет описанные предметы в реальном времени.
Существующие системы распознавания речи вроде Siri требуют больших затрат. Им потребуются тысячи часов аудиозаписей, чтобы различать заложенные транскрипции. При появлении в лексиконе новых слов систему приходится тренировать заново. Для облегчения процесса обучения специалисты MIT создали новый алгоритм.
За основу они взяли сверточную нейронную сеть (CNN), состоящую из двух частей. Первая анализировала изображения, а другая — спектрограммы (визуальный рисунок аудиозаписей). Материалы двух частей сопоставлялись с корректировкой правильного ответа. Например, картинке А соответствует звуковая подпись А — такое сравнение считается верным. Затем к картинке А подставляют подпись B и множество других ошибочных. В результате система распознает звуковые сигналы, принадлежащие конкретному изображению, и ассоциирует их с определенными словами.
Для того чтобы искусственный интеллект научился сопоставлять отдельные слова и объекты, исследователи модернизировали обе части алгоритма, добавив библиотеку из 400 тысяч пар картинок с описанием. Теперь первая часть разделяла изображение на сетку из пикселей, а вторая разбивала спектрограмму на сегменты длиною около секунды, в которых помещалось одно или два слова. Система соотносила получившиеся ячейки из пикселей со всеми аудиосегментами одну за другой. Проблема заключалась в том, что в этот раз алгоритм не знал, какая пара правильная, но он смог обучиться самостоятельно, анализируя множество верных пар «картинка — описание».
Работу искусственного интеллекта специалисты продемонстрировали на примере изображения с девочкой в голубом платье. Система верно отметила ребенка, маяк и одежду по указанному описанию.
На прошлой неделе искусственный интеллект обнаружил 72 радиосигнала неизвестной природы с расстояния в три миллиарда световых лет от Земли. Он сделал это лучше, чем человек и стандартные компьютерные алгоритмы.