Яндекс внедрил в Поиск гибридную ИИ‑архитектуру, созданную на базе научных исследований

Редакция Naked Science

3 месяца назад

В последнее время мировые поисковые системы уделяют все больше внимания прямым ответам на запросы. То есть когда человек вбивает что-то в поиск, кроме выдачи ссылок, он получает в самом верху ответ, который нейросеть генерирует «на лету», в виде связного текста. «Генеративные ответы — важная часть пользовательского опыта. Такие ответы должны соответствовать требованиям Поиска: быть быстрыми, лаконичными и эффективно работать на большом потоке запросов», — отметила Екатерина Серажим.

Для решения довольно непростой задачи компания развивает отдельный набор моделей — Alice AI Search, оптимизированный под задачи поиска. «За последний год мы внедрили улучшения во всех частях технологии — от обучения претрейн-моделей до оптимизации инфраструктуры», — добавила она.

По ее словам, для таких моделей требуется и особая архитектура, так как в Поиске им приходится почти мгновенно анализировать большой объем информации из веб-документов. Это отличается от стандартного подхода нейросетей к генерации ответов. Поэтому важно использовать решения, которые обеспечивают высокое качество выдачи при ограниченных вычислительных ресурсах.

Технический директор пояснила, что в экспериментах компании архитектура «энкодер-декодер» — где одна часть модели анализирует запрос и документы, а другая формирует ответ — при работе с большим объемом данных показала результаты лучше классических языковых моделей. Чтобы ускорение работы модели шло без потери качества, компания использовала подход Mixture of Experts (MoE).

Это принятая в индустрии архитектура, которая позволяет значительно увеличить количество параметров модели (очень условно — ее «знания»), не увеличивая при этом вычислительные затраты на каждый отдельный запрос.

Если обычная нейросетевая модель при каждом слове активирует все свои нейроны («плотная» модель), то MoE-модель активирует только малую часть своих мощностей («разреженная» модель). «Экспертами» в модели называют отдельные подсети, каждая из которых «учится» обрабатывать определенные типы данных. Один «эксперт» может хорошо разбираться в программировании, другой — в биологии, третий — в написании деловых писем.

Серажим отметила, что MoE позволяет задействовать только часть модели для генерации каждого следующего токена, что ускоряет работу и повышает эффективность.

«В Поиске модель должна одновременно работать с большим объемом данных и укладываться в жесткие ограничения по скорости и стоимости на каждом запросе. Нам удалось модифицировать архитектуру, добавив слои MoE. В совокупности все улучшения, включая создание гибридной архитектуры, позволили нам повысить качество и совокупно снизить стоимость инференса в три раза. В результате покрытие ИИ-ответами в Поиске (доля запросов, на которые Поиск сразу даёт генеративный ответ) выросло за год в 1,5 раза», — подытожила она. Инференсом в данном контексте называют процесс работы нейросети над генеративным ответом пользователю, задающему вопрос в поисковике.

Внедрение компанией сочетания архитектур MoE и «энкодер-декодер» из научных исследований в промышленный поиск показывает, как такие разработки переходят в практическое применение — уже с учетом жестких требований к скорости, стабильности и стоимости инфраструктуры.