09.09.2025, 16:54

Редакция Naked Science

2,3 тыс

Исследователи «Яндекса» представили способ повысить качество работы рекомендательных систем

❋ 4.7

Исследователи рекомендательных технологий «Яндекса» нашли способ, как повысить качество работы рекомендательных систем, чтобы они лучше понимали предпочтения пользователей, например, в товарах или контенте, и составляли более точные рекомендации. Для этого исследователи внедрили дополнительную корректировку в процесс обучения таких моделей.

Технологии

# машинное обучение

# программное обеспечение

# Яндекс

Рекомендательные системы сегодня массовы, а их обучение превратилось в весьма ресурсоемкий процесс. Можно ли его облегчить? / © Вастрик, vas3k.blog

Внутреннее тестирование «Яндекса» показало, что новый подход позволяет повысить точность рекомендаций моделей в среднем на семь процентов по показателям качества ранжирования. «Яндекс» планирует использовать метод при обучении рекомендательных моделей собственных сервисов, в частности «Маркета». Метод будет полезен и другим компаниям, а также независимым разработчикам, работающим с рекомендательными системами в любой сфере — будь то соцсеть, интернет-магазин или стриминговый сервис.

О новом методе исследователи «Яндекса» рассказали в научной статье, которая была принята на ACM RecSys 2025. Это главная ежегодная международная конференция по рекомендательным системам, которая в этом году пройдет в девятнадцатый раз в Чехии. На конференцию также приняты работы крупнейших мировых технологических компаний — Amazon, Google и других.

Неточности при обучении рекомендательных систем

Рекомендательные системы обычно работают с миллионами объектов — текстами, аудио, видео, товарами. Это требует больших вычислительных ресурсов. Но сначала модель нужно обучить также на миллионах примеров, и для этого тоже необходимо много ресурсов. Чтобы сделать этот процесс менее ресурсоемким, во всем мире используют разные методы, которые заменяют сложные расчеты на более простые. Один из таких методов — sampled softmax, или алгоритм выборочного сэмплирования.

Его суть в том, что систему обучают различать предпочтения людей путем сравнения реализованных действий, которые пользователи совершили по отношению к конкретному объекту (положительные примеры), с нереализованными действиями, которых они не совершали относительно того же объекта (отрицательные примеры). В качестве объекта, например, может выступать определенный товар, тогда положительный пример — это добавление в корзину, а отрицательный — просмотр на сайте без добавления.

Обучение системы строится на том, что ей показывают положительный пример и отрицательные, — и благодаря этому модель начинает отличать одно от другого. Но можно показать ей миллионы отрицательных примеров из обучающего каталога, а можно лишь несколько случайно выбранных — в этом и заключается преимущество метода sampled softmax, которое позволяет экономить вычислительные ресурсы. Однако этот метод может привести к некачественному обучению из-за некорректного учета вероятностей — актуальна ли для пользователя рекомендация или нет. В результате модель будет давать неверные рекомендации.

Решение с помощью новой формулы

Для корректной работы метода требуется использовать обновленную формулу пересчета вероятностей того, что пользователь заинтересуется определенным товаром или контентом, — LogQ. Главная математическая трудность была в том, что существующие методы предполагают одинаковые правила отбора для всех примеров, а на практике положительные и отрицательные примеры попадают в данные по-разному. Из-за этого стандартные формулы начинают систематически искажать оценки, и требовалось специально скорректировать пересчет вероятностей, чтобы сделать модель объективнее.

Благодаря формуле модель при обучении начинает понимать, что реальные действия пользователя выбираются не случайным образом и явно задаются ей как положительные примеры, а остальные примеры — отрицательные и выбраны случайно. Это позволяет уменьшить смещения в оценках со стороны модели, то есть искажения, влияющие на точность ее финальных рекомендаций. В результате модель лучше понимает предпочтения пользователей и, как следствие, дает им более подходящие рекомендации.

Компании и разработчики могут использовать новую формулу при обучении любой рекомендательной системы. Для этого им не придется менять архитектуру своих моделей.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Технологии

# машинное обучение

# программное обеспечение

# Яндекс

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Животные как первые покорители космического пространства

Астрокомплекс им. С.П. Королева

Москва

Лекция

25 Июл

500 ₽

Мозг-гурман: нейрофизиология гастрономических удовольствий

ВСмысле

Онлайн

Лекция

25 Июл

Бесплатно

И еще раз о Марсе! Когда же?

Космонавтика и авиация

Москва

Библиотека им. М. Ю. Лермонтова

Санкт-Петербург

Лекция

25 Июл

Бесплатно

Рукописная культура Эпохи Просвещения и основание Императорской публичной библиотеки

Центр славянской письменности «Слово»

Москва

Лекция

25 Июл

Бесплатно

Тайные стражи природы: зачем нужны волки и другие хищники?

Экспериментаниум

Москва

Лекция

26 Июл

Бесплатно

Поиск комет и астероидов

Космонавтика и авиация

Москва

Medio Modo

Москва

Центр славянской письменности «Слово»

Москва

Nikita, Google изначально был выдавал очень релевантный результат именно в научной сфере, статьи, Pubmed, патенты и др. Яндекс пытался мне что то впарить, и выдавал оч плохие по качеству статьи. Сейчас чуть лучше но засилье рекламы.

Ответить

Сергей Механик

09.09.2025

Nikita, полностью оценить этот перевод в настоящее время, к сожалению, мне сложновато, т. к. нет такого качественного доступа к ресурсу YouTube как у вас.

Ответить

Дождиков Антон

09.09.2025

Принципиальная ошибка в том, что разработчики Яндекса в этой статье кроме "болота" своих рекомендательных систем боятся нос высунуть в сторону. Эту задачу можно решать через глубокое обучение с подкреплением, ориентируясь не на правила, а на наработанный моделью опыт взаимодействия с реальными пользователями. Тут DRL-гибридная модель нужна. Тогда результат будет не 7%, а выше

Ответить

Сергей Механик

09.09.2025

Яндекс уважаю и пользуюсь, но по-прежнему считаю, что Google лучше.

Ответить

—

Serjo Djachkowski

09.09.2025

Сергей, по ощущениям сплошная реклама и деньговыжимание, очень не доверяю.

Ответить

Nikita Lazarenko

09.09.2025

Ответить

Еще 2 ответа

Serjo Djachkowski

09.09.2025

Ответить

Сергей Механик

09.09.2025

Ответить

Дождиков Антон

09.09.2025

Ответить

Дон Хуан Ай карамба

10.09.2025

Стратегия очень простая: рекомендуем бегуну купить велосипед --> а с велосипедистами работать мы уже умеем!

Ответить

Ярослав Экенберг

08.11.2025

А я-то думал новый рекламный баннер добавят, странный подход к решению проблемы, неяндексовский.

Ответить

Исследователи «Яндекса» представили способ повысить качество работы рекомендательных систем

Неточности при обучении рекомендательных систем

Решение с помощью новой формулы

По теме

Исследователи «Яндекса» решили проблему «катастрофического забывания» голосовых помощников

В ЛЭТИ предложили способ определения индивидуального профиля слуха

Популярное

Комментарии

Последние новости:

Постоянную Хаббла предложили измерять по первым звездным скоплениям

Сладкие напитки в детстве повысили риск гипертонии спустя десятилетия на 52%

В эпоху Византии двух недоношенных близнецов похоронили в заброшенном римском общественном туалете

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Пережившие китобоев: как в России спасают гренландских китов Охотского моря и не только

Климатический «щелчок»: может ли Эль-Ниньо изменить привычный нам мир

Промышленный кошмар: почему терраформирование Марса может оказаться неподъемной задачей

Последние комментарии

Самые обсуждаемые

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Астронавт лунной миссии предложил отказаться от посадки на южном полюсе Луны

С Плесецка в обстановке секретности вывели на орбиту новую партию российских спутников «Рассвет»

Вспышку сверхмассивной черной дыры впервые наблюдали в реальном времени