• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
9 сентября, 16:54
Редакция Naked Science
6
342

Исследователи «Яндекса» представили способ повысить качество работы рекомендательных систем

❋ 4.7

Исследователи рекомендательных технологий «Яндекса» нашли способ, как повысить качество работы рекомендательных систем, чтобы они лучше понимали предпочтения пользователей, например, в товарах или контенте, и составляли более точные рекомендации. Для этого исследователи внедрили дополнительную корректировку в процесс обучения таких моделей.

Рекомендательные системы сегодня массовы, а их обучение превратилось в весьма ресурсоемкий процесс. Можно ли его облегчить? / © Вастрик, vas3k.blog

Внутреннее тестирование «Яндекса» показало, что новый подход позволяет повысить точность рекомендаций моделей в среднем на семь процентов по показателям качества ранжирования. «Яндекс» планирует использовать метод при обучении рекомендательных моделей собственных сервисов, в частности «Маркета». Метод будет полезен и другим компаниям, а также независимым разработчикам, работающим с рекомендательными системами в любой сфере — будь то соцсеть, интернет-магазин или стриминговый сервис.

О новом методе исследователи «Яндекса» рассказали в научной статье, которая была принята на ACM RecSys 2025. Это главная ежегодная международная конференция по рекомендательным системам, которая в этом году пройдет в девятнадцатый раз в Чехии. На конференцию также приняты работы крупнейших мировых технологических компаний — Amazon, Google и других.

Неточности при обучении рекомендательных систем

Рекомендательные системы обычно работают с миллионами объектов — текстами, аудио, видео, товарами. Это требует больших вычислительных ресурсов. Но сначала модель нужно обучить также на миллионах примеров, и для этого тоже необходимо много ресурсов. Чтобы сделать этот процесс менее ресурсоемким, во всем мире используют разные методы, которые заменяют сложные расчеты на более простые. Один из таких методов — sampled softmax, или алгоритм выборочного сэмплирования.

Его суть в том, что систему обучают различать предпочтения людей путем сравнения реализованных действий, которые пользователи совершили по отношению к конкретному объекту (положительные примеры), с нереализованными действиями, которых они не совершали относительно того же объекта (отрицательные примеры). В качестве объекта, например, может выступать определенный товар, тогда положительный пример — это добавление в корзину, а отрицательный — просмотр на сайте без добавления.

Обучение системы строится на том, что ей показывают положительный пример и отрицательные, — и благодаря этому модель начинает отличать одно от другого. Но можно показать ей миллионы отрицательных примеров из обучающего каталога, а можно лишь несколько случайно выбранных — в этом и заключается преимущество метода sampled softmax, которое позволяет экономить вычислительные ресурсы. Однако этот метод может привести к некачественному обучению из-за некорректного учета вероятностей — актуальна ли для пользователя рекомендация или нет. В результате модель будет давать неверные рекомендации.

Решение с помощью новой формулы

Для корректной работы метода требуется использовать обновленную формулу пересчета вероятностей того, что пользователь заинтересуется определенным товаром или контентом, — LogQ. Главная математическая трудность была в том, что существующие методы предполагают одинаковые правила отбора для всех примеров, а на практике положительные и отрицательные примеры попадают в данные по-разному. Из-за этого стандартные формулы начинают систематически искажать оценки, и требовалось специально скорректировать пересчет вероятностей, чтобы сделать модель объективнее.

Благодаря формуле модель при обучении начинает понимать, что реальные действия пользователя выбираются не случайным образом и явно задаются ей как положительные примеры, а остальные примеры — отрицательные и выбраны случайно. Это позволяет уменьшить смещения в оценках со стороны модели, то есть искажения, влияющие на точность ее финальных рекомендаций. В результате модель лучше понимает предпочтения пользователей и, как следствие, дает им более подходящие рекомендации.

Компании и разработчики могут использовать новую формулу при обучении любой рекомендательной системы. Для этого им не придется менять архитектуру своих моделей.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
9 сентября, 11:03
Адель Романова

Третий известный межзвездный объект 3I/ATLAS летит примерно вдвое быстрее обоих своих предшественников. По расчетам, его вряд ли могло выбросить из родной планетной системы с подобной скоростью, и так разогнаться по пути он тоже не мог.

8 сентября, 20:06
Evgenia Vavilova

Ученые впервые смогли создать видимый в оптическом диапазоне темпоральный кристалл. Для этого они использовали жидкие кристаллы.

9 сентября, 12:47
Александр Березин

Компания, контролирующая основную часть спутников и подавляющее большинство космических полетов человечества, неожиданно потратила 17 миллиардов долларов на выкуп частот, которые и так могли попасть ей в руки через несколько месяцев. Смысл этого шага не столько в том, чтобы облегчить себе экспансию, а больше в том, чтобы лишить других игроков возможности полноценной конкуренции.

9 сентября, 11:03
Адель Романова

Третий известный межзвездный объект 3I/ATLAS летит примерно вдвое быстрее обоих своих предшественников. По расчетам, его вряд ли могло выбросить из родной планетной системы с подобной скоростью, и так разогнаться по пути он тоже не мог.

8 сентября, 20:06
Evgenia Vavilova

Ученые впервые смогли создать видимый в оптическом диапазоне темпоральный кристалл. Для этого они использовали жидкие кристаллы.

6 сентября, 16:25
Evgenia Vavilova

Для разрыва связи между атомами водорода понадобились золото, титан и ультрафиолетовое излучение. Полученный водород ученые использовали для преобразования углекислого газа в этилен.

3 сентября, 07:56
Адель Романова

Недавнее появление в Солнечной системе межзвездного объекта 3I/ATLAS вызвало новую волну обсуждения вопроса о том, как отличить комету или астероид от внеземного космического корабля либо другого артефакта, не созданного человечеством. Астрономы рассказали, что у искусственного объекта могут быть четыре характерные особенности.

9 сентября, 11:03
Адель Романова

Третий известный межзвездный объект 3I/ATLAS летит примерно вдвое быстрее обоих своих предшественников. По расчетам, его вряд ли могло выбросить из родной планетной системы с подобной скоростью, и так разогнаться по пути он тоже не мог.

12 августа, 11:29
Юлия Трепалина

Влияет ли формат знакомства на качество последующих романтических отношений в паре? Научные данные на этот счет разнятся. Новое исследование по вопросу представила группа психологов из Польши, Австралии и Великобритании. В попытке понять, при каком сценарии удовлетворенность отношениями выше, а любовь крепче — когда двое нашли друг друга в Сети или познакомились в жизни, — ученые опросили свыше 6000 тысяч человек из разных стран.

[miniorange_social_login]

Комментарии

6 Комментариев
Сергей Механик
6 часов назад
-
1
+
Яндекс уважаю и пользуюсь, но по-прежнему считаю, что Google лучше.
    Serjo Djachkowski
    5 часов назад
    -
    0
    +
    Сергей, по ощущениям сплошная реклама и деньговыжимание, очень не доверяю.
    Nikita Lazarenko
    5 часов назад
    -
    1
    +
    Сергей, мне нравится ии перевод на ютубе от яндекса. Я знаю английский, но не в совершенстве, но с переводом ии я просто в безграничном контенте
    +
      ещё комментарии
      Serjo Djachkowski
      5 часов назад
      -
      1
      +
      Nikita, Google изначально был выдавал очень релевантный результат именно в научной сфере, статьи, Pubmed, патенты и др. Яндекс пытался мне что то впарить, и выдавал оч плохие по качеству статьи. Сейчас чуть лучше но засилье рекламы.
      Сергей Механик
      5 часов назад
      -
      0
      +
      Nikita, полностью оценить этот перевод в настоящее время, к сожалению, мне сложновато, т. к. нет такого качественного доступа к ресурсу YouTube как у вас.
Дождиков Антон
7 часов назад
-
2
+
Принципиальная ошибка в том, что разработчики Яндекса в этой статье кроме "болота" своих рекомендательных систем боятся нос высунуть в сторону. Эту задачу можно решать через глубокое обучение с подкреплением, ориентируясь не на правила, а на наработанный моделью опыт взаимодействия с реальными пользователями. Тут DRL-гибридная модель нужна. Тогда результат будет не 7%, а выше
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно