Поисковик «Яндекс» научился находить смысл
6 минут
Редакция

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных «Яндекса» получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске «Яндекса», но и в «Картинках», а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
10 часов назад
4 минуты
София Жаботинская

Создатели препарата добровольно ввели себе собственную разработку и, как сообщает руководитель центра имени Гамалеи, добились успеха.

Вчера, 14:08
9 минут
Мария Азарова

Американские ученые изучили скрытую экосистему ныне затопленной Палео-Агульской равнины, которая много тысяч лет назад могла представлять собой райское место для людей и животных.

Вчера, 16:05
4 минуты
София Жаботинская

Рисунок на спине змей может помогать в маскировке и уходе от преследования, а в некоторых случаях — продемонстрировать угрозу для хищника.

10 часов назад
4 минуты
София Жаботинская

Создатели препарата добровольно ввели себе собственную разработку и, как сообщает руководитель центра имени Гамалеи, добились успеха.

19 мая
6 минут
София Жаботинская

Новый препарат, который, по мнению его создателей, может помочь остановить пандемию раньше и эффективнее, чем вакцинация, подошел к стадии клинических испытаний.

23 мая
21 минута
Ольга Иванова

Европейцы считают запах духов «Шанель» приятным, а папуасы Новой Гвинеи терпеть его не могут, зато обожают аромат свиного жира. Почему разные культуры оценивают запах по-своему, какую роль в нашей жизни играют ароматы, как мы выбираем партнера, опираясь на собственный нюх, и почему супружеским парам не стоит спать под одним одеялом? Об этом – в нашем материале.

14 мая
6 минут
София Жаботинская

Две-три чашки кофе в день обеспечивают уменьшение как подкожного, так и висцерального жира у женщин — по сравнению с теми, кто пьет кофе реже или не пьет совсем.

18 мая
46 минут
Александр Березин

«Новая газета» обратила внимание, что в статистике столицы — эпицентра коронавирусной эпидемии в России — в апреле 2020 года виден аномальный всплеск смертей. Он в разы превышает официальные цифры гибели людей от Covid-19. Власти опять скрывают? Naked Science внимательно присмотрелся к ситуации и обнаружил, что дело совсем в другом факторе, никак не связанном с новой болезнью. Рассказываем, о чем речь.

28 апреля
5 минут
Денис Гордеев

Константа, описывающая взаимодействие материи с электромагнитным излучением, может оказаться вовсе не константой.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: