Поисковик «Яндекс» научился находить смысл — Naked Science
6 минут
Редакция

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02
©Wikipedia

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных «Яндекса» получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске «Яндекса», но и в «Картинках», а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Позавчера, 17:16
4 минуты
Мария Кривоченко

Разработать варианты крылатого пилотируемого космического корабля поручил глава «Роскосмоса» Дмитрий Рогозин. Предполагается, что аппарат будут строить по типу орбитального корабля «Буран», который использовался в СССР.

6 августа
5 минут
Денис Гордеев

Новая система работает в любых атмосферных условиях — при дожде, ветре и большом количестве пыли в воздухе.

Вчера, 12:21
2 минуты
Илья Ведмеденко

Представлена демонстрационная версия РЛС для перспективного южнокорейского боевого самолета. Радиолокационная станция имеет активную фазированную антенную решетку.

6 августа
30 минут
Николай Цыгикало

Трагическая новость о взрыве огромной силы в Бейруте, занявшая первые строчки новостных ресурсов, вызывает естественные вопросы: как это могло произойти, что там взорвалось, в силу каких факторов возможны подобные происшествия? Чтобы разобраться, взглянем пристальнее на свойства аммиачной селитры и связанные с ней опасные моменты.

Позавчера, 17:16
4 минуты
Мария Кривоченко

Разработать варианты крылатого пилотируемого космического корабля поручил глава «Роскосмоса» Дмитрий Рогозин. Предполагается, что аппарат будут строить по типу орбитального корабля «Буран», который использовался в СССР.

6 августа
5 минут
Денис Гордеев

Новая система работает в любых атмосферных условиях — при дожде, ветре и большом количестве пыли в воздухе.

22 июля
66 минут
Александр Березин

С 2064 года численность людей начнет сокращаться — и этот процесс может быть необратим. Один из авторов соответствующей научной работы прямо указывает: если ничего не изменится, через несколько веков человечество вымрет. Однако есть вещи и похуже вымирания. Куда вероятнее иной сценарий: мир будет заселен теми, кто сможет размножаться в новых культурных условиях. К сожалению, значительная часть современных европейцев, американцев и, возможно, других народов будут вытеснены с первых страниц истории. Вдобавок те, кто победят в этой непростой борьбе, нам, сегодняшнему населению Земли, могут сильно не понравиться. Попробуем разобраться почему.

10 июля
7 минут
Мария Кривоченко

Биологи выяснили, какое воздействие оказывают радиоволны на эмбрионы рыб. Оказалось, они существенно не влияют на уровень смертности, морфологию и реакцию на свет, но немного подавляют сенсомоторные функции. Как это скажется на взрослых особях, еще предстоит выяснить.

12 июля
28 минут
Илья Ведмеденко

Программа ПАК ДП (перспективный авиационный комплекс дальнего перехвата) привлекает к себе все больше внимания. Разберемся, что это такое и появится ли у России новый боевой самолет.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: