Как ИИ изменит нашу жизнь — в специальном проекте Naked Science!
Перейти
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
02.11.2016
Редакция Naked Science
529

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02
©Wikipedia

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных “Яндекса” получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске “Яндекса”, но и в “Картинках”, а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Вчера, 13:13
Алиса Гаджиева

Палеонтологи обнаружили останки никогда ранее не встречавшегося дасплетозавра, который, возможно, был прямым предком Tyrannosaurus rex. Эта находка может разрешить серьезные споры об эволюционной родословной самого знаменитого динозавра.

Позавчера, 10:10
Сергей Васильев

Биологи внесли в ДНК червей гены, кодирующие светочувствительные белки. Это позволило управлять ими при помощи света, заставляя двигаться на зеленый сигнал и останавливаться на красный.

Вчера, 11:18
Анна Новиковская

Около пятой части атмосферы нашей планеты составляет кислород — важный газ, необходимый для существования сложных форм жизни. Ученые полагали, что основным и практически единственным его источником были живые организмы — фотосинтезирующие растения и бактерии. Но теперь, возможно, им придется пересмотреть свои взгляды.

24 ноября
Редакция

Режиссер Илай Сасик (Eli Sasich), вдохновившись классическими научно-фантастическими фильмами «Чужой» и «Бегущий по лезвию», несколько лет назад снял короткометражный фильм «Атропа», который стоит посмотреть, если вы интересуетесь наукой и космическими технологиями.

24 ноября
Анна Новиковская

В то время как основные мировые языки со временем упрощают письменность, существует одно яркое исключение: китайский язык. За свою историю, насчитывающую три тысячелетия, его система письма становилась только сложнее и до сих пор остается крайне сложной для изучения.

25 ноября
Александр Березин

Также это повышает шансы на вовлечение волка в другие виды рискованной деятельности. Работа может иметь прикладное значение и для человеческих обществ, поскольку сходное влияние известно и для людей.

1 ноября
Анна Новиковская

Когда мы представляем взаимодействие неандертальцев с нашими предками, первобытными людьми, то обычно думаем об агрессивных стычках и конкуренции на охоте. Однако теперь ученые выяснили, что два вида людей взаимодействовали на протяжении как минимум 200 тысяч лет — это слишком долгий срок для активных военных действий, но достаточный для постепенного «растворения» одного вида в другом.

19 ноября
Анна Новиковская

В последний раз черношейного фазанового голубя видели еще в 1882 году, и с тех пор ученые не знали, живет ли еще в лесах острова Фергуссон эта красивая птица. Теперь, наконец, им повезло: одна из камер запечатлела представителя редчайшего подвида фазановых голубей.

24 ноября
Редакция

Режиссер Илай Сасик (Eli Sasich), вдохновившись классическими научно-фантастическими фильмами «Чужой» и «Бегущий по лезвию», несколько лет назад снял короткометражный фильм «Атропа», который стоит посмотреть, если вы интересуетесь наукой и космическими технологиями.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: