• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
02.11.2016
Редакция Naked Science
610

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02
©Wikipedia / Автор: Дмитрий Жуков

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных “Яндекса” получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске “Яндекса”, но и в “Картинках”, а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 12:55
Игорь Байдов

Существует несколько гипотез о том, как на самом деле древние египтяне строили свои пирамиды. Если о способах возведения монументальных сооружений и инструментах, которые использовали строители, более-менее известно, то о методах доставки блоков и их установки мнения разнятся. Команда французских архитекторов и египтологов изучила ландшафт вокруг самой древней из сохранившихся египетских пирамид — Джосера — и рассказала, как египтяне могли доставлять и поднимать камни для ее строительства.

Вчера, 10:00
ПНИПУ

Эпоксидные смолы известны своей прочностью, устойчивостью к химическим воздействиям и хорошими электрическими свойствами. Такие полимеры используют в качестве основы красок, покрытий, клеев и изоляционных материалов. Однако их применение ограничено высокой вязкостью. Ученые ПНИПУ синтезировали низковязкую, но прочную эпоксидную смолу. Разработка откроет новые горизонты ее использования, избавит от потребности применять разбавители и станет модификатором более высоковязких существующих смол без понижения механических характеристик. Например, клей и краска станут более устойчивыми.

Позавчера, 20:04
Юлия Трепалина

Современные млекопитающие небольшого размера вроде крыс и других грызунов быстро созревают, спариваются, чтобы оставить потомство, и довольно скоро умирают. Однако так было не всегда. Анализ окаменелых останков вымерших млекопитающих под названием Krusatodon kirtlingtonensis показал, что эти мышеподобные существа жили дольше и взрослели медленнее, чем близкие к ним современные потомки.

Вчера, 12:55
Игорь Байдов

Существует несколько гипотез о том, как на самом деле древние египтяне строили свои пирамиды. Если о способах возведения монументальных сооружений и инструментах, которые использовали строители, более-менее известно, то о методах доставки блоков и их установки мнения разнятся. Команда французских архитекторов и египтологов изучила ландшафт вокруг самой древней из сохранившихся египетских пирамид — Джосера — и рассказала, как египтяне могли доставлять и поднимать камни для ее строительства.

23 июля
Андрей

Человек множеством способов загрязняет природу вокруг себя, преимущественно воду. В Мировой океан попадают как отходы с производств, так и тонны пластикового мусора. Все это способно отравлять жизнь морских животных, особенно редких вроде акул. Одним из малоизученных токсичных источников можно назвать наркотики, в частности кокаин. Случайное употребление этого вещества акулами раньше только предполагали, но теперь бразильские биологи нашли прямые доказательства.

23 июля
НИУ ВШЭ

Международная команда исследователей с участием ученых из НИУ ВШЭ изучила, как люди, владеющие двумя языками (билингвы), ассоциируют время с пространством. Оказалось, что и в первом, и во втором языке они связывают прошлое с левой частью пространства, а будущее — с правой. При этом чем выше уровень владения вторым языком, тем сильнее выражена эта связь.

1 июля
Александр Березин

Необычный биологический вид, по оценке авторов новой научной работы, пригоден для заселения четвертой планеты без каких-либо предварительных условий — уже в том виде, в котором он существует сейчас. Поскольку речь идет о фотосинтетическом организме, он способен нарабатывать существенное количество кислорода. Интересно, что кандидат на терраформирование Марса сохранил жизнеспособность после месяца в жидком азоте.

12 июля
Александр Березин

Falcon 9 Block 5 впервые за три сотни запусков дал частично неудачный полет. Ракета выводила 20 спутников компании SpaceX, с 15 связь уже пропала, еще пять могут быть потеряны в ближайшее время.

15 июля
Александр Березин

Авторы нового исследования впервые показали, что круглые провалы в лунной поверхности не просто близки к многокилометровым пещерам на естественном спутнике Земли, но и располагают тоннелями, ведущими в глубину.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно