Поисковик «Яндекс» научился находить смысл — Naked Science
6 минут
Редакция

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02
©Wikipedia

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных “Яндекса” получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске “Яндекса”, но и в “Картинках”, а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
6 часов назад
6 минут
Василий Парфенов

Вопрос разработки способов запасания электричества в XXI веке встал невероятно остро — ученые со всего мира ломают голову над тем, как сделать батареи более емкими. Армейская исследовательская лаборатория США добилась успехов в создании тончайших антисегнетоэлектрических пленок из гафната свинца. Это сложное в получении соединение обладает большим потенциалом к применению в аккумуляторах и электрических вентилях.

Вчера, 12:00
2 минуты
Илья Ведмеденко

Как следует из обнародованных материалов, дальность действия перспективной американской системы гиперзвукового оружия Long Range Hypersonic Weapon превышает 2775 километров.

Вчера, 18:35
4 минуты
Ольга Иванова

NASA смоделировало ситуацию, при которой нашей планете угрожает крупное небесное тело, и выяснило, как много времени понадобится землянам, чтобы предотвратить катастрофу. Спойлер: мы все умрем.

11 мая
11 минут
Мария Азарова

Американские ученые показали, что РНК коронавируса SARS-CoV-2 проходит через обратную транскрипцию, встраивается в геном инфицированной клетки и экспрессируется в виде «химерных» транскриптов, сливающихся с вирусными с клеточными последовательностями.

8 мая
37 минут
Александр Березин

Филипп Мандей основал целое направление исследований: он первым установил, что закисление океанов — последствие глобального потепления — угрожает обонянию и умению ориентироваться у морских рыб. Само собой, это создает угрозу их вымирания. Долго оставалось загадкой только одно: как существующие виды рыб перенесли серьезное закисление океана при прошлых изменениях климата. Теперь все проясняется: похоже, Мандей обнаружил эффект, которого никогда не было. Интересно, что вместе с ним его наблюдали еще 179 ученых — и теперь все они оказались в центре чудовищного скандала. Попробуем разобраться в деталях.

12 мая
7 минут
Мария Азарова

Исследователи впервые показали присутствие коронавируса в ткани полового члена спустя как минимум полгода с момента заражения. Судя по всему, распространенная у пациентов с Covid-19 дисфункция эндотелиальных клеток может приводить и к развитию импотенции.

16 апреля
4 минуты
Илья Ведмеденко

Исследователи установили, что обнаруженный в Баренцевом море объект — погибшая советская субмарина типа «Крейсерская». Это одна из самых больших подлодок СССР периода Второй мировой.

23 апреля
11 минут
Василий Парфенов

Действующий глава NASA в рамках общения с прессой ответил на ряд вопросов, касающихся недавних заявлений российских политиков и главы «Роскосмоса» о скором отказе от собственного сегмента МКС. Администратор заверил всех, что агентство находится в хороших отношениях с Россией, а также поделился информацией о согласовании обмена местами для астронавтов и космонавтов в пилотируемых миссиях двух стран.

25 апреля
17 минут
Александр Березин

На этой неделе СМИ выдали новость, от которой можно впасть в шок: «Ранее из России уезжало около 14 тысяч исследователей [в год], теперь — 70 тысяч». Мы внимательно разобрались в ситуации и вынуждены отметить, что ничего подобного не было и нет. В реальности речь вовсе не об ученых и даже не о высококвалифицированных специалистах. Проблемы с учеными в России есть. Но в этом случае речь идет не о них, а о том, что отдельные бывшие комсомольские вожаки, удачно устроившиеся в РАН, перепутали утечку мозгов из России с отъездом из нее гастарбайтеров. Разбираемся, как это у них получилось.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: