02.11.2016
Редакция Naked Science
404

Поисковик «Яндекс» научился находить смысл

«Яндекс» объявил о запуске нового поискового алгоритма «Палех», который позволяет повысить релевантность поисковой выдачи по низкочастотным запросам. Об этом сообщается в блоге компании.

148597_02
©Wikipedia

Работа современных поисковых систем основана на анализе ключевых слов. Получив информацию о содержании интернет-страницы, индексатор разбивает его на элементы — текст, заголовки, метатеги и другие — и сохраняет их в индексной базе. В ответ на запрос пользователя система проверяет базу на наличие подходящих сайтов и осуществляет их выдачу в определенном порядке. При этом порядок выдачи зависит от степени соответствия запросу, которая определяется по длине и сочетанию ключевых фраз, и частоте таких запросов от других пользователей. Поисковая выдача по длинным и нестандартным запросам часто имеет низкую релевантность.

 

Для повышения такой релевантности компания использовала поисковую модель на искусственных нейросетях. Алгоритм одновременно сопоставляет запрос и индексную базу по формальному (ключевые слова) и семантическому признакам. Это позволяет выявить соответствия, даже если в запросе и базе нет общих ключевых слов или запрос и база соответствуют только формально. Пополнение таких ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор.

 

Пример построения семантического вектора «Палех» в двухмерном пространстве. / © «Яндекс», 2016

 

По данным компании, пока алгоритм строит семантические векторы только по заголовкам страниц. Потенциально он может сопоставлять запрос с полным текстовым содержанием страницы, а также составлять профиль интернет-пользователя исходя из его действий.

 

Подробностями проекта с Naked Science поделился представитель «Яндекса» Алексей Гусаков:

 

«Самая интересная часть всей нашей истории про нейросети в поиске — это семантический вектор. Так мы назвали новый способ обработки запроса и его сопоставление с вероятными ответами. Дело в том, что компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. С помощью нейронной сети мы перевели заголовки веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В результате документы из базы данных “Яндекса” получили координаты в трехсотмерном пространстве. Представляя запрос и веб-страницу в виде вектора в трехсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова. Семантический вектор мы используем не только в поиске “Яндекса”, но и в “Картинках”, а в будущем мы планируем переводить в такие векторы не только заголовки, но и полные тексты документов — это еще сильнее улучшит нашу выдачу».

 

Новый поисковый алгоритм назван в честь российского поселка Палех, известного палехскими миниатюрами. Для этого народного промысла характерно нанесение рисунка (иконы или сюжета из сказки) темперой на папье-маше, а одним из самых популярных персонажей миниатюр является Жар-птица. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, но часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
24 января
Сколтех

Коллектив ученых из Сколтеха — аспирант Егор Нужин, доцент Максим Панов и профессор Николай Бриллиантов — при помощи методов искусственного интеллекта объяснили таинственное поведение, характерное для ряда животных, — кружение.

Вчера, 16:42
Илья Ведмеденко

Украина, вероятно, потеряла недавно запущенный космический аппарат «Сич-2-30». Пока с ним нет устойчивой связи — или совсем никакой.

Вчера, 13:43
Александр Березин

Пока Германия закрывает свои последние реакторы, КНР планирует ввести 150 новых атомных энергоблоков в ближайшие 15 лет. И часть из них будет вырабатывать совсем не электричество, а нечто, многократно более востребованное нашей цивилизацией: тепло. На отопление человечество тратит намного больше энергии, чем на электроэнергетику, а отапливаться от солнечных батарей и ветряков не выйдет наверняка. Несколько процентов от выработки электроэнергетики и сегодня уходят на отопление — но более 90% нужды в тепле покрывает не она, а обособленная от нее теплоэнергетика, в виде котельных в жилых кварталах и газовых котлов в отдельно стоящих домах. Заменить эти источники одной электроэнергией невозможно: от нее тепло будет выходить в несколько раз дороже.

24 января
Сколтех

Коллектив ученых из Сколтеха — аспирант Егор Нужин, доцент Максим Панов и профессор Николай Бриллиантов — при помощи методов искусственного интеллекта объяснили таинственное поведение, характерное для ряда животных, — кружение.

21 января
Илья Ведмеденко

Заслуженные штурмовики A-10 и Су-25, которым дали прозвища «Бородавочник » и «Грач» соответственно, много десятилетий стоят на службе в Соединенных Штатах и России. Страны избрали разные подходы к модернизации этих самолетов, и сегодня Naked Science постарается понять, какой из них больше соответствует требованиям XXI века.

23 января
Илья Ведмеденко

(16) Психея – одно из самых необычных небесных тел в Поясе астероидов. Она может дать людям не только понимание о происхождении планет, но и невероятные по своим объемам ресурсы. Правда, придется подождать: миссия по исследованию астероида находится лишь в самом начале долгого и сложного пути.

12 января
Алиса Гаджиева

Дополнительное исследование вулканических пород формации Кибиш в Эфиопии изменило датировку найденных там костей Homo sapiens.

20 января
ТГУ

Ученые факультета физической культуры Томского государственного университета в рамках гранта, поддержанного РНФ, исследуют особенности механизма усвоения глюкозы при сахарном диабете второго типа. Для этого был организован масштабный четырехмесячный эксперимент на 240 мышах, подобного которому в мире еще никто не проводил. Животные с искусственно сформированным диабетом подвергались физической нагрузке. Установлено, что вечерние тренировки лучше снижали вес мышей мышей, а утренние – приводили к уменьшению уровня глюкозы. Предположительно, фактором, стимулирующим утилизацию глюкозы, выступил стресс. Ученые намерены проверить эту гипотезу.

24 января
Сколтех

Коллектив ученых из Сколтеха — аспирант Егор Нужин, доцент Максим Панов и профессор Николай Бриллиантов — при помощи методов искусственного интеллекта объяснили таинственное поведение, характерное для ряда животных, — кружение.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: