• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
06.07.2017, 19:47
ФизТех
319

Предложен новый метод поиска нужной информации в 50 раз быстрее

Ученые предложили новый метод обработки запроса в коллекциях документов и в Интернете.

Предложен новый метод поиска нужной информации в 50 раз быстрее
Предложен новый метод поиска нужной информации в 50 раз быстрее / Автор: Ирина Мельникова

Разработчиками МФТИ и ВЦ РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей. Эти модели используются для того, чтобы обработать запрос от пользователя на поиск информации в коллекциях документов или в Интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, который стоит на первой позиции в рейтинге журналов по искусственному интеллекту по версии Google Scholar.

При поиске среди миллионов документов в Сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы — найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем.

Андрей Кулунчаков, соавтор работы, студент кафедры интеллектуальных систем МФТИ, комментирует: «Постановка задачи предполагала использование только коллекций документов и поисковых запросов. Не допускалось использование никакой внешней информации о контексте, в котором выполнялся поиск. Такая задача имеет наиболее общий характер. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров».

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели смотрели в том числе с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Свое название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений — «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей увеличивается чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего из восьми функций, требуется не менее суток вычислений. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. В предшествующих работах это достигалось медленным и не оптимальным полным перебором.

Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации». Когда в сменяющих друг друга «поколениях» модели структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР — Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
ФизТех
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
4 июля, 09:30
Любовь С.

Анализ более 150 тысяч древних звезд Млечного Пути показал, что возраст космоса, судя по всему, близок к 13,8 миллиарда лет. Авторы нового исследования заключили, что сценарии, в которых Вселенную приходится делать заметно «моложе» ради решения хаббловского кризиса, плохо согласуются с наблюдениями. Это важно, поскольку возраст старейших светил — один из немногих независимых способов проверить космологические модели не по данным ранней Вселенной, а по объектам нашей собственной Галактики.

4 июля, 17:28
Evgenia Vavilova

Мы много знаем о том, как цивилизации до нас строили дома и дороги, но с объектами материальной культуры дела обстоят сложнее. Ремесленные техники часто хранились в строгом секрете и могли быть случайно утрачены при неудачном стечении обстоятельств. Так случилось с ювелирной техникой цзинь чжэ сы.

3 июля, 12:20
Татьяна Зайцева

Японские исследователи выловили у берегов Окинавы пластиковую бутылку с узким горлышком, внутри которой сидел большой живой краб. В итоге ученые смогли найти ответы на несколько возникших в связи с этой находкой вопросов: как краб попал в бутылку, сколько там находился и как ему удалось выжить?

29 июня, 13:56
ЮФУ

Ученые Южного федерального университета исследовали новую светочувствительную молекулу и обнаружили, что она ведет себя совсем не так, как ожидалось. Благодаря необычным свойствам она может стать основой для создания умных материалов, сенсоров и лекарств, которые будут активироваться светом именно там, где нужно, например, для борьбы с опасными бактериями.

1 июля, 09:42
Игорь Байдов

Авторы нового исследования провели сравнительный анализ видов паукообразных и выяснили, какие эволюционные и биомеханические факторы делают одних пауков быстрыми, а других — медленными. Параллельно ученые выделили из этой группы рекордсмена по скорости перемещения.

30 июня, 10:59
НИУ ВШЭ

Сотрудники факультета экономических наук НИУ ВШЭ показали, что точность прогноза рождаемости в России можно улучшить почти в полтора раза, если добавить в модель динамику поисковых запросов по темам, связанным с беременностью и родами. В наиболее эффективных моделях ошибка прогноза снижается с 4,6 до 3,2%.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

[miniorange_social_login]

Комментарии

Написать комментарий