Предложен новый метод поиска нужной информации в 50 раз быстрее — Naked Science
8 минут
ФизТех

Предложен новый метод поиска нужной информации в 50 раз быстрее

Ученые предложили новый метод обработки запроса в коллекциях документов и в Интернете.

Предложен новый метод поиска нужной информации в 50 раз быстрее
Предложен новый метод поиска нужной информации в 50 раз быстрее

Разработчиками МФТИ и ВЦ РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей. Эти модели используются для того, чтобы обработать запрос от пользователя на поиск информации в коллекциях документов или в Интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, который стоит на первой позиции в рейтинге журналов по искусственному интеллекту по версии Google Scholar.

При поиске среди миллионов документов в Сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы — найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем.

Андрей Кулунчаков, соавтор работы, студент кафедры интеллектуальных систем МФТИ, комментирует: «Постановка задачи предполагала использование только коллекций документов и поисковых запросов. Не допускалось использование никакой внешней информации о контексте, в котором выполнялся поиск. Такая задача имеет наиболее общий характер. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров».

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели смотрели в том числе с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Свое название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений — «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей увеличивается чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего из восьми функций, требуется не менее суток вычислений. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. В предшествующих работах это достигалось медленным и не оптимальным полным перебором.

Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации». Когда в сменяющих друг друга «поколениях» модели структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР — Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
ФизТех
213 статей
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
9 часов назад
10 минут
Василий Парфенов

Американские исследователи проанализировали данные опросов молодежи в возрасте от 18 до 23 лет с 2007 по 2017 год и обнаружили несколько факторов, коррелирующих с общей тенденцией к снижению популярности случайного секса, то есть нерегулярных половых связей вне постоянных романтических отношений. Среди наиболее заметных — возросшая вовлеченность в компьютерные игры, жизнь под одной крышей с родителями и меньшее употребление алкоголя.

Вчера, 22:30
9 минут
Мария Азарова

По словам главы компании «Космокурс», пока США уже на прямом пути к туристическим полетам в космос, Россия находится в этом вопросе «на уровне папуасов», главным образом — из-за бюрократии.

Вчера, 18:07
8 минут
Василий Парфенов

В калифорнийском городе Стоктон подвели итоги почти двухлетнего эксперимента по предоставлению уязвимым группам населения безусловного базового дохода в размере 500 долларов в месяц. Вопреки скептицизму критиков, проект обернулся отличным примером пользы подобной поддержки граждан: трудовая занятость на постоянной основе среди получателей платежей выросла на 12% только за первый год, а число безработных снизилось на треть (в контрольной группе — увеличилось на 1%).

26 февраля
10 минут
Василий Парфенов

Даже при разработке точнейших научных инструментов случаются разные технические сюрпризы — и хорошо, если приятные. К счастью, именно так вышло на этот раз. Ученые получили очередную порцию данных с космического аппарата Parker Solar Probe и здорово удивились. На сделанном в оптическом диапазоне снимке ночной стороны Венеры видны детали поверхности, обычно скрытые плотными облаками. Теперь предстоит решить загадку: либо камера оказалась чувствительна к инфракрасному диапазону излучения, либо случайно обнаружилось «окно» для наблюдений через атмосферу этой планеты.

2 марта
42 минуты
Редакция

Все знают, что нефть — это углеводороды. Но из чего она образовалась? Правда ли, что из динозавров? И сколько миллионов лет нефти, из которой сегодня делают бензин и сотни других важных окружающих нас вещей? Разбираемся, какие запасы нефти залегают в России и сколько их осталось, почему их до сих пор не добыли, а также, как это связано с существами, которые жили миллионы лет назад.

26 февраля
8 минут
Мария Азарова

Математическое моделирование позволило подсчитать, что большинство случаев тяжелого течения коронавирусного заболевания и госпитализаций по этой причине в США оказались связаны с одним из четырех кардиометаболических нарушений, а главным образом — с ожирением.

26 февраля
10 минут
Василий Парфенов

Даже при разработке точнейших научных инструментов случаются разные технические сюрпризы — и хорошо, если приятные. К счастью, именно так вышло на этот раз. Ученые получили очередную порцию данных с космического аппарата Parker Solar Probe и здорово удивились. На сделанном в оптическом диапазоне снимке ночной стороны Венеры видны детали поверхности, обычно скрытые плотными облаками. Теперь предстоит решить загадку: либо камера оказалась чувствительна к инфракрасному диапазону излучения, либо случайно обнаружилось «окно» для наблюдений через атмосферу этой планеты.

21 февраля
20 минут
Василий Парфенов

Кого и что только ни успели уже обвинить в технологической катастрофе, которая произошла на этой неделе в США. Но эмоции плавно оседают, и начинают появляться первые результаты разбирательства. А они порой вызывают искреннее недоумение, честно говоря.

15 февраля
9 минут
Василий Парфенов

Новость, которую странно публиковать на серьезном научно-популярном портале, но от реальности не убежишь. Уфологи всего мира могут радоваться: американские военные официально признали, что изучали места крушения НЛО и в их распоряжении есть некие аномальные объекты, свойства которых выходят за рамки известных науке материалов.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: