• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
06.07.2017, 19:47
ФизТех
319

Предложен новый метод поиска нужной информации в 50 раз быстрее

Ученые предложили новый метод обработки запроса в коллекциях документов и в Интернете.

Предложен новый метод поиска нужной информации в 50 раз быстрее
Предложен новый метод поиска нужной информации в 50 раз быстрее / Автор: Ирина Мельникова

Разработчиками МФТИ и ВЦ РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей. Эти модели используются для того, чтобы обработать запрос от пользователя на поиск информации в коллекциях документов или в Интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, который стоит на первой позиции в рейтинге журналов по искусственному интеллекту по версии Google Scholar.

При поиске среди миллионов документов в Сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы — найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем.

Андрей Кулунчаков, соавтор работы, студент кафедры интеллектуальных систем МФТИ, комментирует: «Постановка задачи предполагала использование только коллекций документов и поисковых запросов. Не допускалось использование никакой внешней информации о контексте, в котором выполнялся поиск. Такая задача имеет наиболее общий характер. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров».

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели смотрели в том числе с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Свое название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений — «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей увеличивается чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего из восьми функций, требуется не менее суток вычислений. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. В предшествующих работах это достигалось медленным и не оптимальным полным перебором.

Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации». Когда в сменяющих друг друга «поколениях» модели структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР — Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
23 марта, 14:17
Андрей Серегин

Городище Саньсиндуй известно археологам прежде всего своими бронзовыми масками и нефритовыми ритуальными предметами. Ученые из Сычуаньского университета нашли на этом памятнике артефакт, который заставляет пересмотреть представления о том, насколько далеко на юг проникали передовые металлургические технологии в эпоху Шан.

23 марта, 15:59
Татьяна Зайцева

Итальянские исследователи доказали, что за столетие до знаменитого извержения Везувия, во время осады Помпеев армией римского полководца Луция Корнелия Суллы в I веке до нашей эры, город обстреливали из полибола — скорострельного оружия эпохи Античности.

23 марта, 10:59
ПНИПУ

Современные металлические имплантаты для суставов сегодня успешно заменяют изношенные кости, но часто оказываются слишком жесткими для организма. Со временем это приводит к разрушению ткани вокруг протеза, его расшатыванию и необходимости повторной операции. Перспективной альтернативой считаются углерод-углеродные композиты, которые способны «срастаться» с живой костью. Однако до сих пор инженеры не могли точно предсказать, как именно этот процесс влияет на прочность конструкции, используя для расчетов упрощенные и неточные модели. Ученые Пермского Политеха впервые разработали модель, которая впервые реалистично описывает врастание кости в имплантат и позволяет точнее прогнозировать его долговечность.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

21 марта, 19:13
Игорь Байдов

Арахнологи описали новый вид пауков, который копирует облик мертвой особи, пораженной паразитическим грибом, чтобы хищники меньше обращали на него внимание. В природе такой гриб заражает хозяина и воздействует на его нервную систему, после чего заставляет подниматься на возвышенность, откуда легче распространять споры. Открытие расширит представления ученых о мимикрии у животных.

20 марта, 14:49
МАИ

20 марта Московскому авиационному институту исполняется 96 лет. За эти годы университет прошел большой путь становления, и во многом его развитие определяли люди, посвятившие себя науке и подготовке инженерных кадров. Один из таких — выдающийся ученый, заслуженный работник высшей школы Российской Федерации, доктор технических наук, профессор Борис Семенович Зечихин. Более 70 лет его жизнь неразрывно связана с кафедрой 310 «Электроэнергетические, электромеханические и биотехнические системы» и НИО-310 МАИ. Научная и педагогическая работа Бориса Семеновича получила широкое признание в России и за рубежом, а его вклад в развитие электромеханических специальностей и подготовку инженерных кадров оказал существенное влияние на отечественную авиационную и электротехническую промышленность.  Сегодня Борис Семенович продолжает свою работу, участвует в проектах по созданию электрических и гибридных силовых установок, передает опыт и знания молодым специалистам в рамках развития Передовой инженерной школы и всего МАИ в целом.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

19 марта, 12:41
Игорь Байдов

Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.

18 марта, 10:35
Илья Гриднев

За 10 лет лежания в почве сигаретные фильтры не растворились, а лишь замаскировались под грязь. Их пластиковые волокна распались на микрочастицы, намертво склеились с минералами и превратились во вторичный микропластик. Более того, на пятом году гниения мусор начал отравлять землю с новой силой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно