06.07.2017, 19:47

ФизТех

Предложен новый метод поиска нужной информации в 50 раз быстрее

Ученые предложили новый метод обработки запроса в коллекциях документов и в Интернете.

ФизТех

# документ

# запрос

# интернет

# МФТИ

Предложен новый метод поиска нужной информации в 50 раз быстрее / Автор: Ирина Мельникова

Разработчиками МФТИ и ВЦ РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей. Эти модели используются для того, чтобы обработать запрос от пользователя на поиск информации в коллекциях документов или в Интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, который стоит на первой позиции в рейтинге журналов по искусственному интеллекту по версии Google Scholar.

При поиске среди миллионов документов в Сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы — найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем.

Андрей Кулунчаков, соавтор работы, студент кафедры интеллектуальных систем МФТИ, комментирует: «Постановка задачи предполагала использование только коллекций документов и поисковых запросов. Не допускалось использование никакой внешней информации о контексте, в котором выполнялся поиск. Такая задача имеет наиболее общий характер. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров».

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели смотрели в том числе с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Свое название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений — «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей увеличивается чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего из восьми функций, требуется не менее суток вычислений. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. В предшествующих работах это достигалось медленным и не оптимальным полным перебором.

Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации». Когда в сменяющих друг друга «поколениях» модели структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР — Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# документ

# запрос

# интернет

# МФТИ

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Бобры. Все о речных строителях

Российская государственная библиотека для молодежи

Москва

Лекция

28 Июл

Бесплатно

О строении Земли и земного ядра

Русское географическое общество

Москва

Лекция

28 Июл

Бесплатно

Тайна «Маленьких Красных Точек»: что скрывает ранняя Вселенная?

Астрокомплекс им. С.П. Королева

Москва

Лекция

29 Июл

Бесплатно

Как строят метро в Петербурге

Библиотека Планетарий 1

Санкт-Петербург

Лекция

29 Июл

Бесплатно

«Отцы и дети» И. Тургенева: не война поколений, а тест на гибкость

ВДНХ

Москва

Лекция

29 Июл

1000 ₽

В скольких измерениях мы живем?

ВСмысле

Санкт-Петербург

Лекция

29 Июл

2000 ₽

Что мы можем и не можем увидеть на звездном небе

Московский Планетарий

Москва

Лекция

30 Июл

Бесплатно

Превентивная медицина, биохакинг и спорт

Курилка Гутенберга

Москва

Москва

Популярное

За сутки

За неделю

За месяц

27 июля, 13:06

Игорь Байдов

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Исследователи из США нашли в организме человека ранее неизвестный пептид BRP и проверили его работу на животных. В экспериментах он помог снизить аппетит и процент содержания жира без побочных эффектов. По механизму действия BRP напоминает препараты для снижения веса на основе ГПП-1, к которым относится семаглутид, но, предположительно, действует иначе: не через кишечник и поджелудочную железу, а преимущественно через центральные сигнальные пути в мозге, включая области гипоталамуса, участвующие в регуляции аппетита. Авторы новой научной работы рассматривают открытие как основу для принципиально нового класса лекарств от ожирения.

Медицина

# лекарства

# лишний вес

# ожирение

# Оземпик

# похудение

27 июля, 13:20

Александр Березин

Геологи нашли следы самой длинной эры пожаров в истории Земли

Четыре точки Европы показали одну и ту же картину: как минимум несколько десятков тысяч лет регулярных сильных пожаров. До сих пор ученые не сталкивались с ископаемыми следами настолько длительных регулярных событий такого типа. Авторы новой работы предложили феномену объяснение, но оно имеет существенные недостатки.

Геология

# палеоботаника

# Палеонтология

# триас

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Формально почти вся программа тринадцатого полета самой большой ракеты в истории выполнена. Однако испытания показали неполную отлаженность ключевого элемента системы. SpaceX оказывается в ситуации действительно плотных сроков: до намеченного возвращения людей на Луну всего два года и два месяца.

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

24 июля, 11:13

Игорь Байдов

Звуки помогли повысить урожайность

Правильно подобранные звуковые последовательности способны не только стимулировать рост растений, но и влиять на их урожайность. К такому выводу пришли авторы нового исследования. Они разработали технологию, которая позволяет воздействовать на процессы развития растений через акустические сигналы без использования генной инженерии или химикатов. В экспериментах добились повышения урожайности мяты, сои, болгарского перца и конопли.

Биология

# ботаника

# звуки

# каннабис

# конопля

# растения

# урожайность

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

24 июля, 12:05

Андрей Серегин

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

Сегодня на земле существует примерно 7500 языков, однако ученые давно подозревали, что в прошлом их было значительно больше. Международная группа лингвистов реконструировала историю языкового разнообразия за последние 12 тысяч лет и пришла к выводу, что человечество уже пережило «золотой век» языков, после которого их число начало быстро сокращаться.

Антропология

# голоцен

# колонизация

# культура

# лингвистика

# языки

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

1 июля, 11:54

Марк Чернов

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

История

# Древний Рим

# инженерия

# инструменты

# история

# Римская империя

19 июля, 20:09

Александр Березин

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Очереди на заправках стали привычным явлением в России, а на фоне информационного вакуума от властей о конкретных показателях производства бензина в июне население вынуждено ориентироваться на слухи. Все это выглядит довольно странно, но есть нюанс: скорее всего, кризис уже начинает выдыхаться. Как именно мы это выяснили?

С точки зрения науки

# бензин

# нпз

# Россия

# экономика

Выбор редакции

[miniorange_social_login]

Предложен новый метод поиска нужной информации в 50 раз быстрее

По теме

Ученые установили рекорд дальности передачи высокоскоростного сигнала

В Google назвали самые популярные поисковые запросы 2014 года

«Яндекс» опубликовал статистику поисковых запросов 2013 года

Популярное

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Геологи нашли следы самой длинной эры пожаров в истории Земли

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Звуки помогли повысить урожайность

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Геноцид армян: Холокост Востока

Нереализованные проекты истребителей пятого поколения

Будущее космических полетов: кто придет на смену «Спейс шаттлу» и «Союзу»

Как не погибнуть под обломками рухнувшей биосферы: разговор за жизнь с экологом Владимиром Онипченко

Когда не станет нефти

Насколько хорошо вы знаете яркие моменты биографии первого космонавта — Юрия Алексеевича Гагарина — и его бессмертного подвига? Тест

Цифровое бессмертие: сознание как программное обеспечение

Западные спутники показали, что окислов азота в России стало меньше. Это признак экономического спада или роста?

Предложен новый метод поиска нужной информации в 50 раз быстрее

По теме

Ученые установили рекорд дальности передачи высокоскоростного сигнала

В Google назвали самые популярные поисковые запросы 2014 года

«Яндекс» опубликовал статистику поисковых запросов 2013 года

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?