Рубрика Наука

Разработана новая прогностическая модель на основе больших данных

Команда испанских исследователей разработала надежную модель, использующую меньшие объемы больших данных для точных и эффективных прогнозов.

Технология развивается гигантскими скачками, а вместе с ней — информация, с которой ежедневно взаимодействует общество. Объем данных должен быть организован, проанализирован и коррелирован для предсказания определенных закономерностей. Это одна из главных функций больших данных.

 

Исследовательская группа KIDS с кафедры информатики и численного анализа Университета Кордовы смогла улучшить модели, предсказывающие несколько переменных одновременно, основываясь на наборе введенных переменных, тем самым уменьшая объем данных, необходимых для точного прогноза. Один из примеров такого прогноза — метод, предсказывающий несколько параметров, связанных с качеством почвы на основе набора переменных, таких как посаженные культуры, обработка почвы и использование пестицидов. Статья об исследовании опубликована в журнале Integrated Computer-Aided Engineering.

 

«Когда вы имеете дело с большим объемом данных, есть два решения. Вы либо увеличиваете производительность компьютера, что очень дорого, либо уменьшаете количество информации, необходимой для надлежащего выполнения процесса», — говорит один из авторов проведенного исследования Себастьян Вентура.

 

При построении прогностической модели надежные результаты зависят от двух факторов: количества задействованных переменных и числа примеров, введенных в систему. Исследователям удалось уменьшить количество примеров, исключив те, что были «шумными» или избыточными, следовательно, не несли никакой полезной информации для создания лучшей прогностической модели.

 

Как отметил ведущий автор исследования Оскар Рейес, они разработали технику, способную указать, какой набор примеров необходим, чтобы прогноз был не только надежным, но и наилучшим. В некоторых базах данных из 18 проанализированных ученые смогли уменьшить объем информации на 80 процентов, не повлияв на прогностическую производительность: другими словами, было использовано меньше половины оригинальных данных.

 

По словам Рейеса, так можно сэкономить энергию и деньги при построении модели, ведь потребуется меньше вычислительной силы. Это сохранит и время, что важно в моделях, работающих в реальном времени, потому что нет смысла создавать модели, выдающие результат раз в полчаса, когда прогноз нужен каждые пять минут.