В НИУ ВШЭ показали эффективность машинного обучения при прогнозировании инфляции

НИУ ВШЭ

1 год назад

Исследование проводилось на примере субъектов Приволжья. Результаты опубликованы в журнале HSE Economic Journal. Для экономики важно прогнозирование инфляции, особенно оно стало актуальным после перехода России к режиму таргетирования инфляции в 2014 году. Это означает, что Банк России устанавливает конкретные цели по уровню инфляции и использует различные инструменты для их достижения.

Для прогнозирования инфляции используются различные данные: индекс потребительских цен, уровень безработицы, курсы валют и ставка ЦБ. Чтобы систематизировать эти данные для прогноза, экономисты из НИУ ВШЭ в Перми использовали данные Единой межведомственной информационно-статистической системы (ЕМИСС).

Основная цель исследователей была в том, чтобы определить, какая модель точнее прогнозирует региональную инфляцию: традиционные эконометрические модели временных рядов или современные методы машинного обучения. В исследовании анализируются данные по 14 субъектам Приволжского федерального округа с января 2010 года по декабрь 2022 года. Для анализа использовались программные среды R Studio и Python: прогнозирование временных рядов проводилось в R Studio, а модели машинного обучения, включая метод опорных векторов, градиентный бустинг и случайный лес, реализовывались в Python. Прогнозы выполнялись на тестовых выборках, что позволило избежать переобучения моделей и получить более точные оценки.

Авторы выбрали метод кросс-валидации с тестовыми выборками одинакового размера. Это позволяет моделям обучаться на данных одного периода и тестироваться на другом, что обеспечивает стабильность и точность прогнозов.

«Для обеспечения точной работы методов машинного обучения необходимо выбрать оптимальные гиперпараметры в моделях. Гиперпараметры отличаются от других параметров моделей тем, что устанавливаются до начала обучения и определяют спецификацию модели. Для выбора оптимальных гиперпараметров в работе используется кросс-валидация. При кросс-валидации временных рядов тренировочные данные идут строго перед тестовыми, они не пересекаются, как при работе со стандартными данными», — отмечает доцент факультета социально-экономических и компьютерных наук НИУ ВШЭ — Пермь Татьяна Букина.

Исследование показало, что модель градиентного бустинга является наиболее точной среди всех рассмотренных моделей машинного обучения для прогнозирования региональной инфляции. Она обеспечивает более точные прогнозы, чем авторегрессионные модели на большем числе периодов. Так, на горизонтах прогнозирования в 3, 6, 21 и 24 месяца модель градиентного бустинга превосходит базовую модель AR(1) на 20,3, 16,2, 72,5 и 77,7 процентв соответственно. Модель AR(1) — статистическая модель, используемая для анализа и прогнозирования временных рядов, — основана на предположении, что текущее значение временного ряда зависит от его предыдущего значения с добавлением некоторой случайной ошибки.

Модель случайного леса и метод опорных векторов также показали точные прогнозы на длительных горизонтах в 21 и 24 месяца и оказались лучше модели AR(1) на 72,5 и 77,7 процента соответственно. Случайный лес объединяет множество решающих деревьев для повышения точности и устойчивости прогнозов, затем с помощью регрессии усредняет ответы или выбирает наиболее частое значение данных. Метод опорных векторов находит оптимальную линию, разделяющую данные, и минимизирует ошибки.

Авторы считают, что их результат подтвердил: методы машинного обучения могут быть эффективными для прогнозирования инфляции на разных временных горизонтах.
Татьяна Букина отмечает: «Наше исследование показало, что для долгосрочных прогнозов машинное обучение предлагает более надежные инструменты. Однако традиционные эконометрические модели все еще играют важную роль в краткосрочных прогнозах и не должны быть полностью исключены из арсенала аналитиков. Комбинирование методов эконометрического моделирования и машинного обучения может существенно повысить точность прогнозов региональной инфляции. Это особенно важно в условиях высокой неопределенности и быстро меняющейся экономической среды».

В рамках исследования также получилось выделить особенности предсказания инфляции для разных регионов. Например, в моделях машинного обучения сезонность инфляции была характерна только для Пермского края, Нижегородской, Пензенской и Саратовской областей. В Республике Татарстан важным фактором оказался конкретный месяц, на который рассчитывался прогноз.

Среднее значение инфляции за три предыдущих месяца оказалось значимым фактором в моделях для Республики Мордовия, Нижегородской и Ульяновской областей, а также для Чувашской Республики в модели случайного леса.

Каждый регион имеет свою специфику, связанную с экономической структурой, наличием природных ресурсов и географическим положением. Эти факторы объясняют различия в динамике инфляции и по важным макроэкономическим показателям.