Ученые из НИУ ВШЭ — Санкт-Петербург и ВТБ разработали первый для российского рынка алгоритм, позволяющий предсказывать колебания котировок акций на основе анализа новостного потока STTM (Stock Tonal Topic Modeling). Благодаря новой разработке инвесторы смогут строить более эффективные финансовые стратегии: алгоритм позволяет делать прогнозы в пределах месяца.
Результаты работы опубликованы в журнале PeerJ Computer Science. Можно ли предсказать рост или падение акций на фондовом рынке? Согласно одной из основных инвестиционных теорий, гипотезе эффективного рынка, акции торгуются на бирже по справедливой стоимости, в которой уже учтена вся доступная общественности информация, способная повлиять на котировки. Поэтому анализ этой информации и основанные на ней прогнозы не могут служить базой для построения эффективной инвестиционной стратегии.
Однако инвесторы не оставляли попыток угадать изменения котировок акций на бирже. Для этого использовались различные подходы, которые можно разделить на две основные группы: прогнозы на основе прошлых котировок акций и прогнозы на основе анализа внешних источников информации, таких как финансовые отчеты, новости, мнение аналитиков. Но общепринятого алгоритма для предсказания поведения акций на бирже с учетом новостного потока не существовало.
Ученые из НИУ ВШЭ — Санкт-Петербург и ВТБ разработали новый метод для прогнозирования колебаний котировок акций на основе анализа новостей — STTM (Stock Tonal Topic Modeling). Особенность метода в том, что он использует сразу два источника данных: изменение цены акций во времени и новостные статьи, а также алгоритмы тематического моделирования и определения тональности, что позволяет делать более точные прогнозы. Это первая модель, разработанная специально для российского финансового рынка.
Алгоритм STTM собирает новости из крупнейших российских СМИ, пишущих о бизнесе, финансах, политике («Коммерсантъ», «Ведомости», РИА «Новости»), затем сортирует эти новости по темам (например, спорт, политика, экономика, бизнес). Сортировка происходит на основе алгоритмов тематического моделирования (LDA и DTM). В тематических блоках выделяются ключевые слова и их тональность: позитивная, негативная, нейтральная. Метод STTM также отслеживает изменение котировок акций российских компаний во времени, например за прошедшую неделю. Сочетание этих факторов — колебание цены во времени, тематическое моделирование и тональность новостей — позволяет рассчитать коэффициент STTM. Если он больше единицы, то акции вырастут в цене, если меньше — упадут.
В рамках исследования было проанализировано более 197 тысяч экономических статей из российских СМИ и использованы данные котировок наиболее ликвидных акций российских компаний за восемь лет, с 2013 по 2021 год. Эффективность метода STTM проверялась с помощью теста на причинность по Грейнджеру: авторы исследования изучали причинно-следственную связь между новостным потоком, разбитым на темы, и колебаниями котировок акций. Кроме того, на основании полученных прогнозов моделировалась возможная инвестиционная стратегия, эффективность которой оценивалась по коэффициенту Шарпа — показателю эффективности инвестиционного портфеля.
Исследователи отмечают, что разработанный метод позволяет довольно точно предсказывать колебания цен на фондовом рынке и превосходит 26 существующих моделей по индексу Шарпа. «Мы не первые придумали анализировать новости для предсказания котировок, но мы впервые использовали эту модель для российского рынка. И мы впервые использовали тематическое моделирование и тональность для предсказания поведения акций на бирже с учетом множества тем. Наша модель хороша тем, что ее можно настроить под свои потребности: выбрать интересующие СМИ, нужный временной интервал, алгоритм тематического моделирования, даже язык», — рассказывает один из авторов исследования Сергей Кольцов, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург. Алгоритм STTM позволяет делать недельные прогнозы, а код лежит в открытом доступе на Zenodo.