Исследователи из НИУ ВШЭ разработали модель машинного обучения, которая предсказывает риск развития осложнений у пациентов, перенесших инфаркт миокарда. В модели впервые учли генетические данные, что позволило точнее оценить риск долгосрочных осложнений.
Исследование опубликовано в журнале Frontiers in Medicine. Ишемическая болезнь сердца (ИБС) — состояние, при котором сердце не получает достаточно крови и кислорода из-за сужения или блокировки коронарных артерий. Обычно его провоцируют бляшки, образующиеся на стенках сосудов из жиров и холестерина. ИБС может проявляться как стенокардия (боль в груди), инфаркт миокарда (сердечный приступ) или в виде других осложнений.
По данным ВОЗ, ишемическая болезнь сердца — самая частая причина смертности в мире, на нее приходится 13 процентов смертей. Поэтому важно грамотно назначать лечение и снижать риски возникновения осложнений и рецидивов. Исследователи из НИУ ВШЭ построили модель, способную предсказывать вероятность развития осложнений после инфаркта миокарда.
Ученые проанализировали данные пациентов Сургутского окружного центра диагностики и сердечно-сосудистой хирургии, поступивших с инфарктом миокарда в период с 2015 по 2024 год. При поступлении в отделение неотложной помощи врачи-исследователи разъясняли пациентам положения исследования и получали их согласие на участие. Затем кардиологи оценивали состояние коронарных артерий, снабжающих сердце, и, исходя из оценки, проводили операции по восстановлению кровотока: баллонную ангиопластику и стентирование или аортокоронарное шунтирование. Пациентов лечили медикаментозно с помощью блокаторов РААС, бета-блокаторов, статинов и двойной антиагрегантной терапии. Данные фиксировались во внутрибольничных историях болезни. У каждого пациента врачи определяли стандартные клинические показатели: артериальное давление, индекс массы тела, уровень холестерина и глюкозы.
На лабораторном этапе врачи-исследователи выделяли ДНК из лейкоцитарных колец в собранных образцах крови, а затем замораживали при температуре –80 °C для будущего генетического тестирования. Генотип определяли по конкретной генетической вариации (полиморфизму) в гене VEGFR-2. Генетический маркер VEGFR-2 — элемент в системе сигналов организма, контролирующий рост новых кровеносных сосудов. Существуют три варианта генотипа — C/C, C/T и T/T, — отличающихся вариацией нуклеотидов ДНК цитозина (C) или тимина (T) в этом участке гена. Маркер давно известен, однако его влияние на прогноз осложнений после инфаркта миокарда исследовали впервые.
Авторы статьи рассмотрели влияние 39 факторов на прогноз рисков сердечной смерти, повторного острого коронарного синдрома, инсульта и необходимости повторной реваскуляризации — процедуры, помогающей восстановить кровоток в артериях. Чтобы выбрать эффективную модель, исследователи обучили и протестировали несколько алгоритмов машинного обучения: градиентный бустинг (CatBoost и LightGBM), случайный лес, логистическую регрессию и подход AutoML.
Наилучшую производительность показала модель CatBoost — алгоритм градиентного бустинга, оптимизированный для работы с данными, обозначающими категории или группы, а не числовые значения. Он строит прогнозы за счет последовательного создания и обучения «слабых» деревьев решений, где следующее дерево корректирует ошибки предыдущих. При построении деревьев алгоритм разделяет данные на две части: модель обучается на одной части данных, а ошибки рассчитываются на другой. Это снижает эффект переобучения, при котором модель просто запоминает правильные ответы и помогает найти общие закономерности для прогнозов в незнакомых случаях.
Влияние признаков на точность модели оценивали с помощью метода последовательного добавления признаков, который проверяет их вклад на каждом этапе. Ученые отобрали 9 наиболее значимых факторов: пол, индекс массы тела, индекс коморбидности Чарлсона, учитывающий наличие серьезных сопутствующих болезней, состояние боковой стенки левого желудочка, степень поражения ствола левой коронарной артерии, количество пораженных артерий, вариант гена VEGFR-2, выбор процедуры чрескожного коронарного вмешательства или аортокоронарного шунтирования, а также дозировка статинов.
Результаты показали, что доза статинов — лекарств, которые используются для снижения уровня холестерина в крови, — наиболее важный фактор, влияющий на риск развития осложнений. Высокие дозы статинов снижают этот риск, особенно у пациентов с неблагоприятным генотипом. Полиморфизм VEGFR-2, в частности наличие аллеля T, оказался на четвертом месте по важности.
«Ранее генетические факторы не использовались в моделях машинного обучения, в основном из-за того, что секвенирование или даже генотипирование отдельных нуклеотидов не проводится в больницах. Нам же, помимо стандартных показателей, были доступны данные о полиморфизме в гене VEGFR-2. Благодаря этому удалось сравнить этот показатель с другими и выяснить, что аллель риска варианта VEGFR-2 входит в пятерку наиболее важных факторов для прогнозирования долгосрочных результатов у пациентов с инфарктом миокарда», — объясняет один из авторов статьи, заведующая Международной лабораторией биоинформатики НИУ ВШЭ Мария Попцова.
Исследователи подчеркивают, что анализ генетических данных помогает в создании более точных и персонализированных моделей прогноза рисков сердечно-сосудистых осложнений у пациентов после инфаркта миокарда.
«Сердечно-сосудистые болезни требуют ресурсов для диагностики, лечения, реабилитации и профилактики и потому создают высокую нагрузку на систему здравоохранения. Внедрение подобных моделей в клиническую практику позволит снизить смертность и частоту повторных инфарктов, оптимизировать лечение и уменьшить нагрузку на врачей», — комментирует один из авторов статьи, стажер-исследователь Международной лаборатории биоинформатики Александр Кирдеев.
Исследование выполнено в рамках проекта НИУ ВШЭ «Зеркальные лаборатории».