Наука о данных: как отделить кажущееся от реальности — Naked Science
Партнерский материал

Наука о данных: как отделить кажущееся от реальности

Несколько лет назад ученые забили тревогу: от бега умирают, говорили им данные. К вопросу приложили типичные методы data science — и оказалось, что все куда интереснее. Вместе с онлайн-школой SkillFactory попробовали разобраться, как именно эти методы позволяют яснее увидеть мир вокруг нас.
Под действием бега сердце человека претерпевает изменение: его объем увеличивается, мышечные стенки становятся тоньше. Эти и некоторые другие факты заставили ряд ученых предположить, что бег вреден. Но корректный анализ данных по этому виду физической активности наводит на совсем другие выводы / ©Wikimedia Commons

В последние годы каждому из нас набила мозоль на языке (а то и на ушах) фраза «корреляция не означает причинно-следственной связи». Результаты почти каждого исследования готов оспорить любой совершеннолетний с аккаунтом во «Вконтакте». Причина этого не только в эффекте Даннинга-Крюгера, но и во вполне настоящей проблеме: данных вокруг нас становится слишком много. А если данных много, то почти всегда можно «подкрутить» интерпретирующие эти данные модели и получить – да почти все, что вашей душе угодно.

Какая этому разумная альтернатива? Ну, можно пройти соответствующий учебный курс по data science и начать во всем разбираться самому – вооружившись знаниями о том, как именно следует корректно работать с данными, чтобы извлекать из них не то, что ожидают другие, а то, что до сих пор никому не давалось – с помощью машинного обучения и ряда других подходов науки о данных. Но чтобы вполне понять, что это дает, стоит сперва разобраться с тем, что именно методы, излагаемые в рамках такого курса, дают тем, кто их окончил.

Если бы это касалось только абстрактных научных споров, то было бы неприятно, но не смертельно. Но есть и куда более серьезные случаи, причем такие, где без корректного применения data science здравый смысл мог бы никогда и не победить. Сегодня мы расскажем именно о таком случае.

Бег к смерти?

В 2012 году англоязычный мир встряхнула довольно сильная волна турбулентности. Сразу целый ряд исследователей заявил (и многочисленные поп-СМИ это подхватили), что практически любой бег интенсивнее предельно медленной трусцы на самом деле вреден для здоровья. Бег, утверждали такие авторы с цифрами замеров в руках, – это мощная нагрузка на сердце и сосуды, причем такая мощная, какую не получить при банальном офисном стрессе – да и вообще сложно получить обычному человеку. Даже при самом интенсивном обычном стрессе заметно поднять пульс до 150 сложно, в то время как для бега это несложно.

Более того: подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников. Наука доказала, что бег вреден – примерно в такой стилистике писали тогда в самых разных местах.

Смерть в результате спортивных нагрузок случается, но чрезвычайно редко и лишь при особых условиях. Миклош Фехер, венгерский футболист, погиб в 25 лет прямо на поле из-за гипертрофической кардиомиопатии — обусловленной генетическим дефектом в синтезе белков сердечной мышцы / ©Wikimedia Commons

Влияние таких публикаций на людей не заставило себя ждать. В 2013 году до конца беговых дистанций добежало 19 миллионов американцев, а в 2016 году – меньше 17 миллионов. Запомним эти цифры.

Именно здесь на арену вышли методы, типичные для data science, но не свойственные конкретным дисциплинам, изучавшим риски бегунов на протяжении их жизни. Наука о данных не пытается априорно взять ту или иную предполагаемую причинно-следственную связь – например, предположение, что большее количество бляшек в сердце приведет к большей опасности смерти. Она просто берет наборы данных и анализирует все возможные математические и статистические связи между ними.

Как мы уже писали в нашем предыдущем тексте «Машинное обучение: не важно почему, важен результат», иногда корректный результат можно быстро получить только отказавшись от всех заранее выдвинутых предположений об интерпретации данных – и без навязанных ими идей.

Как раз в таком стиле была выдержана большая обзорная работа 2017 года. Она не затрагивала состояние конкретно сердца или любых других подсистем организма бегунов – лишь сравнивала время, которое они тратят на бег, и их среднюю ожидаемую продолжительность жизни.

Или к жизни?

При первом рассмотрении результаты оказались просто блестящими для бегунов – настолько блестящими, что стало понятно: они нуждаются в корректировке. Средняя вероятность смерти в любой заданный отрезок времени у бегуна (под ними понимались бегавшие регулярно, не менее нескольких раз в неделю) была ниже, чем у небегуна того же пола и возраста на 30-45%. Для тех, кто был постарше, разница была сильнее, ближе к 45%, для тех, кто младше – слабее, ближе к 30%.

Однако из этого получался абсурдный результат: выходило, что бег в состоянии чуть ли не в полтора раза уронить вероятность умереть. Стало ясно, что данные нуждаются в корректировке, в том числе по методу линейной регрессии – весьма распространенного метода в data science.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна). В ее рамках имеется (в норме) одна зависимая переменная и несколько независимых.

Например, если мы хотим оценить связь часов ожидаемой продолжительности жизни человека – бегуна или небегуна – то зависимой переменной в конечном счете будет продолжительность жизни, а вот независимой может быть и число часов, которое он бегает в неделю, и его приверженность к курению или алкоголю, и его вес или еще какие-то факторы.

Самая левая часть графика показывает вероятность смерти для небегунов. Правее лежат пять групп бегунов. Слева направо: те, что тратит на бег менее 51 минуты, от 51 до 80 минут, от 81 до 119 минут, от 120 до 175 минут, и более 176 минут в неделю. График вверху показывает вероятность смерти от всех причин, внизу — от сердечно-сосудистых заболеваний / ©Duck-chul Lee et al.

Оказалось – и это трудно назвать неожиданным – что бегуны реже курят и меньше пьют, чем люди того же пола и возраста в целом, да и масса тела у них ниже, чем у других. Между тем, все эти параметры, разумеется, также снижают риск смерти в любой момент времени, поэтому и результаты тех, кто бегал, оказались завышены. Учтя это, удалось выяснить: пока человек бегает, его вероятность смерти до исчерпания лет средней ожидаемой продолжительности жизни (вероятность преждевременной смерти) ниже, чем у небегающих на 25-40% (опять с некоторым сдвигом в сторону пожилого возраста).

При этом те, кто просто бегал, имели среднее снижение вероятности преждевременной (относительно остальной популяции) смерти в среднем на 30%, а те, кто в дополнение к бегу серьезно занимался силовыми упражнениями – имел вероятность смерти, сниженную на 42%. Интересно, что те, кто занимался другими видами физической активности, но без бега, показывали снижение вероятности преждевременной смерти лишь на 12%. Выходит, «бег к смерти» по факту удлиняет жизнь сильнее иных видов упражнений.

Как отделить реальное удлинение жизни от иллюзии

И тем не менее, даже после линейной регрессии цифра оказалась очень большой. Возник вопрос: нет ли здесь смешения корреляции (много бега – ниже вероятность смерти) с причинно-следственной связью? То есть не может ли быть так, что люди бегают потому, что их сердце и сосуды здоровее, чем у тех, кто не бегает? А те бы и рады бегать, но не могут?

Чтобы вполне точно ответить на этот вопрос, понадобилось привлечь уже совсем иные методы. Данные разбили по группам, чтобы проще было выявить, как средняя ожидаемая продолжительность жизни меняется среди тех, кто бегает мало, средне и много.

Кроме того, в отдельные группы выделили бегунов с хроническими заболеваниями и здоровых. В «контрольной группе» небегунов также выделили «хроников» и здоровых. Точно так же были учтены отдельно группы курящих, лиц с избыточным весом. Группы выделили из довольно большой выборки, включающей 55 тысяч человек в возрасте от 18 до 100 лет.

Особенно неожиданным оказалось то, что даже люди, которые занялись бегом по указаниям врача и бегали менее десяти минут в день, показали заметное снижение смертности от всех причин, включая сердечно-сосудистые заболевания / ©Nutthaseth Van

По сути, здесь использовался кластерный анализ – сбор данных, содержащих информацию о выборке объектов с последующей процедурой упорядочивания объектов в сравнительно однородные группы, широко применяемый в data science. Его изучение входит в каждый учебный курс по этой дисциплине – и дает заметные преимущества в сравнении с анализом данных без его использования. Оценивать такие массивы данных «вручную» довольно сложно, а вот с использованием алгоритмов, разбивающих данные по легко сравнимым группам, оказалось намного проще.

На этот раз оказалось, что длительность жизни человека показывает прямую корреляцию со средним временем его бега в неделю. На каждый час такого перемещения в пространстве средняя ожидаемая продолжительность жизни росла примерно на семь часов. В среднем же бегуны, тратя по два часа в неделю, показали среднюю ожидаемую продолжительность жизни на 3,2 года дольше, чем небегуны.

При этом удлинение средней ожидаемой продолжительности при регулярном беге (относительно тех, кто не бегал) было примерно одинаковым и для людей с хроническими заболеваниями, и для тех, у кого их не было. Те же результаты выявились и для тех, кто курил, и для тех, у кого был избыточный вес. Все они, в сравнении с небегавшими, показали сходный прирост продолжительности жизни. Курящие бегуны-любители все еще жили меньше, чем некурящие – но вот некурящих небегунов они уже вполне обгоняли.

Попутно разбивка данных на группы позволила выявить еще пару важных моментов. Оказалось, что у бегуна падает вероятность гибели не только от сердечно-сосудистых заболеваний, но и от рака – второй по частоте причине смертности в современном мире, а во многих странах уже и первой. Причем вероятность рака падала равным образом и среди тех бегунов, у которых была повышенная масса тела, и среди тех, у кого она была нормальной.

Это делает сомнительным предположение «бегуны живут дольше, потому что бегать идут только здоровые». Будь это так, то у бегуна, еще не заболевшего раком и имеющего сходную массу тела с небегуном, должно быть примерно столько же шансов получить злокачественную опухоль. На практике, однако, даже бегуны-любители, тратившие на это занятие несколько часов в неделю, имели сниженную на 30% вероятность рака. Те, кто бегал с хорошим временем (условно их можно обозначить как «профессионалы») могли иметь вероятность рака на 50% ниже, чем у их сверстников того же пола.

На первый взгляд обычное копание в цифрах привело к однозначному выводу: смертность у бегунов ниже обычной и по сердечно-сосудистым заболеваниям, и по раку, причем это относится даже к тем, кто очень серьезно напрягает свое сердце при тренировках.

Из анализа данных получилось, что выгоды для здоровья не растут линейно: продолжительность жизни росла у тех, кто бегал до четырех часов в неделю – то есть, например, бегавшие два часа жили дольше тех, кто бегал час в неделю, и так далее. Но после достижения четырехчасового порога продолжительность жизни не изменялась. Но, что очень важно, она и не падала: то есть «бег к смерти» в общем случае – всего лишь миф. Статистически значимому числу людей ”не удается” снизить продолжительность своей жизни, перенапрягаясь при беге.

Подавляющее большинство любителей бега занимаются им недостаточно интенсивно, чтобы исследователям удалось найти хоть какой-то статистически заметный вред от этого занятия / © flickr.com, N00/253527065

Почему так выходит, несмотря на более ранние работы кардиологов про большее число бляшек в сердцах марафонцев? Пока это вполне ясно: человек – исключительно сложная система. Возможно, ухудшая какой-то из формальных параметров здоровья сердца и сосудов, длительная беговая нагрузка улучшает какой-то иной, еще не обнаруженный. Но, с точки зрения data science, это и не важно. Важен результат.

Значимость этого «копания в данных» трудно переоценить. Снятие стигмы «бег вредит сердцу» позволит какому-то количеству людей бегать больше – и значит, прожить дольше. В среднем по всем возрастам примерно 5% населения США регулярно бегает по несколько часов в неделю. Если новое исследование увеличит эту цифру хотя бы вдвое – жители Штатов получат дополнительно десятки миллионов дополнительных человек-лет жизни.

Цифры правду говорят?

Казалось бы, что может быть проще, чем – в наше «гаджетное» время – изучение влияния бега на здоровье? В эпоху, когда миллионы носят фитнес-браслеты, сбрасывающие данные на смартфоны, нужно лишь брать эту россыпь информации и черпать из нее. Но, как показывает пример выше, на деле все не так просто. Сами по себе, без качественного анализа с использованием машинного обучения, даже действительно большие данные «не взлетают» – вовсе не дают того результат, которого от них ожидают. Возможно, это одна из причин столь резкого роста спроса на специалистов по data science сегодня.

Ситуация со «смертельно опасным» бегом – не единичный пример. Люди регулярно сталкиваются с опасными – иной раз смертельно опасными – иллюзиями, порожденными некорректной работой с данными. Классический пример из недавней российской реальности – невероятно широко разошедшаяся статья с «Хабра», где за счет некорректной работы с не такими уж и большими данными был сделан вывод: коронавирус неопасен, не страшнее гриппа.

Исходя из вроде бы корректных цифр (но не будучи в состоянии их правильно осознать), регулярно ошибаются политики, врачи (даже среди них долго были те, кто не считал новую эпидемию опасной), экономисты и многие-многие другие. Очень похожая ситуация царит и в целом ряде других областей, еще ожидающих своего анализа на основе науки о данных – от атомной энергетики до медицины. Возможно, со временем всем из нас необходимо будет если не стать dаta scientist самому, то хотя бы разобраться, как устроена работа с большими данными.

Если вам интересна область Data Science, не теряйте время – записывайтесь на курс и овладейте новой профессией за короткое время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
12 часов назад
7 минут
Мария Азарова

Исследование показало, что цитотоксические Т-клетки (Т-лимфоциты) опосредуют вызванное физическими нагрузками замедление роста опухоли.

Вчера, 12:18
4 минуты
Денис Гордеев

Временные промежутки между посещениями дантиста могут составлять от трех месяцев до двух лет, в зависимости от индивидуальных факторов.

2 часа назад
9 минут
Мария Азарова

К такому выводу пришли сотрудники NASA, а авторы другого исследования рассказали, где именно на спутнике Земли может сохраняться водяной лед — в еще больших количествах, чем считалось ранее.

Вчера, 12:18
4 минуты
Денис Гордеев

Временные промежутки между посещениями дантиста могут составлять от трех месяцев до двух лет, в зависимости от индивидуальных факторов.

20 октября
4 минуты
Сергей Васильев

Глубоко в носоглотке ученые обнаружили новую — четвертую — пару крупных слюнных желез, о существовании которой ранее никто не подозревал.

Вчера, 15:09
8 минут
Василий Парфенов

Пусть романтика мирного атома с середины 1960-х поутихла, к идее использования ядерных реакторов в «гражданских» целях все равно возвращаются регулярно. Новый ядерный ракетный двигатель (ЯРД) позволит доставить человека на Марс гораздо быстрее, чем это возможно сейчас.

28 сентября
29 минут
Александр Березин

Сентябрь 2020 года принес в Закавказье войну — столкновение Азербайджана и Нагорного Карабаха получило большой размах, общее число жертв, судя по всему, уже перевалило за сотню, а Ереван и Баку объявили мобилизацию (в Азербайджане — частичную). Объективного смысла в войне для самих участников нет. Баку не победит, но и Армения от конфликта ничего не выиграет. Пользу конфликт, однако, объективно принесет Турции, а также тем, кто поставляет в Азербайджан оружие. Возникает вопрос: почему война оказалась возможна, несмотря на дружественную позицию России к Армении, и зачем на нее пошли в Баку? И есть ли у Еревана разумный выход из назревающей бойни?

20 октября
4 минуты
Сергей Васильев

Глубоко в носоглотке ученые обнаружили новую — четвертую — пару крупных слюнных желез, о существовании которой ранее никто не подозревал.

16 октября
6 минут
Денис Гордеев

Люди со второй и четвертой группами крови с большей вероятностью переболеют Covid-19 в тяжелой форме.

[miniorange_social_login]

Комментарии

3 Комментария

Kostik Kit
16.07.2020
-
0
+
И регрессионный анализ и кластерный являются частным случаем корреляции. То есть дают пищу для размышлений, но не доказывают утверждения. К тому же при использовании множественных корреляций, необходимо использовать поправку бонферони, о которую и разбиваются все попытки выстроить доказательную базу. А в статье на Хабре про коронавирус говорится о том, что данные из разных стран отличаются по качеству, поэтому их нельзя использовать в одном анализе, и нельзя опираться только на эти данные.
    Александр Березин
    16.07.2020
    -
    0
    +
    В статье на Хабре кроме того, о чем вы сказали, было еще кое-что. Например, вывод "Это что же получается, все СМИ нам говорят, что от коронавируса пенсионеры мрут как мухи, а абсолютное число смертей в данной возрастной группе в период эпедимии гриппа 2016-2017 было значительно больше?". Уже 3 апреля. на момент ее написания, было очевидно, что это не так, и что "эпедимия гриппа" намного менее опасна. Но автор был упрям. Упрямее фактов -- поэтому просто подобрал "нужные" цифры.
    +
      ещё комментарии
      Kostik Kit
      20.07.2020
      -
      0
      +
      Тут соглашусь, в Италии третьего апреля пик смертности уже был выше, а в конце апреля вырос в два раза от пика 2017года. Но анализ данных тут не при чём. Ещё на неделю раньше масштабы эпидемии были меньше, а официальная смертность ниже. К тому же общая паника в Италии и сопредельных государствах началась тогда, когда данные по заболеваемости и смертности были гораздо ниже, чем в эпидсезон начала 2017 года.
Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: