Наука о данных: как отделить кажущееся от реальности — Naked Science
Партнерский материал

Наука о данных: как отделить кажущееся от реальности

Несколько лет назад ученые забили тревогу: от бега умирают, говорили им данные. К вопросу приложили типичные методы data science — и оказалось, что все куда интереснее. Вместе с онлайн-школой SkillFactory попробовали разобраться, как именно эти методы позволяют яснее увидеть мир вокруг нас.
Под действием бега сердце человека претерпевает изменение: его объем увеличивается, мышечные стенки становятся тоньше. Эти и некоторые другие факты заставили ряд ученых предположить, что бег вреден. Но корректный анализ данных по этому виду физической активности наводит на совсем другие выводы / ©Wikimedia Commons

В последние годы каждому из нас набила мозоль на языке (а то и на ушах) фраза «корреляция не означает причинно-следственной связи». Результаты почти каждого исследования готов оспорить любой совершеннолетний с аккаунтом во «Вконтакте». Причина этого не только в эффекте Даннинга-Крюгера, но и во вполне настоящей проблеме: данных вокруг нас становится слишком много. А если данных много, то почти всегда можно «подкрутить» интерпретирующие эти данные модели и получить – да почти все, что вашей душе угодно.

Какая этому разумная альтернатива? Ну, можно пройти соответствующий учебный курс по data science и начать во всем разбираться самому – вооружившись знаниями о том, как именно следует корректно работать с данными, чтобы извлекать из них не то, что ожидают другие, а то, что до сих пор никому не давалось – с помощью машинного обучения и ряда других подходов науки о данных. Но чтобы вполне понять, что это дает, стоит сперва разобраться с тем, что именно методы, излагаемые в рамках такого курса, дают тем, кто их окончил.

Если бы это касалось только абстрактных научных споров, то было бы неприятно, но не смертельно. Но есть и куда более серьезные случаи, причем такие, где без корректного применения data science здравый смысл мог бы никогда и не победить. Сегодня мы расскажем именно о таком случае.

Бег к смерти?

В 2012 году англоязычный мир встряхнула довольно сильная волна турбулентности. Сразу целый ряд исследователей заявил (и многочисленные поп-СМИ это подхватили), что практически любой бег интенсивнее предельно медленной трусцы на самом деле вреден для здоровья. Бег, утверждали такие авторы с цифрами замеров в руках, – это мощная нагрузка на сердце и сосуды, причем такая мощная, какую не получить при банальном офисном стрессе – да и вообще сложно получить обычному человеку. Даже при самом интенсивном обычном стрессе заметно поднять пульс до 150 сложно, в то время как для бега это несложно.

Более того: подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников. Наука доказала, что бег вреден – примерно в такой стилистике писали тогда в самых разных местах.

Смерть в результате спортивных нагрузок случается, но чрезвычайно редко и лишь при особых условиях. Миклош Фехер, венгерский футболист, погиб в 25 лет прямо на поле из-за гипертрофической кардиомиопатии — обусловленной генетическим дефектом в синтезе белков сердечной мышцы / ©Wikimedia Commons

Влияние таких публикаций на людей не заставило себя ждать. В 2013 году до конца беговых дистанций добежало 19 миллионов американцев, а в 2016 году – меньше 17 миллионов. Запомним эти цифры.

Именно здесь на арену вышли методы, типичные для data science, но не свойственные конкретным дисциплинам, изучавшим риски бегунов на протяжении их жизни. Наука о данных не пытается априорно взять ту или иную предполагаемую причинно-следственную связь – например, предположение, что большее количество бляшек в сердце приведет к большей опасности смерти. Она просто берет наборы данных и анализирует все возможные математические и статистические связи между ними.

Как мы уже писали в нашем предыдущем тексте «Машинное обучение: не важно почему, важен результат», иногда корректный результат можно быстро получить только отказавшись от всех заранее выдвинутых предположений об интерпретации данных – и без навязанных ими идей.

Как раз в таком стиле была выдержана большая обзорная работа 2017 года. Она не затрагивала состояние конкретно сердца или любых других подсистем организма бегунов – лишь сравнивала время, которое они тратят на бег, и их среднюю ожидаемую продолжительность жизни.

Или к жизни?

При первом рассмотрении результаты оказались просто блестящими для бегунов – настолько блестящими, что стало понятно: они нуждаются в корректировке. Средняя вероятность смерти в любой заданный отрезок времени у бегуна (под ними понимались бегавшие регулярно, не менее нескольких раз в неделю) была ниже, чем у небегуна того же пола и возраста на 30-45%. Для тех, кто был постарше, разница была сильнее, ближе к 45%, для тех, кто младше – слабее, ближе к 30%.

Однако из этого получался абсурдный результат: выходило, что бег в состоянии чуть ли не в полтора раза уронить вероятность умереть. Стало ясно, что данные нуждаются в корректировке, в том числе по методу линейной регрессии – весьма распространенного метода в data science.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна). В ее рамках имеется (в норме) одна зависимая переменная и несколько независимых.

Например, если мы хотим оценить связь часов ожидаемой продолжительности жизни человека – бегуна или небегуна – то зависимой переменной в конечном счете будет продолжительность жизни, а вот независимой может быть и число часов, которое он бегает в неделю, и его приверженность к курению или алкоголю, и его вес или еще какие-то факторы.

Самая левая часть графика показывает вероятность смерти для небегунов. Правее лежат пять групп бегунов. Слева направо: те, что тратит на бег менее 51 минуты, от 51 до 80 минут, от 81 до 119 минут, от 120 до 175 минут, и более 176 минут в неделю. График вверху показывает вероятность смерти от всех причин, внизу — от сердечно-сосудистых заболеваний / ©Duck-chul Lee et al.

Оказалось – и это трудно назвать неожиданным – что бегуны реже курят и меньше пьют, чем люди того же пола и возраста в целом, да и масса тела у них ниже, чем у других. Между тем, все эти параметры, разумеется, также снижают риск смерти в любой момент времени, поэтому и результаты тех, кто бегал, оказались завышены. Учтя это, удалось выяснить: пока человек бегает, его вероятность смерти до исчерпания лет средней ожидаемой продолжительности жизни (вероятность преждевременной смерти) ниже, чем у небегающих на 25-40% (опять с некоторым сдвигом в сторону пожилого возраста).

При этом те, кто просто бегал, имели среднее снижение вероятности преждевременной (относительно остальной популяции) смерти в среднем на 30%, а те, кто в дополнение к бегу серьезно занимался силовыми упражнениями – имел вероятность смерти, сниженную на 42%. Интересно, что те, кто занимался другими видами физической активности, но без бега, показывали снижение вероятности преждевременной смерти лишь на 12%. Выходит, «бег к смерти» по факту удлиняет жизнь сильнее иных видов упражнений.

Как отделить реальное удлинение жизни от иллюзии

И тем не менее, даже после линейной регрессии цифра оказалась очень большой. Возник вопрос: нет ли здесь смешения корреляции (много бега – ниже вероятность смерти) с причинно-следственной связью? То есть не может ли быть так, что люди бегают потому, что их сердце и сосуды здоровее, чем у тех, кто не бегает? А те бы и рады бегать, но не могут?

Чтобы вполне точно ответить на этот вопрос, понадобилось привлечь уже совсем иные методы. Данные разбили по группам, чтобы проще было выявить, как средняя ожидаемая продолжительность жизни меняется среди тех, кто бегает мало, средне и много.

Кроме того, в отдельные группы выделили бегунов с хроническими заболеваниями и здоровых. В «контрольной группе» небегунов также выделили «хроников» и здоровых. Точно так же были учтены отдельно группы курящих, лиц с избыточным весом. Группы выделили из довольно большой выборки, включающей 55 тысяч человек в возрасте от 18 до 100 лет.

Особенно неожиданным оказалось то, что даже люди, которые занялись бегом по указаниям врача и бегали менее десяти минут в день, показали заметное снижение смертности от всех причин, включая сердечно-сосудистые заболевания / ©Nutthaseth Van

По сути, здесь использовался кластерный анализ – сбор данных, содержащих информацию о выборке объектов с последующей процедурой упорядочивания объектов в сравнительно однородные группы, широко применяемый в data science. Его изучение входит в каждый учебный курс по этой дисциплине – и дает заметные преимущества в сравнении с анализом данных без его использования. Оценивать такие массивы данных «вручную» довольно сложно, а вот с использованием алгоритмов, разбивающих данные по легко сравнимым группам, оказалось намного проще.

На этот раз оказалось, что длительность жизни человека показывает прямую корреляцию со средним временем его бега в неделю. На каждый час такого перемещения в пространстве средняя ожидаемая продолжительность жизни росла примерно на семь часов. В среднем же бегуны, тратя по два часа в неделю, показали среднюю ожидаемую продолжительность жизни на 3,2 года дольше, чем небегуны.

При этом удлинение средней ожидаемой продолжительности при регулярном беге (относительно тех, кто не бегал) было примерно одинаковым и для людей с хроническими заболеваниями, и для тех, у кого их не было. Те же результаты выявились и для тех, кто курил, и для тех, у кого был избыточный вес. Все они, в сравнении с небегавшими, показали сходный прирост продолжительности жизни. Курящие бегуны-любители все еще жили меньше, чем некурящие – но вот некурящих небегунов они уже вполне обгоняли.

Попутно разбивка данных на группы позволила выявить еще пару важных моментов. Оказалось, что у бегуна падает вероятность гибели не только от сердечно-сосудистых заболеваний, но и от рака – второй по частоте причине смертности в современном мире, а во многих странах уже и первой. Причем вероятность рака падала равным образом и среди тех бегунов, у которых была повышенная масса тела, и среди тех, у кого она была нормальной.

Это делает сомнительным предположение «бегуны живут дольше, потому что бегать идут только здоровые». Будь это так, то у бегуна, еще не заболевшего раком и имеющего сходную массу тела с небегуном, должно быть примерно столько же шансов получить злокачественную опухоль. На практике, однако, даже бегуны-любители, тратившие на это занятие несколько часов в неделю, имели сниженную на 30% вероятность рака. Те, кто бегал с хорошим временем (условно их можно обозначить как «профессионалы») могли иметь вероятность рака на 50% ниже, чем у их сверстников того же пола.

На первый взгляд обычное копание в цифрах привело к однозначному выводу: смертность у бегунов ниже обычной и по сердечно-сосудистым заболеваниям, и по раку, причем это относится даже к тем, кто очень серьезно напрягает свое сердце при тренировках.

Из анализа данных получилось, что выгоды для здоровья не растут линейно: продолжительность жизни росла у тех, кто бегал до четырех часов в неделю – то есть, например, бегавшие два часа жили дольше тех, кто бегал час в неделю, и так далее. Но после достижения четырехчасового порога продолжительность жизни не изменялась. Но, что очень важно, она и не падала: то есть «бег к смерти» в общем случае – всего лишь миф. Статистически значимому числу людей »не удается» снизить продолжительность своей жизни, перенапрягаясь при беге.

Подавляющее большинство любителей бега занимаются им недостаточно интенсивно, чтобы исследователям удалось найти хоть какой-то статистически заметный вред от этого занятия / © flickr.com, N00/253527065

Почему так выходит, несмотря на более ранние работы кардиологов про большее число бляшек в сердцах марафонцев? Пока это вполне ясно: человек – исключительно сложная система. Возможно, ухудшая какой-то из формальных параметров здоровья сердца и сосудов, длительная беговая нагрузка улучшает какой-то иной, еще не обнаруженный. Но, с точки зрения data science, это и не важно. Важен результат.

Значимость этого «копания в данных» трудно переоценить. Снятие стигмы «бег вредит сердцу» позволит какому-то количеству людей бегать больше – и значит, прожить дольше. В среднем по всем возрастам примерно 5% населения США регулярно бегает по несколько часов в неделю. Если новое исследование увеличит эту цифру хотя бы вдвое – жители Штатов получат дополнительно десятки миллионов дополнительных человек-лет жизни.

Цифры правду говорят?

Казалось бы, что может быть проще, чем – в наше «гаджетное» время – изучение влияния бега на здоровье? В эпоху, когда миллионы носят фитнес-браслеты, сбрасывающие данные на смартфоны, нужно лишь брать эту россыпь информации и черпать из нее. Но, как показывает пример выше, на деле все не так просто. Сами по себе, без качественного анализа с использованием машинного обучения, даже действительно большие данные «не взлетают» – вовсе не дают того результат, которого от них ожидают. Возможно, это одна из причин столь резкого роста спроса на специалистов по data science сегодня.

Ситуация со «смертельно опасным» бегом – не единичный пример. Люди регулярно сталкиваются с опасными – иной раз смертельно опасными – иллюзиями, порожденными некорректной работой с данными. Классический пример из недавней российской реальности – невероятно широко разошедшаяся статья с «Хабра», где за счет некорректной работы с не такими уж и большими данными был сделан вывод: коронавирус неопасен, не страшнее гриппа.

Исходя из вроде бы корректных цифр (но не будучи в состоянии их правильно осознать), регулярно ошибаются политики, врачи (даже среди них долго были те, кто не считал новую эпидемию опасной), экономисты и многие-многие другие. Очень похожая ситуация царит и в целом ряде других областей, еще ожидающих своего анализа на основе науки о данных — от атомной энергетики до медицины. Возможно, со временем всем из нас необходимо будет если не стать dаta scientist самому, то хотя бы разобраться, как устроена работа с большими данными.

Если вам интересна область Data Science, не теряйте время – записывайтесь на курс и овладейте новой профессией за короткое время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
10 часов назад
31 минута
Редакция

Трагическая новость о взрыве огромной силы в Бейруте, занявшая первые строчки новостных ресурсов, вызывает естественные вопросы: как это могло произойти, что там взорвалось, в силу каких факторов возможны подобные происшествия? Чтобы разобраться, взглянем пристальнее на свойства аммиачной селитры и связанные с ней опасные моменты.

2 часа назад
5 минут
Денис Гордеев

Новая система работает в любых атмосферных условиях — при дожде, ветре и большом количестве пыли в воздухе.

7 часов назад
7 минут
Ольга Иванова

Антрополог из Цюрихского университета Ицхак Бен Мокко провел исследование, посвященное человеческим репродуктивным привычкам. В частности, он попытался ответить на вопрос, почему люди предпочитают заниматься сексом наедине, в то время как почти все остальные животные делают это в присутствии сородичей.

3 августа
5 минут
Сергей Васильев

Микроскоп с высокоскоростной камерой и компьютерное моделирование показали, что сперматозоиды плавают не за счет боковых движений хвоста, а быстро вращаясь всем телом.

10 часов назад
31 минута
Редакция

Трагическая новость о взрыве огромной силы в Бейруте, занявшая первые строчки новостных ресурсов, вызывает естественные вопросы: как это могло произойти, что там взорвалось, в силу каких факторов возможны подобные происшествия? Чтобы разобраться, взглянем пристальнее на свойства аммиачной селитры и связанные с ней опасные моменты.

2 часа назад
5 минут
Денис Гордеев

Новая система работает в любых атмосферных условиях — при дожде, ветре и большом количестве пыли в воздухе.

22 июля
66 минут
Александр Березин

С 2064 года численность людей начнет сокращаться — и этот процесс может быть необратим. Один из авторов соответствующей научной работы прямо указывает: если ничего не изменится, через несколько веков человечество вымрет. Однако есть вещи и похуже вымирания. Куда вероятнее иной сценарий: мир будет заселен теми, кто сможет размножаться в новых культурных условиях. К сожалению, значительная часть современных европейцев, американцев и, возможно, других народов будут вытеснены с первых страниц истории. Вдобавок те, кто победят в этой непростой борьбе, нам, сегодняшнему населению Земли, могут сильно не понравиться. Попробуем разобраться почему.

10 июля
7 минут
Мария Кривоченко

Биологи выяснили, какое воздействие оказывают радиоволны на эмбрионы рыб. Оказалось, они существенно не влияют на уровень смертности, морфологию и реакцию на свет, но немного подавляют сенсомоторные функции. Как это скажется на взрослых особях, еще предстоит выяснить.

12 июля
28 минут
Илья Ведмеденко

Программа ПАК ДП (перспективный авиационный комплекс дальнего перехвата) привлекает к себе все больше внимания. Разберемся, что это такое и появится ли у России новый боевой самолет.

[miniorange_social_login]

Комментарии

3 Комментария

Kostik Kit
3 недели назад
-
0
+
И регрессионный анализ и кластерный являются частным случаем корреляции. То есть дают пищу для размышлений, но не доказывают утверждения. К тому же при использовании множественных корреляций, необходимо использовать поправку бонферони, о которую и разбиваются все попытки выстроить доказательную базу. А в статье на Хабре про коронавирус говорится о том, что данные из разных стран отличаются по качеству, поэтому их нельзя использовать в одном анализе, и нельзя опираться только на эти данные.
    Александр Березин
    3 недели назад
    -
    0
    +
    В статье на Хабре кроме того, о чем вы сказали, было еще кое-что. Например, вывод "Это что же получается, все СМИ нам говорят, что от коронавируса пенсионеры мрут как мухи, а абсолютное число смертей в данной возрастной группе в период эпедимии гриппа 2016-2017 было значительно больше?". Уже 3 апреля. на момент ее написания, было очевидно, что это не так, и что "эпедимия гриппа" намного менее опасна. Но автор был упрям. Упрямее фактов -- поэтому просто подобрал "нужные" цифры.
      Kostik Kit
      3 недели назад
      -
      0
      +
      Тут соглашусь, в Италии третьего апреля пик смертности уже был выше, а в конце апреля вырос в два раза от пика 2017года. Но анализ данных тут не при чём. Ещё на неделю раньше масштабы эпидемии были меньше, а официальная смертность ниже. К тому же общая паника в Италии и сопредельных государствах началась тогда, когда данные по заболеваемости и смертности были гораздо ниже, чем в эпидсезон начала 2017 года.
Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: