• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
Партнерский материал

Наука о данных: как отделить кажущееся от реальности

Несколько лет назад ученые забили тревогу: от бега умирают, говорили им данные. К вопросу приложили типичные методы data science — и оказалось, что все куда интереснее. Вместе с онлайн-школой SkillFactory попробовали разобраться, как именно эти методы позволяют яснее увидеть мир вокруг нас.
Под действием бега сердце человека претерпевает изменение: его объем увеличивается, мышечные стенки становятся тоньше. Эти и некоторые другие факты заставили ряд ученых предположить, что бег вреден. Но корректный анализ данных по этому виду физической активности наводит на совсем другие выводы / ©Wikimedia Commons

В последние годы каждому из нас набила мозоль на языке (а то и на ушах) фраза «корреляция не означает причинно-следственной связи». Результаты почти каждого исследования готов оспорить любой совершеннолетний с аккаунтом во «Вконтакте». Причина этого не только в эффекте Даннинга-Крюгера, но и во вполне настоящей проблеме: данных вокруг нас становится слишком много. А если данных много, то почти всегда можно «подкрутить» интерпретирующие эти данные модели и получить – да почти все, что вашей душе угодно.

Какая этому разумная альтернатива? Ну, можно пройти соответствующий учебный курс по data science и начать во всем разбираться самому – вооружившись знаниями о том, как именно следует корректно работать с данными, чтобы извлекать из них не то, что ожидают другие, а то, что до сих пор никому не давалось – с помощью машинного обучения и ряда других подходов науки о данных. Но чтобы вполне понять, что это дает, стоит сперва разобраться с тем, что именно методы, излагаемые в рамках такого курса, дают тем, кто их окончил.

Если бы это касалось только абстрактных научных споров, то было бы неприятно, но не смертельно. Но есть и куда более серьезные случаи, причем такие, где без корректного применения data science здравый смысл мог бы никогда и не победить. Сегодня мы расскажем именно о таком случае.

Бег к смерти?

В 2012 году англоязычный мир встряхнула довольно сильная волна турбулентности. Сразу целый ряд исследователей заявил (и многочисленные поп-СМИ это подхватили), что практически любой бег интенсивнее предельно медленной трусцы на самом деле вреден для здоровья. Бег, утверждали такие авторы с цифрами замеров в руках, – это мощная нагрузка на сердце и сосуды, причем такая мощная, какую не получить при банальном офисном стрессе – да и вообще сложно получить обычному человеку. Даже при самом интенсивном обычном стрессе заметно поднять пульс до 150 сложно, в то время как для бега это несложно.

Более того: подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников. Наука доказала, что бег вреден – примерно в такой стилистике писали тогда в самых разных местах.

Смерть в результате спортивных нагрузок случается, но чрезвычайно редко и лишь при особых условиях. Миклош Фехер, венгерский футболист, погиб в 25 лет прямо на поле из-за гипертрофической кардиомиопатии — обусловленной генетическим дефектом в синтезе белков сердечной мышцы / ©Wikimedia Commons

Влияние таких публикаций на людей не заставило себя ждать. В 2013 году до конца беговых дистанций добежало 19 миллионов американцев, а в 2016 году – меньше 17 миллионов. Запомним эти цифры.

Именно здесь на арену вышли методы, типичные для data science, но не свойственные конкретным дисциплинам, изучавшим риски бегунов на протяжении их жизни. Наука о данных не пытается априорно взять ту или иную предполагаемую причинно-следственную связь – например, предположение, что большее количество бляшек в сердце приведет к большей опасности смерти. Она просто берет наборы данных и анализирует все возможные математические и статистические связи между ними.

Как мы уже писали в нашем предыдущем тексте «Машинное обучение: не важно почему, важен результат», иногда корректный результат можно быстро получить только отказавшись от всех заранее выдвинутых предположений об интерпретации данных – и без навязанных ими идей.

Как раз в таком стиле была выдержана большая обзорная работа 2017 года. Она не затрагивала состояние конкретно сердца или любых других подсистем организма бегунов – лишь сравнивала время, которое они тратят на бег, и их среднюю ожидаемую продолжительность жизни.

Или к жизни?

При первом рассмотрении результаты оказались просто блестящими для бегунов – настолько блестящими, что стало понятно: они нуждаются в корректировке. Средняя вероятность смерти в любой заданный отрезок времени у бегуна (под ними понимались бегавшие регулярно, не менее нескольких раз в неделю) была ниже, чем у небегуна того же пола и возраста на 30-45%. Для тех, кто был постарше, разница была сильнее, ближе к 45%, для тех, кто младше – слабее, ближе к 30%.

Однако из этого получался абсурдный результат: выходило, что бег в состоянии чуть ли не в полтора раза уронить вероятность умереть. Стало ясно, что данные нуждаются в корректировке, в том числе по методу линейной регрессии – весьма распространенного метода в data science.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна). В ее рамках имеется (в норме) одна зависимая переменная и несколько независимых.

Например, если мы хотим оценить связь часов ожидаемой продолжительности жизни человека – бегуна или небегуна – то зависимой переменной в конечном счете будет продолжительность жизни, а вот независимой может быть и число часов, которое он бегает в неделю, и его приверженность к курению или алкоголю, и его вес или еще какие-то факторы.

Самая левая часть графика показывает вероятность смерти для небегунов. Правее лежат пять групп бегунов. Слева направо: те, что тратит на бег менее 51 минуты, от 51 до 80 минут, от 81 до 119 минут, от 120 до 175 минут, и более 176 минут в неделю. График вверху показывает вероятность смерти от всех причин, внизу — от сердечно-сосудистых заболеваний / ©Duck-chul Lee et al.

Оказалось – и это трудно назвать неожиданным – что бегуны реже курят и меньше пьют, чем люди того же пола и возраста в целом, да и масса тела у них ниже, чем у других. Между тем, все эти параметры, разумеется, также снижают риск смерти в любой момент времени, поэтому и результаты тех, кто бегал, оказались завышены. Учтя это, удалось выяснить: пока человек бегает, его вероятность смерти до исчерпания лет средней ожидаемой продолжительности жизни (вероятность преждевременной смерти) ниже, чем у небегающих на 25-40% (опять с некоторым сдвигом в сторону пожилого возраста).

При этом те, кто просто бегал, имели среднее снижение вероятности преждевременной (относительно остальной популяции) смерти в среднем на 30%, а те, кто в дополнение к бегу серьезно занимался силовыми упражнениями – имел вероятность смерти, сниженную на 42%. Интересно, что те, кто занимался другими видами физической активности, но без бега, показывали снижение вероятности преждевременной смерти лишь на 12%. Выходит, «бег к смерти» по факту удлиняет жизнь сильнее иных видов упражнений.

Как отделить реальное удлинение жизни от иллюзии

И тем не менее, даже после линейной регрессии цифра оказалась очень большой. Возник вопрос: нет ли здесь смешения корреляции (много бега – ниже вероятность смерти) с причинно-следственной связью? То есть не может ли быть так, что люди бегают потому, что их сердце и сосуды здоровее, чем у тех, кто не бегает? А те бы и рады бегать, но не могут?

Чтобы вполне точно ответить на этот вопрос, понадобилось привлечь уже совсем иные методы. Данные разбили по группам, чтобы проще было выявить, как средняя ожидаемая продолжительность жизни меняется среди тех, кто бегает мало, средне и много.

Кроме того, в отдельные группы выделили бегунов с хроническими заболеваниями и здоровых. В «контрольной группе» небегунов также выделили «хроников» и здоровых. Точно так же были учтены отдельно группы курящих, лиц с избыточным весом. Группы выделили из довольно большой выборки, включающей 55 тысяч человек в возрасте от 18 до 100 лет.

Особенно неожиданным оказалось то, что даже люди, которые занялись бегом по указаниям врача и бегали менее десяти минут в день, показали заметное снижение смертности от всех причин, включая сердечно-сосудистые заболевания / ©Nutthaseth Van

По сути, здесь использовался кластерный анализ – сбор данных, содержащих информацию о выборке объектов с последующей процедурой упорядочивания объектов в сравнительно однородные группы, широко применяемый в data science. Его изучение входит в каждый учебный курс по этой дисциплине – и дает заметные преимущества в сравнении с анализом данных без его использования. Оценивать такие массивы данных «вручную» довольно сложно, а вот с использованием алгоритмов, разбивающих данные по легко сравнимым группам, оказалось намного проще.

На этот раз оказалось, что длительность жизни человека показывает прямую корреляцию со средним временем его бега в неделю. На каждый час такого перемещения в пространстве средняя ожидаемая продолжительность жизни росла примерно на семь часов. В среднем же бегуны, тратя по два часа в неделю, показали среднюю ожидаемую продолжительность жизни на 3,2 года дольше, чем небегуны.

При этом удлинение средней ожидаемой продолжительности при регулярном беге (относительно тех, кто не бегал) было примерно одинаковым и для людей с хроническими заболеваниями, и для тех, у кого их не было. Те же результаты выявились и для тех, кто курил, и для тех, у кого был избыточный вес. Все они, в сравнении с небегавшими, показали сходный прирост продолжительности жизни. Курящие бегуны-любители все еще жили меньше, чем некурящие – но вот некурящих небегунов они уже вполне обгоняли.

Попутно разбивка данных на группы позволила выявить еще пару важных моментов. Оказалось, что у бегуна падает вероятность гибели не только от сердечно-сосудистых заболеваний, но и от рака – второй по частоте причине смертности в современном мире, а во многих странах уже и первой. Причем вероятность рака падала равным образом и среди тех бегунов, у которых была повышенная масса тела, и среди тех, у кого она была нормальной.

Это делает сомнительным предположение «бегуны живут дольше, потому что бегать идут только здоровые». Будь это так, то у бегуна, еще не заболевшего раком и имеющего сходную массу тела с небегуном, должно быть примерно столько же шансов получить злокачественную опухоль. На практике, однако, даже бегуны-любители, тратившие на это занятие несколько часов в неделю, имели сниженную на 30% вероятность рака. Те, кто бегал с хорошим временем (условно их можно обозначить как «профессионалы») могли иметь вероятность рака на 50% ниже, чем у их сверстников того же пола.

На первый взгляд обычное копание в цифрах привело к однозначному выводу: смертность у бегунов ниже обычной и по сердечно-сосудистым заболеваниям, и по раку, причем это относится даже к тем, кто очень серьезно напрягает свое сердце при тренировках.

Из анализа данных получилось, что выгоды для здоровья не растут линейно: продолжительность жизни росла у тех, кто бегал до четырех часов в неделю – то есть, например, бегавшие два часа жили дольше тех, кто бегал час в неделю, и так далее. Но после достижения четырехчасового порога продолжительность жизни не изменялась. Но, что очень важно, она и не падала: то есть «бег к смерти» в общем случае – всего лишь миф. Статистически значимому числу людей ”не удается” снизить продолжительность своей жизни, перенапрягаясь при беге.

Подавляющее большинство любителей бега занимаются им недостаточно интенсивно, чтобы исследователям удалось найти хоть какой-то статистически заметный вред от этого занятия / © flickr.com, N00/253527065

Почему так выходит, несмотря на более ранние работы кардиологов про большее число бляшек в сердцах марафонцев? Пока это вполне ясно: человек – исключительно сложная система. Возможно, ухудшая какой-то из формальных параметров здоровья сердца и сосудов, длительная беговая нагрузка улучшает какой-то иной, еще не обнаруженный. Но, с точки зрения data science, это и не важно. Важен результат.

Значимость этого «копания в данных» трудно переоценить. Снятие стигмы «бег вредит сердцу» позволит какому-то количеству людей бегать больше – и значит, прожить дольше. В среднем по всем возрастам примерно 5% населения США регулярно бегает по несколько часов в неделю. Если новое исследование увеличит эту цифру хотя бы вдвое – жители Штатов получат дополнительно десятки миллионов дополнительных человек-лет жизни.

Цифры правду говорят?

Казалось бы, что может быть проще, чем – в наше «гаджетное» время – изучение влияния бега на здоровье? В эпоху, когда миллионы носят фитнес-браслеты, сбрасывающие данные на смартфоны, нужно лишь брать эту россыпь информации и черпать из нее. Но, как показывает пример выше, на деле все не так просто. Сами по себе, без качественного анализа с использованием машинного обучения, даже действительно большие данные «не взлетают» – вовсе не дают того результат, которого от них ожидают. Возможно, это одна из причин столь резкого роста спроса на специалистов по data science сегодня.

Ситуация со «смертельно опасным» бегом – не единичный пример. Люди регулярно сталкиваются с опасными – иной раз смертельно опасными – иллюзиями, порожденными некорректной работой с данными. Классический пример из недавней российской реальности – невероятно широко разошедшаяся статья с «Хабра», где за счет некорректной работы с не такими уж и большими данными был сделан вывод: коронавирус неопасен, не страшнее гриппа.

Исходя из вроде бы корректных цифр (но не будучи в состоянии их правильно осознать), регулярно ошибаются политики, врачи (даже среди них долго были те, кто не считал новую эпидемию опасной), экономисты и многие-многие другие. Очень похожая ситуация царит и в целом ряде других областей, еще ожидающих своего анализа на основе науки о данных – от атомной энергетики до медицины. Возможно, со временем всем из нас необходимо будет если не стать dаta scientist самому, то хотя бы разобраться, как устроена работа с большими данными.

Если вам интересна область Data Science, не теряйте время – записывайтесь на курс и овладейте новой профессией за короткое время.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
9 часов назад
Игорь Байдов

В архивах английского поместья столетиями пылилась ничем не примечательная книга учета XVI века. Никто не подозревал, что внутри ее переплета скрываются фрагменты пергамента с историями, которые переписывали монахи семь веков назад. Тайна раскрылась, когда архивариус заметил странные символы на обложке. Так началось расследование, объединившее разных ученых. Исследователи три года пытались прочитать текст, не прикасаясь к нему. Теперь они представили результат своего труда — мир получил два ранее неизвестных эпизода о волшебнике Мерлине, короле Артуре и рыцаре Гавейне.

4 часа назад
Татьяна

Два ключевых события сыграли решающую роль в формировании генетического профиля современных европейских народов. Первое связано с приходом ранних фермеров из Анатолии примерно восемь тысяч лет назад, второе — масштабная миграция на запад носителей ямной степной культуры, начавшаяся пять тысяч лет назад. Однако ученые видят множество отличий от общей картины в разных регионах. В новой работе они проанализировали ДНК древних жителей самого северо-запада Европы и обнаружили более тесную связь с охотниками-собирателями, чем где бы то ни было.

8 часов назад
Юлия Трепалина

Сотрясение мозга — одна из распространённых и часто недооцениваемых травм у детей. Но это далеко не такое безобидное происшествие, как некоторые думают. Многолетние наблюдения за детьми с черепно-мозговыми травмами показали, что подобный опыт может ограничить возможности в плане образования, а значит, и ухудшить карьерные перспективы.

27 марта
Сколтех

Ученые из Сколтеха исследовали разнообразие молекул, которые могут образовываться из атомов кислорода и углерода. Помимо широко известных углекислого и угарного газов, моделирование обнаружило две сотни экзотических, но относительно стабильных соединений этих двух элементов, многие из которых не были описаны ранее. Этот класс веществ представляет интерес для исследований космоса, аккумуляторных технологий, биохимии и — неожиданным образом — для разработки промышленной взрывчатки и ракетного топлива. Как оказалось, некоторые из открытых веществ при распаде будут высвобождать более 75 процентов взрывной энергии тротила.

27 марта
Березин Александр

Antares и Exlabs подписали соглашения о сотрудничестве в разработке космического зонда с ядерным двигателем. В ее рамках разработчики планируют вывести реактор в космос уже в 2020-х годах — впервые в XXI веке.

9 часов назад
Игорь Байдов

В архивах английского поместья столетиями пылилась ничем не примечательная книга учета XVI века. Никто не подозревал, что внутри ее переплета скрываются фрагменты пергамента с историями, которые переписывали монахи семь веков назад. Тайна раскрылась, когда архивариус заметил странные символы на обложке. Так началось расследование, объединившее разных ученых. Исследователи три года пытались прочитать текст, не прикасаясь к нему. Теперь они представили результат своего труда — мир получил два ранее неизвестных эпизода о волшебнике Мерлине, короле Артуре и рыцаре Гавейне.

15 марта
Юлия Трепалина

Когда пара расстается, многие люди продолжают испытывать чувства к своим бывшим. Если разрыв произошел по инициативе другой стороны и отношения длились много лет, полностью «забыть» еще недавно близкого человека может быть непросто. Существует мнение, что и после расставания привязанность к экс-партнерам в какой-то мере сохраняется. Впрочем, согласно другой точке зрения, со временем эта эмоциональная связь ослабевает и утрачивается. Разобраться, как происходит на самом деле и сколько времени может потребоваться на полный эмоциональный разрыв с бывшими возлюбленными, взялись психологи из Иллинойсского университета в Урбане-Шампейне (США).

6 марта
Юлия Трепалина

В двойственных, или обратимых, изображениях зритель может увидеть разные объекты в зависимости от того, на каких деталях концентрируется его внимание. Среди известных примеров таких рисунков — иллюзия «кролик-утка», сочетающая двух животных, и обратимая ваза (или ваза Рубина), которая может казаться двумя силуэтами лиц, если сосредоточиться на фоне. В соцсетях и популярных СМИ часто публикуют подобные картинки, утверждая, что по тому, какое изображение человек видит в первую очередь, можно судить о его личностных чертах и особенностях мышления. Двое психологов из Великобритании недавно проверили, так ли это на самом деле.

18 марта
Илья

Масштабный анализ геномов показал, что вид Homo sapiens возник в результате смешения двух древних популяций. Они разделились полтора миллиона лет назад, а затем воссоединились до расселения по миру.

[miniorange_social_login]

Комментарии

3 Комментария
Kostik Kit
16.07.2020
-
0
+
И регрессионный анализ и кластерный являются частным случаем корреляции. То есть дают пищу для размышлений, но не доказывают утверждения. К тому же при использовании множественных корреляций, необходимо использовать поправку бонферони, о которую и разбиваются все попытки выстроить доказательную базу. А в статье на Хабре про коронавирус говорится о том, что данные из разных стран отличаются по качеству, поэтому их нельзя использовать в одном анализе, и нельзя опираться только на эти данные.
    В статье на Хабре кроме того, о чем вы сказали, было еще кое-что. Например, вывод "Это что же получается, все СМИ нам говорят, что от коронавируса пенсионеры мрут как мухи, а абсолютное число смертей в данной возрастной группе в период эпедимии гриппа 2016-2017 было значительно больше?". Уже 3 апреля. на момент ее написания, было очевидно, что это не так, и что "эпедимия гриппа" намного менее опасна. Но автор был упрям. Упрямее фактов -- поэтому просто подобрал "нужные" цифры.
    +
      ещё комментарии
      Kostik Kit
      20.07.2020
      -
      0
      +
      Тут соглашусь, в Италии третьего апреля пик смертности уже был выше, а в конце апреля вырос в два раза от пика 2017года. Но анализ данных тут не при чём. Ещё на неделю раньше масштабы эпидемии были меньше, а официальная смертность ниже. К тому же общая паника в Италии и сопредельных государствах началась тогда, когда данные по заболеваемости и смертности были гораздо ниже, чем в эпидсезон начала 2017 года.
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно