Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
- 15.07.2020
- Редакция Naked Science
-
17 465
Наука о данных: как отделить кажущееся от реальности
В последние годы каждому из нас набила мозоль на языке (а то и на ушах) фраза «корреляция не означает причинно-следственной связи». Результаты почти каждого исследования готов оспорить любой совершеннолетний с аккаунтом во «Вконтакте». Причина этого не только в эффекте Даннинга-Крюгера, но и во вполне настоящей проблеме: данных вокруг нас становится слишком много. А если данных много, то почти всегда можно «подкрутить» интерпретирующие эти данные модели и получить – да почти все, что вашей душе угодно.
Какая этому разумная альтернатива? Ну, можно пройти соответствующий учебный курс по data science и начать во всем разбираться самому – вооружившись знаниями о том, как именно следует корректно работать с данными, чтобы извлекать из них не то, что ожидают другие, а то, что до сих пор никому не давалось – с помощью машинного обучения и ряда других подходов науки о данных. Но чтобы вполне понять, что это дает, стоит сперва разобраться с тем, что именно методы, излагаемые в рамках такого курса, дают тем, кто их окончил.
Если бы это касалось только абстрактных научных споров, то было бы неприятно, но не смертельно. Но есть и куда более серьезные случаи, причем такие, где без корректного применения data science здравый смысл мог бы никогда и не победить. Сегодня мы расскажем именно о таком случае.
Бег к смерти?
В 2012 году англоязычный мир встряхнула довольно сильная волна турбулентности. Сразу целый ряд исследователей заявил (и многочисленные поп-СМИ это подхватили), что практически любой бег интенсивнее предельно медленной трусцы на самом деле вреден для здоровья. Бег, утверждали такие авторы с цифрами замеров в руках, – это мощная нагрузка на сердце и сосуды, причем такая мощная, какую не получить при банальном офисном стрессе – да и вообще сложно получить обычному человеку. Даже при самом интенсивном обычном стрессе заметно поднять пульс до 150 сложно, в то время как для бега это несложно.
Более того: подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников. Наука доказала, что бег вреден – примерно в такой стилистике писали тогда в самых разных местах.
Влияние таких публикаций на людей не заставило себя ждать. В 2013 году до конца беговых дистанций добежало 19 миллионов американцев, а в 2016 году – меньше 17 миллионов. Запомним эти цифры.
Именно здесь на арену вышли методы, типичные для data science, но не свойственные конкретным дисциплинам, изучавшим риски бегунов на протяжении их жизни. Наука о данных не пытается априорно взять ту или иную предполагаемую причинно-следственную связь – например, предположение, что большее количество бляшек в сердце приведет к большей опасности смерти. Она просто берет наборы данных и анализирует все возможные математические и статистические связи между ними.
Как мы уже писали в нашем предыдущем тексте «Машинное обучение: не важно почему, важен результат», иногда корректный результат можно быстро получить только отказавшись от всех заранее выдвинутых предположений об интерпретации данных – и без навязанных ими идей.
Как раз в таком стиле была выдержана большая обзорная работа 2017 года. Она не затрагивала состояние конкретно сердца или любых других подсистем организма бегунов – лишь сравнивала время, которое они тратят на бег, и их среднюю ожидаемую продолжительность жизни.
Или к жизни?
При первом рассмотрении результаты оказались просто блестящими для бегунов – настолько блестящими, что стало понятно: они нуждаются в корректировке. Средняя вероятность смерти в любой заданный отрезок времени у бегуна (под ними понимались бегавшие регулярно, не менее нескольких раз в неделю) была ниже, чем у небегуна того же пола и возраста на 30-45%. Для тех, кто был постарше, разница была сильнее, ближе к 45%, для тех, кто младше – слабее, ближе к 30%.
Однако из этого получался абсурдный результат: выходило, что бег в состоянии чуть ли не в полтора раза уронить вероятность умереть. Стало ясно, что данные нуждаются в корректировке, в том числе по методу линейной регрессии – весьма распространенного метода в data science.
Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна). В ее рамках имеется (в норме) одна зависимая переменная и несколько независимых.
Например, если мы хотим оценить связь часов ожидаемой продолжительности жизни человека – бегуна или небегуна – то зависимой переменной в конечном счете будет продолжительность жизни, а вот независимой может быть и число часов, которое он бегает в неделю, и его приверженность к курению или алкоголю, и его вес или еще какие-то факторы.
Оказалось – и это трудно назвать неожиданным – что бегуны реже курят и меньше пьют, чем люди того же пола и возраста в целом, да и масса тела у них ниже, чем у других. Между тем, все эти параметры, разумеется, также снижают риск смерти в любой момент времени, поэтому и результаты тех, кто бегал, оказались завышены. Учтя это, удалось выяснить: пока человек бегает, его вероятность смерти до исчерпания лет средней ожидаемой продолжительности жизни (вероятность преждевременной смерти) ниже, чем у небегающих на 25-40% (опять с некоторым сдвигом в сторону пожилого возраста).
При этом те, кто просто бегал, имели среднее снижение вероятности преждевременной (относительно остальной популяции) смерти в среднем на 30%, а те, кто в дополнение к бегу серьезно занимался силовыми упражнениями – имел вероятность смерти, сниженную на 42%. Интересно, что те, кто занимался другими видами физической активности, но без бега, показывали снижение вероятности преждевременной смерти лишь на 12%. Выходит, «бег к смерти» по факту удлиняет жизнь сильнее иных видов упражнений.
Как отделить реальное удлинение жизни от иллюзии
И тем не менее, даже после линейной регрессии цифра оказалась очень большой. Возник вопрос: нет ли здесь смешения корреляции (много бега – ниже вероятность смерти) с причинно-следственной связью? То есть не может ли быть так, что люди бегают потому, что их сердце и сосуды здоровее, чем у тех, кто не бегает? А те бы и рады бегать, но не могут?
Чтобы вполне точно ответить на этот вопрос, понадобилось привлечь уже совсем иные методы. Данные разбили по группам, чтобы проще было выявить, как средняя ожидаемая продолжительность жизни меняется среди тех, кто бегает мало, средне и много.
Кроме того, в отдельные группы выделили бегунов с хроническими заболеваниями и здоровых. В «контрольной группе» небегунов также выделили «хроников» и здоровых. Точно так же были учтены отдельно группы курящих, лиц с избыточным весом. Группы выделили из довольно большой выборки, включающей 55 тысяч человек в возрасте от 18 до 100 лет.
По сути, здесь использовался кластерный анализ – сбор данных, содержащих информацию о выборке объектов с последующей процедурой упорядочивания объектов в сравнительно однородные группы, широко применяемый в data science. Его изучение входит в каждый учебный курс по этой дисциплине – и дает заметные преимущества в сравнении с анализом данных без его использования. Оценивать такие массивы данных «вручную» довольно сложно, а вот с использованием алгоритмов, разбивающих данные по легко сравнимым группам, оказалось намного проще.
На этот раз оказалось, что длительность жизни человека показывает прямую корреляцию со средним временем его бега в неделю. На каждый час такого перемещения в пространстве средняя ожидаемая продолжительность жизни росла примерно на семь часов. В среднем же бегуны, тратя по два часа в неделю, показали среднюю ожидаемую продолжительность жизни на 3,2 года дольше, чем небегуны.
При этом удлинение средней ожидаемой продолжительности при регулярном беге (относительно тех, кто не бегал) было примерно одинаковым и для людей с хроническими заболеваниями, и для тех, у кого их не было. Те же результаты выявились и для тех, кто курил, и для тех, у кого был избыточный вес. Все они, в сравнении с небегавшими, показали сходный прирост продолжительности жизни. Курящие бегуны-любители все еще жили меньше, чем некурящие – но вот некурящих небегунов они уже вполне обгоняли.
Попутно разбивка данных на группы позволила выявить еще пару важных моментов. Оказалось, что у бегуна падает вероятность гибели не только от сердечно-сосудистых заболеваний, но и от рака – второй по частоте причине смертности в современном мире, а во многих странах уже и первой. Причем вероятность рака падала равным образом и среди тех бегунов, у которых была повышенная масса тела, и среди тех, у кого она была нормальной.
Это делает сомнительным предположение «бегуны живут дольше, потому что бегать идут только здоровые». Будь это так, то у бегуна, еще не заболевшего раком и имеющего сходную массу тела с небегуном, должно быть примерно столько же шансов получить злокачественную опухоль. На практике, однако, даже бегуны-любители, тратившие на это занятие несколько часов в неделю, имели сниженную на 30% вероятность рака. Те, кто бегал с хорошим временем (условно их можно обозначить как «профессионалы») могли иметь вероятность рака на 50% ниже, чем у их сверстников того же пола.
На первый взгляд обычное копание в цифрах привело к однозначному выводу: смертность у бегунов ниже обычной и по сердечно-сосудистым заболеваниям, и по раку, причем это относится даже к тем, кто очень серьезно напрягает свое сердце при тренировках.
Из анализа данных получилось, что выгоды для здоровья не растут линейно: продолжительность жизни росла у тех, кто бегал до четырех часов в неделю – то есть, например, бегавшие два часа жили дольше тех, кто бегал час в неделю, и так далее. Но после достижения четырехчасового порога продолжительность жизни не изменялась. Но, что очень важно, она и не падала: то есть «бег к смерти» в общем случае – всего лишь миф. Статистически значимому числу людей ”не удается” снизить продолжительность своей жизни, перенапрягаясь при беге.
Почему так выходит, несмотря на более ранние работы кардиологов про большее число бляшек в сердцах марафонцев? Пока это вполне ясно: человек – исключительно сложная система. Возможно, ухудшая какой-то из формальных параметров здоровья сердца и сосудов, длительная беговая нагрузка улучшает какой-то иной, еще не обнаруженный. Но, с точки зрения data science, это и не важно. Важен результат.
Значимость этого «копания в данных» трудно переоценить. Снятие стигмы «бег вредит сердцу» позволит какому-то количеству людей бегать больше – и значит, прожить дольше. В среднем по всем возрастам примерно 5% населения США регулярно бегает по несколько часов в неделю. Если новое исследование увеличит эту цифру хотя бы вдвое – жители Штатов получат дополнительно десятки миллионов дополнительных человек-лет жизни.
Цифры правду говорят?
Казалось бы, что может быть проще, чем – в наше «гаджетное» время – изучение влияния бега на здоровье? В эпоху, когда миллионы носят фитнес-браслеты, сбрасывающие данные на смартфоны, нужно лишь брать эту россыпь информации и черпать из нее. Но, как показывает пример выше, на деле все не так просто. Сами по себе, без качественного анализа с использованием машинного обучения, даже действительно большие данные «не взлетают» – вовсе не дают того результат, которого от них ожидают. Возможно, это одна из причин столь резкого роста спроса на специалистов по data science сегодня.
Ситуация со «смертельно опасным» бегом – не единичный пример. Люди регулярно сталкиваются с опасными – иной раз смертельно опасными – иллюзиями, порожденными некорректной работой с данными. Классический пример из недавней российской реальности – невероятно широко разошедшаяся статья с «Хабра», где за счет некорректной работы с не такими уж и большими данными был сделан вывод: коронавирус неопасен, не страшнее гриппа.
Исходя из вроде бы корректных цифр (но не будучи в состоянии их правильно осознать), регулярно ошибаются политики, врачи (даже среди них долго были те, кто не считал новую эпидемию опасной), экономисты и многие-многие другие. Очень похожая ситуация царит и в целом ряде других областей, еще ожидающих своего анализа на основе науки о данных – от атомной энергетики до медицины. Возможно, со временем всем из нас необходимо будет если не стать dаta scientist самому, то хотя бы разобраться, как устроена работа с большими данными.
Если вам интересна область Data Science, не теряйте время – записывайтесь на курс и овладейте новой профессией за короткое время.
Физики из МФТИ и Объединенного института высоких температур РАН, работающие над фундаментальными проектами в области физики плазмы и управляемого ядерного синтеза, объявили о значительных продвижениях в изучении безнейтронной (без выделения нейтронов) реакции ядерного синтеза протон–бор. Исследование демонстрирует новый подход к синтезу, который может стать основой для создания экологически чистых источников энергии в будущем.
Ученые неоднократно подходили к произведениям искусства со своими инструментами и концепциями в поисках скрытых авторских замыслов. Иногда находят на картинах редкие природные явления или законы физики, которые еще не были достаточно сформулированы. В новой статье группа исследователей проанализировала путешествия Одиссея в классической поэме Гомера и нашла, что автор следовал фундаментальным идеям устройства Вселенной, которым подчиняются физические и математические системы.
Процессы с общей энергией в 130 раз больше, чем у всех ядерных арсеналов Земли, сформировали две крупные лунные долины, выяснила международная группа астрономов. Речь идет об огромных образованиях длиной до 860 километров и глубиной в несколько километров.
В 2022-2025 годах страны Западной Европы попытались отказаться от природного газа из России. Автор новой работы показал, что получившиеся при этом результаты были во многом противоположны целям.
В Северной Ирландии обнаружили ранее неизвестный вид паразитических грибов, управляющий пауками. Заметили зараженных членистоногих случайно — во время съемок передачи BBC Winterwatch.
Немецкие и греческие исследователи обнаружили, что уже в 3200 году до нашей эры осадочные отложения в греческих болотах содержали тяжелые металлы. Речь идет о самых старых следах такого рода, когда-либо зафиксированных учеными. Результаты нового исследования заставляют существенно пересмотреть историю региона.
В 2022-2025 годах страны Западной Европы попытались отказаться от природного газа из России. Автор новой работы показал, что получившиеся при этом результаты были во многом противоположны целям.
Многие предпочитают вступать в романтические отношения с людьми примерно своего возраста, но есть и пары с существенной возрастной разницей. Международная группа ученых недавно на крупной выборке людей проследила за изменениями возраста партнеров на старте отношений в разные годы жизни.
По распространению сейсмических волн в недрах Земли геологи словно «сканируют» планету и обнаруживают все больше интересных особенностей ее внутреннего строения. Недавно очередное такое исследование заставило ученых особенно внимательно рассмотреть то, что скрывается под Тихоокеанской литосферной плитой.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии