Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
- 15.07.2020, 13:26
 - Редакция Naked Science
 - 
			17,5 тыс
 
Наука о данных: как отделить кажущееся от реальности
В последние годы каждому из нас набила мозоль на языке (а то и на ушах) фраза «корреляция не означает причинно-следственной связи». Результаты почти каждого исследования готов оспорить любой совершеннолетний с аккаунтом во «Вконтакте». Причина этого не только в эффекте Даннинга-Крюгера, но и во вполне настоящей проблеме: данных вокруг нас становится слишком много. А если данных много, то почти всегда можно «подкрутить» интерпретирующие эти данные модели и получить – да почти все, что вашей душе угодно.
Какая этому разумная альтернатива? Ну, можно пройти соответствующий учебный курс по data science и начать во всем разбираться самому – вооружившись знаниями о том, как именно следует корректно работать с данными, чтобы извлекать из них не то, что ожидают другие, а то, что до сих пор никому не давалось – с помощью машинного обучения и ряда других подходов науки о данных. Но чтобы вполне понять, что это дает, стоит сперва разобраться с тем, что именно методы, излагаемые в рамках такого курса, дают тем, кто их окончил.
Если бы это касалось только абстрактных научных споров, то было бы неприятно, но не смертельно. Но есть и куда более серьезные случаи, причем такие, где без корректного применения data science здравый смысл мог бы никогда и не победить. Сегодня мы расскажем именно о таком случае.
Бег к смерти?
В 2012 году англоязычный мир встряхнула довольно сильная волна турбулентности. Сразу целый ряд исследователей заявил (и многочисленные поп-СМИ это подхватили), что практически любой бег интенсивнее предельно медленной трусцы на самом деле вреден для здоровья. Бег, утверждали такие авторы с цифрами замеров в руках, – это мощная нагрузка на сердце и сосуды, причем такая мощная, какую не получить при банальном офисном стрессе – да и вообще сложно получить обычному человеку. Даже при самом интенсивном обычном стрессе заметно поднять пульс до 150 сложно, в то время как для бега это несложно.
Более того: подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников. Наука доказала, что бег вреден – примерно в такой стилистике писали тогда в самых разных местах.

Влияние таких публикаций на людей не заставило себя ждать. В 2013 году до конца беговых дистанций добежало 19 миллионов американцев, а в 2016 году – меньше 17 миллионов. Запомним эти цифры.
Именно здесь на арену вышли методы, типичные для data science, но не свойственные конкретным дисциплинам, изучавшим риски бегунов на протяжении их жизни. Наука о данных не пытается априорно взять ту или иную предполагаемую причинно-следственную связь – например, предположение, что большее количество бляшек в сердце приведет к большей опасности смерти. Она просто берет наборы данных и анализирует все возможные математические и статистические связи между ними.
Как мы уже писали в нашем предыдущем тексте «Машинное обучение: не важно почему, важен результат», иногда корректный результат можно быстро получить только отказавшись от всех заранее выдвинутых предположений об интерпретации данных – и без навязанных ими идей.
Как раз в таком стиле была выдержана большая обзорная работа 2017 года. Она не затрагивала состояние конкретно сердца или любых других подсистем организма бегунов – лишь сравнивала время, которое они тратят на бег, и их среднюю ожидаемую продолжительность жизни.
Или к жизни?
При первом рассмотрении результаты оказались просто блестящими для бегунов – настолько блестящими, что стало понятно: они нуждаются в корректировке. Средняя вероятность смерти в любой заданный отрезок времени у бегуна (под ними понимались бегавшие регулярно, не менее нескольких раз в неделю) была ниже, чем у небегуна того же пола и возраста на 30-45%. Для тех, кто был постарше, разница была сильнее, ближе к 45%, для тех, кто младше – слабее, ближе к 30%.
Однако из этого получался абсурдный результат: выходило, что бег в состоянии чуть ли не в полтора раза уронить вероятность умереть. Стало ясно, что данные нуждаются в корректировке, в том числе по методу линейной регрессии – весьма распространенного метода в data science.
Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна). В ее рамках имеется (в норме) одна зависимая переменная и несколько независимых.
Например, если мы хотим оценить связь часов ожидаемой продолжительности жизни человека – бегуна или небегуна – то зависимой переменной в конечном счете будет продолжительность жизни, а вот независимой может быть и число часов, которое он бегает в неделю, и его приверженность к курению или алкоголю, и его вес или еще какие-то факторы.

Оказалось – и это трудно назвать неожиданным – что бегуны реже курят и меньше пьют, чем люди того же пола и возраста в целом, да и масса тела у них ниже, чем у других. Между тем, все эти параметры, разумеется, также снижают риск смерти в любой момент времени, поэтому и результаты тех, кто бегал, оказались завышены. Учтя это, удалось выяснить: пока человек бегает, его вероятность смерти до исчерпания лет средней ожидаемой продолжительности жизни (вероятность преждевременной смерти) ниже, чем у небегающих на 25-40% (опять с некоторым сдвигом в сторону пожилого возраста).
При этом те, кто просто бегал, имели среднее снижение вероятности преждевременной (относительно остальной популяции) смерти в среднем на 30%, а те, кто в дополнение к бегу серьезно занимался силовыми упражнениями – имел вероятность смерти, сниженную на 42%. Интересно, что те, кто занимался другими видами физической активности, но без бега, показывали снижение вероятности преждевременной смерти лишь на 12%. Выходит, «бег к смерти» по факту удлиняет жизнь сильнее иных видов упражнений.
Как отделить реальное удлинение жизни от иллюзии
И тем не менее, даже после линейной регрессии цифра оказалась очень большой. Возник вопрос: нет ли здесь смешения корреляции (много бега – ниже вероятность смерти) с причинно-следственной связью? То есть не может ли быть так, что люди бегают потому, что их сердце и сосуды здоровее, чем у тех, кто не бегает? А те бы и рады бегать, но не могут?
Чтобы вполне точно ответить на этот вопрос, понадобилось привлечь уже совсем иные методы. Данные разбили по группам, чтобы проще было выявить, как средняя ожидаемая продолжительность жизни меняется среди тех, кто бегает мало, средне и много.
Кроме того, в отдельные группы выделили бегунов с хроническими заболеваниями и здоровых. В «контрольной группе» небегунов также выделили «хроников» и здоровых. Точно так же были учтены отдельно группы курящих, лиц с избыточным весом. Группы выделили из довольно большой выборки, включающей 55 тысяч человек в возрасте от 18 до 100 лет.

По сути, здесь использовался кластерный анализ – сбор данных, содержащих информацию о выборке объектов с последующей процедурой упорядочивания объектов в сравнительно однородные группы, широко применяемый в data science. Его изучение входит в каждый учебный курс по этой дисциплине – и дает заметные преимущества в сравнении с анализом данных без его использования. Оценивать такие массивы данных «вручную» довольно сложно, а вот с использованием алгоритмов, разбивающих данные по легко сравнимым группам, оказалось намного проще.
На этот раз оказалось, что длительность жизни человека показывает прямую корреляцию со средним временем его бега в неделю. На каждый час такого перемещения в пространстве средняя ожидаемая продолжительность жизни росла примерно на семь часов. В среднем же бегуны, тратя по два часа в неделю, показали среднюю ожидаемую продолжительность жизни на 3,2 года дольше, чем небегуны.
При этом удлинение средней ожидаемой продолжительности при регулярном беге (относительно тех, кто не бегал) было примерно одинаковым и для людей с хроническими заболеваниями, и для тех, у кого их не было. Те же результаты выявились и для тех, кто курил, и для тех, у кого был избыточный вес. Все они, в сравнении с небегавшими, показали сходный прирост продолжительности жизни. Курящие бегуны-любители все еще жили меньше, чем некурящие – но вот некурящих небегунов они уже вполне обгоняли.
Попутно разбивка данных на группы позволила выявить еще пару важных моментов. Оказалось, что у бегуна падает вероятность гибели не только от сердечно-сосудистых заболеваний, но и от рака – второй по частоте причине смертности в современном мире, а во многих странах уже и первой. Причем вероятность рака падала равным образом и среди тех бегунов, у которых была повышенная масса тела, и среди тех, у кого она была нормальной.
Это делает сомнительным предположение «бегуны живут дольше, потому что бегать идут только здоровые». Будь это так, то у бегуна, еще не заболевшего раком и имеющего сходную массу тела с небегуном, должно быть примерно столько же шансов получить злокачественную опухоль. На практике, однако, даже бегуны-любители, тратившие на это занятие несколько часов в неделю, имели сниженную на 30% вероятность рака. Те, кто бегал с хорошим временем (условно их можно обозначить как «профессионалы») могли иметь вероятность рака на 50% ниже, чем у их сверстников того же пола.
На первый взгляд обычное копание в цифрах привело к однозначному выводу: смертность у бегунов ниже обычной и по сердечно-сосудистым заболеваниям, и по раку, причем это относится даже к тем, кто очень серьезно напрягает свое сердце при тренировках.
Из анализа данных получилось, что выгоды для здоровья не растут линейно: продолжительность жизни росла у тех, кто бегал до четырех часов в неделю – то есть, например, бегавшие два часа жили дольше тех, кто бегал час в неделю, и так далее. Но после достижения четырехчасового порога продолжительность жизни не изменялась. Но, что очень важно, она и не падала: то есть «бег к смерти» в общем случае – всего лишь миф. Статистически значимому числу людей »не удается» снизить продолжительность своей жизни, перенапрягаясь при беге.

Почему так выходит, несмотря на более ранние работы кардиологов про большее число бляшек в сердцах марафонцев? Пока это вполне ясно: человек – исключительно сложная система. Возможно, ухудшая какой-то из формальных параметров здоровья сердца и сосудов, длительная беговая нагрузка улучшает какой-то иной, еще не обнаруженный. Но, с точки зрения data science, это и не важно. Важен результат.
Значимость этого «копания в данных» трудно переоценить. Снятие стигмы «бег вредит сердцу» позволит какому-то количеству людей бегать больше – и значит, прожить дольше. В среднем по всем возрастам примерно 5% населения США регулярно бегает по несколько часов в неделю. Если новое исследование увеличит эту цифру хотя бы вдвое – жители Штатов получат дополнительно десятки миллионов дополнительных человек-лет жизни.
Цифры правду говорят?
Казалось бы, что может быть проще, чем – в наше «гаджетное» время – изучение влияния бега на здоровье? В эпоху, когда миллионы носят фитнес-браслеты, сбрасывающие данные на смартфоны, нужно лишь брать эту россыпь информации и черпать из нее. Но, как показывает пример выше, на деле все не так просто. Сами по себе, без качественного анализа с использованием машинного обучения, даже действительно большие данные «не взлетают» – вовсе не дают того результат, которого от них ожидают. Возможно, это одна из причин столь резкого роста спроса на специалистов по data science сегодня.
Ситуация со «смертельно опасным» бегом – не единичный пример. Люди регулярно сталкиваются с опасными – иной раз смертельно опасными – иллюзиями, порожденными некорректной работой с данными. Классический пример из недавней российской реальности – невероятно широко разошедшаяся статья с «Хабра», где за счет некорректной работы с не такими уж и большими данными был сделан вывод: коронавирус неопасен, не страшнее гриппа.
Исходя из вроде бы корректных цифр (но не будучи в состоянии их правильно осознать), регулярно ошибаются политики, врачи (даже среди них долго были те, кто не считал новую эпидемию опасной), экономисты и многие-многие другие. Очень похожая ситуация царит и в целом ряде других областей, еще ожидающих своего анализа на основе науки о данных — от атомной энергетики до медицины. Возможно, со временем всем из нас необходимо будет если не стать dаta scientist самому, то хотя бы разобраться, как устроена работа с большими данными.
Если вам интересна область Data Science, не теряйте время – записывайтесь на курс и овладейте новой профессией за короткое время.
Новое исследование показало, что вейперы, причем даже те, кто уже отказались от этой привычки, подвержены язвенной болезни желудка в большей степени, чем люди, никогда не курившие электронные сигареты.
В комплексах uST, где беспилотный транспорт фактически движется по натянутым струнам, возникают вынужденные и собственные колебания. При совпадении частот этих колебаний возможен резкий рост амплитуды. Это, в свою очередь, вызывает резонанс, который способен привести к ухудшению комфорта пассажиров и даже к повреждению самой путевой структуры. Чтобы решить эту потенциальную проблему, инженеры компании UST Inc. провели ряд исследований.
Ученые из МФТИ разработали и предложили новую систему единиц для электродинамики, способную примирить два главенствующих, но исторически несовместимых подхода. Эта компромиссная система, названная авторами физико-технической (ФТ), сохраняет практическое удобство Международной системы единиц (СИ), используемой инженерами по всему миру, и в то же время отражает теоретическую стройность и симметрию гауссовой системы (СГС), предпочитаемой физиками-теоретиками.
В последнее время отказ от глютена, или клейковины — белков, содержащихся в пшенице, ржи и ячмене, — превратился в модный тренд. В соцсетях и СМИ некоторые популярные блогеры и знаменитости преподносят безглютеновые диеты как секрет хороших самочувствия и внешности. Тем не менее обзор десятков научных работ показал, что у большинства людей, считающих себя чувствительными к глютену, причина негативной реакции часто кроется не в самой клейковине.
Физики нашли способ использовать собственные электроны радия для считывания информации о ядре атома. Соединение радиоактивного элемента с фтором позволило электронам ненадолго проникать в ядро.
Один и тот же фитнес-браслет считает шаги и калории одинаково у мужчин и женщин, но внутренний отклик организма на физическую нагрузку различается. Это выяснили авторы нового исследования. Ученые пришли к выводу: чтобы добиться такого же результата в снижении риска сердечно-сосудистых заболеваний, мужчинам от 50 лет нужно заниматься в спортзале более чем в два раза усерднее женщин. Результаты этой работы могут привести к пересмотру универсальных рекомендаций по физической активности.
Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.
Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.
В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.
        Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
      Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
      Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
	        Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
  
  
  
  
  
  
  
  
Последние комментарии