Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
- 18.06.2020, 10:33
- Редакция Naked Science
-
15,5 тыс
Кто такой data scientist и почему он зарабатывает так много
Само направление работы с данными развивалось десятки лет: data science как явление введено в научный оборот с 1974 года Петером Науром. С самого начала ее определили как науку, изучающую цифровые данные. В начале XXI века стало ясно, что data science — область, где извлекают знания из больших наборов данных. Чтобы сделать это, она использует математику и статистику, а чтобы создать реально работающий инструмент быстрого поиска и анализа в базах — часть навыков программистов.
Возможность корректно предложить практическое приложение для найденных закономерностей означает и необходимость разбираться в бизнес-процессах. А чтобы наглядно визуализировать результаты исследования и сделать их доступными для заказчика, потребуются навыки визуального предоставления информации.
Из этого видно: data scientist должен объединять навыки из разных областей, а не быть «узким» академическим специалистом. Следовательно, в профессию могут прийти не только люди, обучавшиеся ей в вузе, но и те, кто когда-то занимался программированием, бизнес-аналитикой и рядом других специальностей. Более того, в силу новизны сектора в нем есть место и для тех, кто полный новичок в каждой из этих дисциплин.
Годится для новичков?
Да, как ни странно, чтобы стать таким специалистом, не обязательно иметь опыт разработки программного обеспечения, работы с базами данных и статистикой. Не нужно быть экспертом в области машинного обучения и визуализации данных. Не требуется даже разбираться в особенностях всех тех отраслей, данные из которых вы анализируете. На практике важно не то, как много вы знаете, а насколько быстро осваиваете нужные конкретные навыки. О чем идет речь?

Если внимательно прочитать описание должностных обязанностей на вакансиях data scientist, окажется, что от вас требуют знания нескольких стандартных профессиональных инструментов.
Во-первых, чтобы вести статистическую обработку данных, вам нужно получить базовые навыки программирования на Python. Откроем учебную программу для data scientist на skillfactory.ru — с него начинается типовая программа обучения.
Во-вторых, потребуется овладеть языком запросов для работы с базами данных, чаще всего — SQL. Опять же, он входит в программу первого семестра. В-третьих, вам придется начать разбираться в математической статистике.
Если все эти слова кажутся сложными, то напрасно. В курсе обучения все разбито на простые шаги с практической ориентацией. Уже первое задание заключается в том, чтобы «вытащить» с GitHub — крупнейшего веб-сервиса для хостинга IT-проектов и их совместной разработки — данные о том, какие разработчики проектов в чем сильны, использовав сайт как сервис профессиональных портфолио, примеров удачно выполненных проектов.
Машинное обучение: не важно почему, важен результат
Если первый семестр обучения дает базовые навыки, то второй начинает напрямую работать с машинным обучением на большой выборке данных. Машинное обучение берет большую выборку данных и пытается выявить в них некие закономерности. Например, банки имеют огромные базы по людям, взявшим у них кредит. В них содержится не только доход этого человека, но и его возраст, сфера работы и целый ряд иных сведений.
Традиционно банки методом проб и ошибок подбирали сборники формальных указаний: если клиент сантехник, то вероятность невыплаты им кредита такая-то, а если владелец кафе — такая-то. Автоматически обработав большой массив банковских данных, можно увидеть неочевидную закономерность невозврата кредита: например, люди, начавшие работать автомеханиками, до какого-то года будут возвращать кредиты с большей вероятностью, а после — с меньшей.
Сама причинно-следственная связь здесь может быть любой: например, более опытный механик получает больше. Но выявить все такие закономерности не сможет ни один банковский работник — а вот data scientist это под силу. Особенность данной отрасли знаний как раз в том, что она работает именно с чистыми цифровыми данными, а не с лежащими в их основе сложными цепочками причин и следствий. Это позволяет намного быстрее находить решения проблем: скажем, точно определять, какому заемщику и на какой сумме стоит сказать «нет».
В этом конкретном задании важно не то, почему тот или иной заемщик не вернет деньги, — важно, насколько результативным будет конкретное предсказание, сделанное data scientist.
Разумеется, примеров такого рода в учебной программе много. Один из первых самостоятельных проектов там — создание модели, прогнозирующей стоимость автомобиля в зависимости от самых разных его параметров. Чтобы сделать рабочую модель, придется собрать данные из открытых источников в один набор (дата-сет), а затем произвести его анализ и выбрать ключевые параметры модели, которую вы будете строить. Выбор конкретных инструментов машинного обучения также придется сделать вам — и здесь появляется свободное место для маневра, позволяющего показать свои способности.
Специализация: искусственный интеллект, big data и разработчик машинного обучения
Хотя общие навыки data scientist достаточно схожи для всех направлений, на третьем семестре придется сделать выбор в пользу окончательной специализации.
Первый открывающийся путь — разработчик AI (искусственного интеллекта). Для него максимально важно разобраться в глубоком обучении (deep learning). Это разновидность машинного обучения, в которой есть сразу много слоев, каждый из которых получает из входящих данных набор признаков. Каждый следующий слой получает на входе выходные данные предыдущего слоя. Признаки более высокого уровня — производные от признаков более низкого. Тесно связано с глубоким обучением и применение нейронных сетей — систем из взаимодействующих между собой простых процессоров (искусственных аналогов нейронов).
Сегодня именно на этих навыках базируются основные достижения AI — от компьютерного зрения, используемого в автопилотах Tesla, до систем искусственного интеллекта, облегчающих банкам отбор надежных заемщиков или наименее рискованных финансовых инструментов. Впрочем, областей применения куда больше — даже обычный поиск онлайн задействует системы AI. Компьютерное зрение активно применяется во множестве областей, где нужно определять тот или иной объект по фотографии без вмешательства человека (как на ряде камер, штрафующих за превышение скорости).
Вторая возможная специализация data scientist — разработчик в области машинного обучения. Здесь вовлечены и другие методы обучения (не многослойные), а основной упор сделан на отработке создания крупных информационных систем.
Третья специализация — инженер в области big data (big data engineer). Углубленное изучение именно этой области должно, как и у остальных выбравших специализацию, закончиться выпускным проектом.
Интересно, что в конце учебного курса skillfactory.ru гарантирует трудоустройство, причем настаивает на том, что даже специалист без опыта, окончив курс, сможет начать зарабатывать по 120 тысяч рублей в месяц. Откуда такая уверенность?
Как ни странно, дело опять в цифрах: вакансий в области data science за последние три года стало больше в 5,33 раза. Data scientist интересуются буквально все: медицине они нужны, чтобы быстро диагностировать сложные заболевания (уже не одна модель определяет наличие коронавирусной инфекции по КТ-снимкам и результатам анализов, дублируя усилия врача и зачастую поправляя его). В торговле обработка данных необходима для выявления оптимальной целевой аудитории, в образовании — чтобы понять, почему одни студенты учатся лучше других и что требуется сделать, чтобы остальные тоже получили шанс на высшую оценку.
Спрос в этой области превышает предложение настолько, что в ближайшее время его действительно будет непросто покрыть. Не зря Harvard Business Review называет data scientist «самой желанной профессией XXI века». Поэтому skillfactory.ru не слишком рискует, делая такие авансы своим будущим data scientist.

Разумеется, анализ данных не исчерпывается одним data science. Есть еще data analyst — которых, кстати, тоже готовят на skillfactory.ru. Их задачи несколько более общие: они автоматизируют обработку данных, выстраивают сквозную бизнес-аналитику, на основе которой составляют рекомендации, например, по изменению стратегии рекламных кампаний (если кластеризация клиентов по группам показала, что текущий формат такой кампании неактуален).
Подведем итог. На сегодня data scientist — профессия, находящаяся в таком же положении, что и программист десяток-другой лет назад. Кризис предложения привел к тому, что в профессию смогли прийти много людей, не получавших образование по этой специальности в вузе, а решивших начать с освоения практических навыков в нескольких наиболее востребованных областях. В итоге многие из них прижились в индустрии и давно стали для нее привычными.
Data scientist на сегодня — такая же профессия с явным кризисом предложения. Специалистов здесь не хватает, и это дает шанс пробиться в востребованную область, даже если вы новичок.
Ссылки на курсы
Курс Data Scientist.
Курс Data Analyst.
Ученые из МФТИ разработали и предложили новую систему единиц для электродинамики, способную примирить два главенствующих, но исторически несовместимых подхода. Эта компромиссная система, названная авторами физико-технической (ФТ), сохраняет практическое удобство Международной системы единиц (СИ), используемой инженерами по всему миру, и в то же время отражает теоретическую стройность и симметрию гауссовой системы (СГС), предпочитаемой физиками-теоретиками.
Обитающий в полярных районах Северного полушария гренландский кит (Balaena mysticetus) живет более двух столетий и почти не болеет раком. Секрет его долголетия оказался скрыт в клетках соединительной ткани, ответственной за заживление ран: при пониженной температуре в них активируется особый белок, усиливающий восстановление поврежденной ДНК.
Эксперимент, устроенный в морском аквариуме в Лос-Анджелесе, продемонстрировал, что акулы и скаты, принадлежащие к пластиножаберным рыбам, могут обладать более высоким уровнем интеллекта. Значит, им необходима обогащенная среда обитания при содержании в неволе.
Анализ астрономических фотопластинок середины XX века показал, что таинственные яркие точки на небе появлялись значительно чаще вблизи дат ядерных испытаний. Эти вспышки, зафиксированные еще до запуска первого спутника, также совпали с увеличением числа сообщений о неопознанных аномальных явлениях.
В одном из крупнейших комплексов звездообразования Млечного Пути — гигантском молекулярном облаке Лебедь X (Cygnus X) — впервые зафиксировали так называемый «темный» молекулярный газ. Эта форма межзвездной материи, невидимая в оптическом и инфракрасном диапазонах, позволит больше узнать о процессах зарождения звезд в Галактике.
Ученые из МФТИ разработали и предложили новую систему единиц для электродинамики, способную примирить два главенствующих, но исторически несовместимых подхода. Эта компромиссная система, названная авторами физико-технической (ФТ), сохраняет практическое удобство Международной системы единиц (СИ), используемой инженерами по всему миру, и в то же время отражает теоретическую стройность и симметрию гауссовой системы (СГС), предпочитаемой физиками-теоретиками.
Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.
Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.
В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии