Кто такой data scientist и почему он зарабатывает так много — Naked Science
Партнерский материал

Кто такой data scientist и почему он зарабатывает так много

Из академической дисциплины прошлых лет наука о данных на наших глазах превратилась в огромную практическую сферу деятельности. Каждый год ей нужно все больше специалистов. Причем, как это было когда-то с программированием, оказалось, что зачастую человек может преуспеть в дата-сайнс без длительного обучения в вузе — с помощью курсов, ориентированных на решение практических задач. Пробуем разобраться почему.
Число специалистов в этой области растет быстро, но куда быстрее растет спрос на них / ©simplilearn.com

Само направление работы с данными развивалось десятки лет: data science как явление введено в научный оборот с 1974 года Петером Науром. С самого начала ее определили как науку, изучающую цифровые данные. В начале XXI века стало ясно, что data science — область, где извлекают знания из больших наборов данных. Чтобы сделать это, она использует математику и статистику, а чтобы создать реально работающий инструмент быстрого поиска и анализа в базах — часть навыков программистов.

Возможность корректно предложить практическое приложение для найденных закономерностей означает и необходимость разбираться в бизнес-процессах. А чтобы наглядно визуализировать результаты исследования и сделать их доступными для заказчика, потребуются навыки визуального предоставления информации.

Из этого видно: data scientist должен объединять навыки из разных областей, а не быть «узким» академическим специалистом. Следовательно, в профессию могут прийти не только люди, обучавшиеся ей в вузе, но и те, кто когда-то занимался программированием, бизнес-аналитикой и рядом других специальностей. Более того, в силу новизны сектора в нем есть место и для тех, кто полный новичок в каждой из этих дисциплин.

Годится для новичков?

Да, как ни странно, чтобы стать таким специалистом, не обязательно иметь опыт разработки программного обеспечения, работы с базами данных и статистикой. Не нужно быть экспертом в области машинного обучения и визуализации данных. Не требуется даже разбираться в особенностях всех тех отраслей, данные из которых вы анализируете. На практике важно не то, как много вы знаете, а насколько быстро осваиваете нужные конкретные навыки. О чем идет речь?

Петер Наур, автор термина data science / ©Wikimedia Commons

Если внимательно прочитать описание должностных обязанностей на вакансиях data scientist, окажется, что от вас требуют знания нескольких стандартных профессиональных инструментов.

Во-первых, чтобы вести статистическую обработку данных, вам нужно получить базовые навыки программирования на Python. Откроем учебную программу для data scientist на skillfactory.ru — с него начинается типовая программа обучения.

Во-вторых, потребуется овладеть языком запросов для работы с базами данных, чаще всего — SQL. Опять же, он входит в программу первого семестра. В-третьих, вам придется начать разбираться в математической статистике.

Если все эти слова кажутся сложными, то напрасно. В курсе обучения все разбито на простые шаги с практической ориентацией. Уже первое задание заключается в том, чтобы «вытащить» с GitHub — крупнейшего веб-сервиса для хостинга IT-проектов и их совместной разработки — данные о том, какие разработчики проектов в чем сильны, использовав сайт как сервис профессиональных портфолио, примеров удачно выполненных проектов.

Машинное обучение: не важно почему, важен результат

Если первый семестр обучения дает базовые навыки, то второй начинает напрямую работать с машинным обучением на большой выборке данных. Машинное обучение берет большую выборку данных и пытается выявить в них некие закономерности. Например, банки имеют огромные базы по людям, взявшим у них кредит. В них содержится не только доход этого человека, но и его возраст, сфера работы и целый ряд иных сведений.

Традиционно банки методом проб и ошибок подбирали сборники формальных указаний: если клиент сантехник, то вероятность невыплаты им кредита такая-то, а если владелец кафе — такая-то. Автоматически обработав большой массив банковских данных, можно увидеть неочевидную закономерность невозврата кредита: например, люди, начавшие работать автомеханиками, до какого-то года будут возвращать кредиты с большей вероятностью, а после — с меньшей.

Сама причинно-следственная связь здесь может быть любой: например, более опытный механик получает больше. Но выявить все такие закономерности не сможет ни один банковский работник — а вот data scientist это под силу. Особенность данной отрасли знаний как раз в том, что она работает именно с чистыми цифровыми данными, а не с лежащими в их основе сложными цепочками причин и следствий. Это позволяет намного быстрее находить решения проблем: скажем, точно определять, какому заемщику и на какой сумме стоит сказать «нет».

В этом конкретном задании важно не то, почему тот или иной заемщик не вернет деньги, — важно, насколько результативным будет конкретное предсказание, сделанное data scientist.

Разумеется, примеров такого рода в учебной программе много. Один из первых самостоятельных проектов там — создание модели, прогнозирующей стоимость автомобиля в зависимости от самых разных его параметров. Чтобы сделать рабочую модель, придется собрать данные из открытых источников в один набор (дата-сет), а затем произвести его анализ и выбрать ключевые параметры модели, которую вы будете строить. Выбор конкретных инструментов машинного обучения также придется сделать вам — и здесь появляется свободное место для маневра, позволяющего показать свои способности.

Специализация: искусственный интеллект, big data и разработчик машинного обучения

Хотя общие навыки data scientist достаточно схожи для всех направлений, на третьем семестре придется сделать выбор в пользу окончательной специализации.

Первый открывающийся путь — разработчик AI (искусственного интеллекта). Для него максимально важно разобраться в глубоком обучении (deep learning). Это разновидность машинного обучения, в которой есть сразу много слоев, каждый из которых получает из входящих данных набор признаков. Каждый следующий слой получает на входе выходные данные предыдущего слоя. Признаки более высокого уровня — производные от признаков более низкого. Тесно связано с глубоким обучением и применение нейронных сетей — систем из взаимодействующих между собой простых процессоров (искусственных аналогов нейронов).

Сегодня именно на этих навыках базируются основные достижения AI — от компьютерного зрения, используемого в автопилотах Tesla, до систем искусственного интеллекта, облегчающих банкам отбор надежных заемщиков или наименее рискованных финансовых инструментов. Впрочем, областей применения куда больше — даже обычный поиск онлайн задействует системы AI. Компьютерное зрение активно применяется во множестве областей, где нужно определять тот или иной объект по фотографии без вмешательства человека (как на ряде камер, штрафующих за превышение скорости).

Вторая возможная специализация data scientist — разработчик в области машинного обучения. Здесь вовлечены и другие методы обучения (не многослойные), а основной упор сделан на отработке создания крупных информационных систем.

Третья специализация — инженер в области big data (big data engineer). Углубленное изучение именно этой области должно, как и у остальных выбравших специализацию, закончиться выпускным проектом.

Интересно, что в конце учебного курса skillfactory.ru гарантирует трудоустройство, причем настаивает на том, что даже специалист без опыта, окончив курс, сможет начать зарабатывать по 120 тысяч рублей в месяц. Откуда такая уверенность?

Как ни странно, дело опять в цифрах: вакансий в области data science за последние три года стало больше в 5,33 раза. Data scientist интересуются буквально все: медицине они нужны, чтобы быстро диагностировать сложные заболевания (уже не одна модель определяет наличие коронавирусной инфекции по КТ-снимкам и результатам анализов, дублируя усилия врача и зачастую поправляя его). В торговле обработка данных необходима для выявления оптимальной целевой аудитории, в образовании — чтобы понять, почему одни студенты учатся лучше других и что требуется сделать, чтобы остальные тоже получили шанс на высшую оценку.

Спрос в этой области превышает предложение настолько, что в ближайшее время его действительно будет непросто покрыть. Не зря Harvard Business Review называет data scientist «самой желанной профессией XXI века». Поэтому skillfactory.ru не слишком рискует, делая такие авансы своим будущим data scientist.

Специалист по данным сочетает в себе знания трех разных областей: математики, статистики и умения строить алгоритмы, из сферы разработки ПО. Также он должен уметь подать полученные им результаты в удобном для понимания виде / ©datascience.org.ua

Разумеется, анализ данных не исчерпывается одним data science. Есть еще data analyst — которых, кстати, тоже готовят на skillfactory.ru. Их задачи несколько более общие: они автоматизируют обработку данных, выстраивают сквозную бизнес-аналитику, на основе которой составляют рекомендации, например, по изменению стратегии рекламных кампаний (если кластеризация клиентов по группам показала, что текущий формат такой кампании неактуален).

Подведем итог. На сегодня data scientist — профессия, находящаяся в таком же положении, что и программист десяток-другой лет назад. Кризис предложения привел к тому, что в профессию смогли прийти много людей, не получавших образование по этой специальности в вузе, а решивших начать с освоения практических навыков в нескольких наиболее востребованных областях. В итоге многие из них прижились в индустрии и давно стали для нее привычными.

Data scientist на сегодня — такая же профессия с явным кризисом предложения. Специалистов здесь не хватает, и это дает шанс пробиться в востребованную область, даже если вы новичок.

Ссылки на курсы

Курс Data Scientist.

Курс Data Analyst.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
12 августа
48 минут
Александр Березин

В России впервые в мире зарегистрировали вакцину от коронавируса, но, кажется, этому никто не рад. Многие пишут, что так быстро медицинские средства выпускать нельзя, ведь они не успеют пройти все проверки. Другие оценивают это как «масштабный эксперимент на людях». Утверждается, что еще до третьей фазы клинических испытаний «Спутник-V » введут миллионам российских граждан — в ближайший месяц. Сообщают, что у новой вакцины много побочных реакций, а вот защитных антител она якобы дает мало. Каждый из этих тезисов в той или иной степени неверен. Впрочем, это вовсе не значит, что вакцина обязательно работает. Попробуем разобраться, как все обстоит на самом деле.

Вчера, 21:27
10 минут
Мария Азарова

Оказывается, парейдолия — это подарок эволюции, уверены авторы новой работы.

Вчера, 13:59
4 минуты
Денис Гордеев

Скорость скачивания в бета-версии «интернета от Илона Маска» колебалась от 35,5 до 60,2 Мбит/с.

12 августа
48 минут
Александр Березин

В России впервые в мире зарегистрировали вакцину от коронавируса, но, кажется, этому никто не рад. Многие пишут, что так быстро медицинские средства выпускать нельзя, ведь они не успеют пройти все проверки. Другие оценивают это как «масштабный эксперимент на людях». Утверждается, что еще до третьей фазы клинических испытаний «Спутник-V » введут миллионам российских граждан — в ближайший месяц. Сообщают, что у новой вакцины много побочных реакций, а вот защитных антител она якобы дает мало. Каждый из этих тезисов в той или иной степени неверен. Впрочем, это вовсе не значит, что вакцина обязательно работает. Попробуем разобраться, как все обстоит на самом деле.

11 августа
12 минут
Мария Азарова

Президент подчеркнул, что препарат, созданный российскими специалистами, успешно прошел все этапы испытаний и доказал свою эффективность в борьбе с вирусом.

10 августа
9 минут
Мария Азарова

Будут ли в России осенью вновь вводить ограничения по Covid-19? Есть ли люди, перенесшие коронавирус, но организм которых почему-то не выработал антитела? На эти и многие другие вопросы попытался ответить российский ученый-медик Арег Тотолян.

12 августа
48 минут
Александр Березин

В России впервые в мире зарегистрировали вакцину от коронавируса, но, кажется, этому никто не рад. Многие пишут, что так быстро медицинские средства выпускать нельзя, ведь они не успеют пройти все проверки. Другие оценивают это как «масштабный эксперимент на людях». Утверждается, что еще до третьей фазы клинических испытаний «Спутник-V » введут миллионам российских граждан — в ближайший месяц. Сообщают, что у новой вакцины много побочных реакций, а вот защитных антител она якобы дает мало. Каждый из этих тезисов в той или иной степени неверен. Впрочем, это вовсе не значит, что вакцина обязательно работает. Попробуем разобраться, как все обстоит на самом деле.

22 июля
66 минут
Александр Березин

С 2064 года численность людей начнет сокращаться — и этот процесс может быть необратим. Один из авторов соответствующей научной работы прямо указывает: если ничего не изменится, через несколько веков человечество вымрет. Однако есть вещи и похуже вымирания. Куда вероятнее иной сценарий: мир будет заселен теми, кто сможет размножаться в новых культурных условиях. К сожалению, значительная часть современных европейцев, американцев и, возможно, других народов будут вытеснены с первых страниц истории. Вдобавок те, кто победят в этой непростой борьбе, нам, сегодняшнему населению Земли, могут сильно не понравиться. Попробуем разобраться почему.

31 июля
9 минут
Sergei Sobol

Сейчас, когда многие вокруг задумываются, а не попробовать ли что-то новое и не сменить ли профессию, программирование точно одно из тех направлений, к которому стоит присмотреться. Может, вы об этом уже думали?

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: