• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
Партнерский материал

Кто такой data scientist и почему он зарабатывает так много

Из академической дисциплины прошлых лет наука о данных на наших глазах превратилась в огромную практическую сферу деятельности. Каждый год ей нужно все больше специалистов. Причем, как это было когда-то с программированием, оказалось, что зачастую человек может преуспеть в дата-сайнс без длительного обучения в вузе — с помощью курсов, ориентированных на решение практических задач. Пробуем разобраться почему.
Число специалистов в этой области растет быстро, но куда быстрее растет спрос на них / ©simplilearn.com

Само направление работы с данными развивалось десятки лет: data science как явление введено в научный оборот с 1974 года Петером Науром. С самого начала ее определили как науку, изучающую цифровые данные. В начале XXI века стало ясно, что data science — область, где извлекают знания из больших наборов данных. Чтобы сделать это, она использует математику и статистику, а чтобы создать реально работающий инструмент быстрого поиска и анализа в базах — часть навыков программистов.

Возможность корректно предложить практическое приложение для найденных закономерностей означает и необходимость разбираться в бизнес-процессах. А чтобы наглядно визуализировать результаты исследования и сделать их доступными для заказчика, потребуются навыки визуального предоставления информации.

Из этого видно: data scientist должен объединять навыки из разных областей, а не быть «узким» академическим специалистом. Следовательно, в профессию могут прийти не только люди, обучавшиеся ей в вузе, но и те, кто когда-то занимался программированием, бизнес-аналитикой и рядом других специальностей. Более того, в силу новизны сектора в нем есть место и для тех, кто полный новичок в каждой из этих дисциплин.

Годится для новичков?

Да, как ни странно, чтобы стать таким специалистом, не обязательно иметь опыт разработки программного обеспечения, работы с базами данных и статистикой. Не нужно быть экспертом в области машинного обучения и визуализации данных. Не требуется даже разбираться в особенностях всех тех отраслей, данные из которых вы анализируете. На практике важно не то, как много вы знаете, а насколько быстро осваиваете нужные конкретные навыки. О чем идет речь?

Петер Наур, автор термина data science / ©Wikimedia Commons

Если внимательно прочитать описание должностных обязанностей на вакансиях data scientist, окажется, что от вас требуют знания нескольких стандартных профессиональных инструментов.

Во-первых, чтобы вести статистическую обработку данных, вам нужно получить базовые навыки программирования на Python. Откроем учебную программу для data scientist на skillfactory.ru — с него начинается типовая программа обучения.

Во-вторых, потребуется овладеть языком запросов для работы с базами данных, чаще всего — SQL. Опять же, он входит в программу первого семестра. В-третьих, вам придется начать разбираться в математической статистике.

Если все эти слова кажутся сложными, то напрасно. В курсе обучения все разбито на простые шаги с практической ориентацией. Уже первое задание заключается в том, чтобы «вытащить» с GitHub — крупнейшего веб-сервиса для хостинга IT-проектов и их совместной разработки — данные о том, какие разработчики проектов в чем сильны, использовав сайт как сервис профессиональных портфолио, примеров удачно выполненных проектов.

Машинное обучение: не важно почему, важен результат

Если первый семестр обучения дает базовые навыки, то второй начинает напрямую работать с машинным обучением на большой выборке данных. Машинное обучение берет большую выборку данных и пытается выявить в них некие закономерности. Например, банки имеют огромные базы по людям, взявшим у них кредит. В них содержится не только доход этого человека, но и его возраст, сфера работы и целый ряд иных сведений.

Традиционно банки методом проб и ошибок подбирали сборники формальных указаний: если клиент сантехник, то вероятность невыплаты им кредита такая-то, а если владелец кафе — такая-то. Автоматически обработав большой массив банковских данных, можно увидеть неочевидную закономерность невозврата кредита: например, люди, начавшие работать автомеханиками, до какого-то года будут возвращать кредиты с большей вероятностью, а после — с меньшей.

Сама причинно-следственная связь здесь может быть любой: например, более опытный механик получает больше. Но выявить все такие закономерности не сможет ни один банковский работник — а вот data scientist это под силу. Особенность данной отрасли знаний как раз в том, что она работает именно с чистыми цифровыми данными, а не с лежащими в их основе сложными цепочками причин и следствий. Это позволяет намного быстрее находить решения проблем: скажем, точно определять, какому заемщику и на какой сумме стоит сказать «нет».

В этом конкретном задании важно не то, почему тот или иной заемщик не вернет деньги, — важно, насколько результативным будет конкретное предсказание, сделанное data scientist.

Разумеется, примеров такого рода в учебной программе много. Один из первых самостоятельных проектов там — создание модели, прогнозирующей стоимость автомобиля в зависимости от самых разных его параметров. Чтобы сделать рабочую модель, придется собрать данные из открытых источников в один набор (дата-сет), а затем произвести его анализ и выбрать ключевые параметры модели, которую вы будете строить. Выбор конкретных инструментов машинного обучения также придется сделать вам — и здесь появляется свободное место для маневра, позволяющего показать свои способности.

Специализация: искусственный интеллект, big data и разработчик машинного обучения

Хотя общие навыки data scientist достаточно схожи для всех направлений, на третьем семестре придется сделать выбор в пользу окончательной специализации.

Первый открывающийся путь — разработчик AI (искусственного интеллекта). Для него максимально важно разобраться в глубоком обучении (deep learning). Это разновидность машинного обучения, в которой есть сразу много слоев, каждый из которых получает из входящих данных набор признаков. Каждый следующий слой получает на входе выходные данные предыдущего слоя. Признаки более высокого уровня — производные от признаков более низкого. Тесно связано с глубоким обучением и применение нейронных сетей — систем из взаимодействующих между собой простых процессоров (искусственных аналогов нейронов).

Сегодня именно на этих навыках базируются основные достижения AI — от компьютерного зрения, используемого в автопилотах Tesla, до систем искусственного интеллекта, облегчающих банкам отбор надежных заемщиков или наименее рискованных финансовых инструментов. Впрочем, областей применения куда больше — даже обычный поиск онлайн задействует системы AI. Компьютерное зрение активно применяется во множестве областей, где нужно определять тот или иной объект по фотографии без вмешательства человека (как на ряде камер, штрафующих за превышение скорости).

Вторая возможная специализация data scientist — разработчик в области машинного обучения. Здесь вовлечены и другие методы обучения (не многослойные), а основной упор сделан на отработке создания крупных информационных систем.

Третья специализация — инженер в области big data (big data engineer). Углубленное изучение именно этой области должно, как и у остальных выбравших специализацию, закончиться выпускным проектом.

Интересно, что в конце учебного курса skillfactory.ru гарантирует трудоустройство, причем настаивает на том, что даже специалист без опыта, окончив курс, сможет начать зарабатывать по 120 тысяч рублей в месяц. Откуда такая уверенность?

Как ни странно, дело опять в цифрах: вакансий в области data science за последние три года стало больше в 5,33 раза. Data scientist интересуются буквально все: медицине они нужны, чтобы быстро диагностировать сложные заболевания (уже не одна модель определяет наличие коронавирусной инфекции по КТ-снимкам и результатам анализов, дублируя усилия врача и зачастую поправляя его). В торговле обработка данных необходима для выявления оптимальной целевой аудитории, в образовании — чтобы понять, почему одни студенты учатся лучше других и что требуется сделать, чтобы остальные тоже получили шанс на высшую оценку.

Спрос в этой области превышает предложение настолько, что в ближайшее время его действительно будет непросто покрыть. Не зря Harvard Business Review называет data scientist «самой желанной профессией XXI века». Поэтому skillfactory.ru не слишком рискует, делая такие авансы своим будущим data scientist.

Специалист по данным сочетает в себе знания трех разных областей: математики, статистики и умения строить алгоритмы, из сферы разработки ПО. Также он должен уметь подать полученные им результаты в удобном для понимания виде / ©datascience.org.ua

Разумеется, анализ данных не исчерпывается одним data science. Есть еще data analyst — которых, кстати, тоже готовят на skillfactory.ru. Их задачи несколько более общие: они автоматизируют обработку данных, выстраивают сквозную бизнес-аналитику, на основе которой составляют рекомендации, например, по изменению стратегии рекламных кампаний (если кластеризация клиентов по группам показала, что текущий формат такой кампании неактуален).

Подведем итог. На сегодня data scientist — профессия, находящаяся в таком же положении, что и программист десяток-другой лет назад. Кризис предложения привел к тому, что в профессию смогли прийти много людей, не получавших образование по этой специальности в вузе, а решивших начать с освоения практических навыков в нескольких наиболее востребованных областях. В итоге многие из них прижились в индустрии и давно стали для нее привычными.

Data scientist на сегодня — такая же профессия с явным кризисом предложения. Специалистов здесь не хватает, и это дает шанс пробиться в востребованную область, даже если вы новичок.

Ссылки на курсы

Курс Data Scientist.

Курс Data Analyst.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
20 ноября
Березин Александр

Несмотря на отмену попытки «экономичной» ловли первой ступени, шестой испытательный полет Starship был успешным. Корабль — вторая ступень системы впервые продемонстрировала возможность маневра на орбите. Первая ступень после приводнения неожиданно для всех смогла пережить два взрыва, не утратив плавучесть. Среди наблюдавших за испытанием был Дональд Трамп.

Позавчера, 17:55
Наталия Лескова

Зачем нужно изучать ядра планет? Как зарождалась эта наука и почему она важна? Что такое гамма-всплески и зачем нам знать, откуда они идут? Остается ли Россия великой космической державой и зачем вообще это всё надо? Об этом рассказывает Игорь Георгиевич Митрофанов, руководитель отдела ядерной планетологии Института космических исследований РАН, доктор физико-математических наук, академик Международной академии астронавтики.

Позавчера, 11:06
Evgenia

Китайские исследователи удерживали изотоп иттербия-173 в состоянии «кота Шредингера» более 20 минут. Эта работа приблизила точность измерений фазового сдвига квантовой системы к теоретически возможному пределу.

16 ноября
Evgenia

Международная коллаборация физиков под руководством ученых из Йельского университета в США представила самые убедительные на сегодня подтверждения существования нового типа сверхпроводящих материалов. Доказательство существования нематической фазы вещества — научный прорыв, открывающий путь к созданию сверхпроводимости совершенно новым способом.

19 ноября
Андрей

Американские ученые проанализировали данные о поедании фекалий животными, чтобы выяснить, какие причины стоят за этим поведением и какие закономерности можно проследить. В результате они разделили всю выборку более чем из 150 видов на семь категорий по тому, что заставляет зверей питаться таким сомнительным продуктом.

18 ноября
Юлия Трепалина

Работать под началом шефа-абьюзера тяжело, но свежее исследование показало, что бывают варианты похуже. Ученые выяснили, что еще негативнее на моральный дух и производительность труда сотрудников влияет, когда во главе команды стоит самодур, у которого вспышки агрессии непредсказуемо сменяются этичным поведением.

30 октября
Елизавета Александрова

Под рыжим верхним слоем с виду обычного камня открылся целый калейдоскоп довольно неожиданных оттенков. Это особенно интересно с учетом того, где лежит камень — в марсианском кратере, который по всем признакам когда-то был озером.

16 ноября
Evgenia

Международная коллаборация физиков под руководством ученых из Йельского университета в США представила самые убедительные на сегодня подтверждения существования нового типа сверхпроводящих материалов. Доказательство существования нематической фазы вещества — научный прорыв, открывающий путь к созданию сверхпроводимости совершенно новым способом.

31 октября
Татьяна

Органические молекулы с пи-связью образуют очень устойчивые геометрии, которые не любят нарушаться. В 1924 году немецкий химик Юлиус Бредт сформулировал соответствующий запрет, вошедший в учебники химии. Тем не менее это в некоторых случаях возможно. В новой работе американские исследователи представили несколько «антибредтовских» соединений из класса олефинов.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно