• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
Партнерский материал

Кто такой data scientist и почему он зарабатывает так много

Из академической дисциплины прошлых лет наука о данных на наших глазах превратилась в огромную практическую сферу деятельности. Каждый год ей нужно все больше специалистов. Причем, как это было когда-то с программированием, оказалось, что зачастую человек может преуспеть в дата-сайнс без длительного обучения в вузе — с помощью курсов, ориентированных на решение практических задач. Пробуем разобраться почему.
Число специалистов в этой области растет быстро, но куда быстрее растет спрос на них / ©simplilearn.com

Само направление работы с данными развивалось десятки лет: data science как явление введено в научный оборот с 1974 года Петером Науром. С самого начала ее определили как науку, изучающую цифровые данные. В начале XXI века стало ясно, что data science — область, где извлекают знания из больших наборов данных. Чтобы сделать это, она использует математику и статистику, а чтобы создать реально работающий инструмент быстрого поиска и анализа в базах — часть навыков программистов.

Возможность корректно предложить практическое приложение для найденных закономерностей означает и необходимость разбираться в бизнес-процессах. А чтобы наглядно визуализировать результаты исследования и сделать их доступными для заказчика, потребуются навыки визуального предоставления информации.

Из этого видно: data scientist должен объединять навыки из разных областей, а не быть «узким» академическим специалистом. Следовательно, в профессию могут прийти не только люди, обучавшиеся ей в вузе, но и те, кто когда-то занимался программированием, бизнес-аналитикой и рядом других специальностей. Более того, в силу новизны сектора в нем есть место и для тех, кто полный новичок в каждой из этих дисциплин.

Годится для новичков?

Да, как ни странно, чтобы стать таким специалистом, не обязательно иметь опыт разработки программного обеспечения, работы с базами данных и статистикой. Не нужно быть экспертом в области машинного обучения и визуализации данных. Не требуется даже разбираться в особенностях всех тех отраслей, данные из которых вы анализируете. На практике важно не то, как много вы знаете, а насколько быстро осваиваете нужные конкретные навыки. О чем идет речь?

Петер Наур, автор термина data science / ©Wikimedia Commons

Если внимательно прочитать описание должностных обязанностей на вакансиях data scientist, окажется, что от вас требуют знания нескольких стандартных профессиональных инструментов.

Во-первых, чтобы вести статистическую обработку данных, вам нужно получить базовые навыки программирования на Python. Откроем учебную программу для data scientist на skillfactory.ru — с него начинается типовая программа обучения.

Во-вторых, потребуется овладеть языком запросов для работы с базами данных, чаще всего — SQL. Опять же, он входит в программу первого семестра. В-третьих, вам придется начать разбираться в математической статистике.

Если все эти слова кажутся сложными, то напрасно. В курсе обучения все разбито на простые шаги с практической ориентацией. Уже первое задание заключается в том, чтобы «вытащить» с GitHub — крупнейшего веб-сервиса для хостинга IT-проектов и их совместной разработки — данные о том, какие разработчики проектов в чем сильны, использовав сайт как сервис профессиональных портфолио, примеров удачно выполненных проектов.

Машинное обучение: не важно почему, важен результат

Если первый семестр обучения дает базовые навыки, то второй начинает напрямую работать с машинным обучением на большой выборке данных. Машинное обучение берет большую выборку данных и пытается выявить в них некие закономерности. Например, банки имеют огромные базы по людям, взявшим у них кредит. В них содержится не только доход этого человека, но и его возраст, сфера работы и целый ряд иных сведений.

Традиционно банки методом проб и ошибок подбирали сборники формальных указаний: если клиент сантехник, то вероятность невыплаты им кредита такая-то, а если владелец кафе — такая-то. Автоматически обработав большой массив банковских данных, можно увидеть неочевидную закономерность невозврата кредита: например, люди, начавшие работать автомеханиками, до какого-то года будут возвращать кредиты с большей вероятностью, а после — с меньшей.

Сама причинно-следственная связь здесь может быть любой: например, более опытный механик получает больше. Но выявить все такие закономерности не сможет ни один банковский работник — а вот data scientist это под силу. Особенность данной отрасли знаний как раз в том, что она работает именно с чистыми цифровыми данными, а не с лежащими в их основе сложными цепочками причин и следствий. Это позволяет намного быстрее находить решения проблем: скажем, точно определять, какому заемщику и на какой сумме стоит сказать «нет».

В этом конкретном задании важно не то, почему тот или иной заемщик не вернет деньги, — важно, насколько результативным будет конкретное предсказание, сделанное data scientist.

Разумеется, примеров такого рода в учебной программе много. Один из первых самостоятельных проектов там — создание модели, прогнозирующей стоимость автомобиля в зависимости от самых разных его параметров. Чтобы сделать рабочую модель, придется собрать данные из открытых источников в один набор (дата-сет), а затем произвести его анализ и выбрать ключевые параметры модели, которую вы будете строить. Выбор конкретных инструментов машинного обучения также придется сделать вам — и здесь появляется свободное место для маневра, позволяющего показать свои способности.

Специализация: искусственный интеллект, big data и разработчик машинного обучения

Хотя общие навыки data scientist достаточно схожи для всех направлений, на третьем семестре придется сделать выбор в пользу окончательной специализации.

Первый открывающийся путь — разработчик AI (искусственного интеллекта). Для него максимально важно разобраться в глубоком обучении (deep learning). Это разновидность машинного обучения, в которой есть сразу много слоев, каждый из которых получает из входящих данных набор признаков. Каждый следующий слой получает на входе выходные данные предыдущего слоя. Признаки более высокого уровня — производные от признаков более низкого. Тесно связано с глубоким обучением и применение нейронных сетей — систем из взаимодействующих между собой простых процессоров (искусственных аналогов нейронов).

Сегодня именно на этих навыках базируются основные достижения AI — от компьютерного зрения, используемого в автопилотах Tesla, до систем искусственного интеллекта, облегчающих банкам отбор надежных заемщиков или наименее рискованных финансовых инструментов. Впрочем, областей применения куда больше — даже обычный поиск онлайн задействует системы AI. Компьютерное зрение активно применяется во множестве областей, где нужно определять тот или иной объект по фотографии без вмешательства человека (как на ряде камер, штрафующих за превышение скорости).

Вторая возможная специализация data scientist — разработчик в области машинного обучения. Здесь вовлечены и другие методы обучения (не многослойные), а основной упор сделан на отработке создания крупных информационных систем.

Третья специализация — инженер в области big data (big data engineer). Углубленное изучение именно этой области должно, как и у остальных выбравших специализацию, закончиться выпускным проектом.

Интересно, что в конце учебного курса skillfactory.ru гарантирует трудоустройство, причем настаивает на том, что даже специалист без опыта, окончив курс, сможет начать зарабатывать по 120 тысяч рублей в месяц. Откуда такая уверенность?

Как ни странно, дело опять в цифрах: вакансий в области data science за последние три года стало больше в 5,33 раза. Data scientist интересуются буквально все: медицине они нужны, чтобы быстро диагностировать сложные заболевания (уже не одна модель определяет наличие коронавирусной инфекции по КТ-снимкам и результатам анализов, дублируя усилия врача и зачастую поправляя его). В торговле обработка данных необходима для выявления оптимальной целевой аудитории, в образовании — чтобы понять, почему одни студенты учатся лучше других и что требуется сделать, чтобы остальные тоже получили шанс на высшую оценку.

Спрос в этой области превышает предложение настолько, что в ближайшее время его действительно будет непросто покрыть. Не зря Harvard Business Review называет data scientist «самой желанной профессией XXI века». Поэтому skillfactory.ru не слишком рискует, делая такие авансы своим будущим data scientist.

Специалист по данным сочетает в себе знания трех разных областей: математики, статистики и умения строить алгоритмы, из сферы разработки ПО. Также он должен уметь подать полученные им результаты в удобном для понимания виде / ©datascience.org.ua

Разумеется, анализ данных не исчерпывается одним data science. Есть еще data analyst — которых, кстати, тоже готовят на skillfactory.ru. Их задачи несколько более общие: они автоматизируют обработку данных, выстраивают сквозную бизнес-аналитику, на основе которой составляют рекомендации, например, по изменению стратегии рекламных кампаний (если кластеризация клиентов по группам показала, что текущий формат такой кампании неактуален).

Подведем итог. На сегодня data scientist — профессия, находящаяся в таком же положении, что и программист десяток-другой лет назад. Кризис предложения привел к тому, что в профессию смогли прийти много людей, не получавших образование по этой специальности в вузе, а решивших начать с освоения практических навыков в нескольких наиболее востребованных областях. В итоге многие из них прижились в индустрии и давно стали для нее привычными.

Data scientist на сегодня — такая же профессия с явным кризисом предложения. Специалистов здесь не хватает, и это дает шанс пробиться в востребованную область, даже если вы новичок.

Ссылки на курсы

Курс Data Scientist.

Курс Data Analyst.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Вчера, 11:52
Игорь Байдов

Американская компания JetZero, которая обещает произвести фурор в гражданской авиации, получила сертификат летной годности на испытания уменьшенной копии разрабатываемого ею сверхэффективного реактивного авиалайнера со «смешанным крылом». Предстоящая программа летных испытаний будет направлена на оценку летно-технических характеристик самолета, его устойчивости и управляемости.

Вчера, 16:41
Василий Парфенов

Микроскопические животные тихоходки, известные как водяные медведи, славятся своей стойкостью к самым экстремальным условиям окружающей среды: их не могут гарантированно убить даже 10 дней в открытом космосе. Американские ученые смогли успешно воспроизвести один из механизмов рекордной выживаемости тихоходок в культуре человеческих клеток.

Вчера, 18:54
Александр Березин

На протяжении многих лет посадки деревьев позиционировали как средство борьбы с глобальным потеплением. Однако новое исследование показало существенно более сложную картину: похоже, лесопосадки в норме делают обратную работу, поднимая температуры. Причем в ближайшие десятки лет масштаб такого влияния будет довольно большим.

Вчера, 11:52
Игорь Байдов

Американская компания JetZero, которая обещает произвести фурор в гражданской авиации, получила сертификат летной годности на испытания уменьшенной копии разрабатываемого ею сверхэффективного реактивного авиалайнера со «смешанным крылом». Предстоящая программа летных испытаний будет направлена на оценку летно-технических характеристик самолета, его устойчивости и управляемости.

26 марта
Мария Азарова

Исследователи из Южной Кореи на примере супружеских пар проверили, как длина и состояние волос женщин отражаются на влечении к ним мужчин и частоте половых контактов.

Позавчера, 07:27
Полина

Международная команда исследователей проанализировала гены композитора Людвига ван Бетховена. Если оценивать по ним его способности к музыке, они окажутся невыдающимися.

11 марта
Игорь Байдов

Американская компания Stratolaunch сообщила об успешном завершении летных испытаний прототипа гиперзвукового аппарата Talon-A, оснащенного ракетным двигателем. Во время беспилотного полета планер развил сверхзвуковую скорость.

18 марта
Игорь Байдов

Грузовой самолет будут использовать для перевозки 90-метровых лопастей ветряных турбин, которые невозможно доставить по суше из-за размеров. Предполагается, что этот аппарат произведет революцию в сфере возобновляемых источников энергии.

13 марта
Алиса Гаджиева

Древние переселенцы из Анатолии не только устроили геноцид в Скандинавии, но и одарили выживших новыми болезнями.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: