• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
Партнерский материал

Кто такой data scientist и почему он зарабатывает так много

Из академической дисциплины прошлых лет наука о данных на наших глазах превратилась в огромную практическую сферу деятельности. Каждый год ей нужно все больше специалистов. Причем, как это было когда-то с программированием, оказалось, что зачастую человек может преуспеть в дата-сайнс без длительного обучения в вузе — с помощью курсов, ориентированных на решение практических задач. Пробуем разобраться почему.
Число специалистов в этой области растет быстро, но куда быстрее растет спрос на них / ©simplilearn.com

Само направление работы с данными развивалось десятки лет: data science как явление введено в научный оборот с 1974 года Петером Науром. С самого начала ее определили как науку, изучающую цифровые данные. В начале XXI века стало ясно, что data science — область, где извлекают знания из больших наборов данных. Чтобы сделать это, она использует математику и статистику, а чтобы создать реально работающий инструмент быстрого поиска и анализа в базах — часть навыков программистов.

Возможность корректно предложить практическое приложение для найденных закономерностей означает и необходимость разбираться в бизнес-процессах. А чтобы наглядно визуализировать результаты исследования и сделать их доступными для заказчика, потребуются навыки визуального предоставления информации.

Из этого видно: data scientist должен объединять навыки из разных областей, а не быть «узким» академическим специалистом. Следовательно, в профессию могут прийти не только люди, обучавшиеся ей в вузе, но и те, кто когда-то занимался программированием, бизнес-аналитикой и рядом других специальностей. Более того, в силу новизны сектора в нем есть место и для тех, кто полный новичок в каждой из этих дисциплин.

Годится для новичков?

Да, как ни странно, чтобы стать таким специалистом, не обязательно иметь опыт разработки программного обеспечения, работы с базами данных и статистикой. Не нужно быть экспертом в области машинного обучения и визуализации данных. Не требуется даже разбираться в особенностях всех тех отраслей, данные из которых вы анализируете. На практике важно не то, как много вы знаете, а насколько быстро осваиваете нужные конкретные навыки. О чем идет речь?

Петер Наур, автор термина data science / ©Wikimedia Commons

Если внимательно прочитать описание должностных обязанностей на вакансиях data scientist, окажется, что от вас требуют знания нескольких стандартных профессиональных инструментов.

Во-первых, чтобы вести статистическую обработку данных, вам нужно получить базовые навыки программирования на Python. Откроем учебную программу для data scientist на skillfactory.ru — с него начинается типовая программа обучения.

Во-вторых, потребуется овладеть языком запросов для работы с базами данных, чаще всего — SQL. Опять же, он входит в программу первого семестра. В-третьих, вам придется начать разбираться в математической статистике.

Если все эти слова кажутся сложными, то напрасно. В курсе обучения все разбито на простые шаги с практической ориентацией. Уже первое задание заключается в том, чтобы «вытащить» с GitHub — крупнейшего веб-сервиса для хостинга IT-проектов и их совместной разработки — данные о том, какие разработчики проектов в чем сильны, использовав сайт как сервис профессиональных портфолио, примеров удачно выполненных проектов.

Машинное обучение: не важно почему, важен результат

Если первый семестр обучения дает базовые навыки, то второй начинает напрямую работать с машинным обучением на большой выборке данных. Машинное обучение берет большую выборку данных и пытается выявить в них некие закономерности. Например, банки имеют огромные базы по людям, взявшим у них кредит. В них содержится не только доход этого человека, но и его возраст, сфера работы и целый ряд иных сведений.

Традиционно банки методом проб и ошибок подбирали сборники формальных указаний: если клиент сантехник, то вероятность невыплаты им кредита такая-то, а если владелец кафе — такая-то. Автоматически обработав большой массив банковских данных, можно увидеть неочевидную закономерность невозврата кредита: например, люди, начавшие работать автомеханиками, до какого-то года будут возвращать кредиты с большей вероятностью, а после — с меньшей.

Сама причинно-следственная связь здесь может быть любой: например, более опытный механик получает больше. Но выявить все такие закономерности не сможет ни один банковский работник — а вот data scientist это под силу. Особенность данной отрасли знаний как раз в том, что она работает именно с чистыми цифровыми данными, а не с лежащими в их основе сложными цепочками причин и следствий. Это позволяет намного быстрее находить решения проблем: скажем, точно определять, какому заемщику и на какой сумме стоит сказать «нет».

В этом конкретном задании важно не то, почему тот или иной заемщик не вернет деньги, — важно, насколько результативным будет конкретное предсказание, сделанное data scientist.

Разумеется, примеров такого рода в учебной программе много. Один из первых самостоятельных проектов там — создание модели, прогнозирующей стоимость автомобиля в зависимости от самых разных его параметров. Чтобы сделать рабочую модель, придется собрать данные из открытых источников в один набор (дата-сет), а затем произвести его анализ и выбрать ключевые параметры модели, которую вы будете строить. Выбор конкретных инструментов машинного обучения также придется сделать вам — и здесь появляется свободное место для маневра, позволяющего показать свои способности.

Специализация: искусственный интеллект, big data и разработчик машинного обучения

Хотя общие навыки data scientist достаточно схожи для всех направлений, на третьем семестре придется сделать выбор в пользу окончательной специализации.

Первый открывающийся путь — разработчик AI (искусственного интеллекта). Для него максимально важно разобраться в глубоком обучении (deep learning). Это разновидность машинного обучения, в которой есть сразу много слоев, каждый из которых получает из входящих данных набор признаков. Каждый следующий слой получает на входе выходные данные предыдущего слоя. Признаки более высокого уровня — производные от признаков более низкого. Тесно связано с глубоким обучением и применение нейронных сетей — систем из взаимодействующих между собой простых процессоров (искусственных аналогов нейронов).

Сегодня именно на этих навыках базируются основные достижения AI — от компьютерного зрения, используемого в автопилотах Tesla, до систем искусственного интеллекта, облегчающих банкам отбор надежных заемщиков или наименее рискованных финансовых инструментов. Впрочем, областей применения куда больше — даже обычный поиск онлайн задействует системы AI. Компьютерное зрение активно применяется во множестве областей, где нужно определять тот или иной объект по фотографии без вмешательства человека (как на ряде камер, штрафующих за превышение скорости).

Вторая возможная специализация data scientist — разработчик в области машинного обучения. Здесь вовлечены и другие методы обучения (не многослойные), а основной упор сделан на отработке создания крупных информационных систем.

Третья специализация — инженер в области big data (big data engineer). Углубленное изучение именно этой области должно, как и у остальных выбравших специализацию, закончиться выпускным проектом.

Интересно, что в конце учебного курса skillfactory.ru гарантирует трудоустройство, причем настаивает на том, что даже специалист без опыта, окончив курс, сможет начать зарабатывать по 120 тысяч рублей в месяц. Откуда такая уверенность?

Как ни странно, дело опять в цифрах: вакансий в области data science за последние три года стало больше в 5,33 раза. Data scientist интересуются буквально все: медицине они нужны, чтобы быстро диагностировать сложные заболевания (уже не одна модель определяет наличие коронавирусной инфекции по КТ-снимкам и результатам анализов, дублируя усилия врача и зачастую поправляя его). В торговле обработка данных необходима для выявления оптимальной целевой аудитории, в образовании — чтобы понять, почему одни студенты учатся лучше других и что требуется сделать, чтобы остальные тоже получили шанс на высшую оценку.

Спрос в этой области превышает предложение настолько, что в ближайшее время его действительно будет непросто покрыть. Не зря Harvard Business Review называет data scientist «самой желанной профессией XXI века». Поэтому skillfactory.ru не слишком рискует, делая такие авансы своим будущим data scientist.

Специалист по данным сочетает в себе знания трех разных областей: математики, статистики и умения строить алгоритмы, из сферы разработки ПО. Также он должен уметь подать полученные им результаты в удобном для понимания виде / ©datascience.org.ua

Разумеется, анализ данных не исчерпывается одним data science. Есть еще data analyst — которых, кстати, тоже готовят на skillfactory.ru. Их задачи несколько более общие: они автоматизируют обработку данных, выстраивают сквозную бизнес-аналитику, на основе которой составляют рекомендации, например, по изменению стратегии рекламных кампаний (если кластеризация клиентов по группам показала, что текущий формат такой кампании неактуален).

Подведем итог. На сегодня data scientist — профессия, находящаяся в таком же положении, что и программист десяток-другой лет назад. Кризис предложения привел к тому, что в профессию смогли прийти много людей, не получавших образование по этой специальности в вузе, а решивших начать с освоения практических навыков в нескольких наиболее востребованных областях. В итоге многие из них прижились в индустрии и давно стали для нее привычными.

Data scientist на сегодня — такая же профессия с явным кризисом предложения. Специалистов здесь не хватает, и это дает шанс пробиться в востребованную область, даже если вы новичок.

Ссылки на курсы

Курс Data Scientist.

Курс Data Analyst.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 13:46
ПНИПУ

Согласно планам России по развитию авиастроения, к 2030 году будет произведено свыше тысячи отечественных самолетов. Перед промышленными предприятиями сейчас стоит масштабная задача — ускорить цикл проектирования, производства и сервиса авиационных двигателей. Во время их сборки могут возникать дефекты, которые тормозят процесс и снижают показатели эффективности. Один из наиболее распространенных дефектов — дисбаланс ротора, основной части турбины двигателя. Он приводит к повышению нагрузки, меняет режим работы и ускоряет разрушение двигателя. Ученые ПНИПУ предложили минимизировать начальный дисбаланс ротора с помощью выбранного метода сборки, а остаточный дисбаланс — балансировкой.

Позавчера, 19:10
Дарья Губина

В 2022 году зонд DART столкнулся с Диморфом, спутником астероида Дидим. Ученые хотели проверить, можно ли сбить с траектории небольшое, но потенциально опасное для нашей жизни космическое тело. Оказалось, DART не только изменил орбиту маленького объекта, но и полностью его «переворошил».

Вчера, 15:20
Полина

Дети, которые родились в одноязычных и многоязычных семьях, по-разному воспринимают речь. Это подтвердила спектроскопия.

Позавчера, 19:10
Дарья Губина

В 2022 году зонд DART столкнулся с Диморфом, спутником астероида Дидим. Ученые хотели проверить, можно ли сбить с траектории небольшое, но потенциально опасное для нашей жизни космическое тело. Оказалось, DART не только изменил орбиту маленького объекта, но и полностью его «переворошил».

Позавчера, 15:00
Юлия Трепалина

Немецкие ученые рассказали о преимуществах новой технологии промышленного производства яблочного сока — с помощью метода спирального пресса с фильтрацией (spiral filter press). Исследователи установили, что он позволяет в четыре раза увеличить содержание в соке полезных для здоровья веществ по сравнению с более традиционным способом отжима.

25 февраля
Руслан Руслан

Компания Neuralink, при помощи которой предприниматель Илон Маск надеется совершить революцию в интерфейсах «мозг-компьютер» (BCI), впервые имплантировала человеку устройство «чтения мыслей». Об этом Маск сообщил в твите, опубликованном 29 января. Однако, некоторые обеспокоены отсутствием прозрачности вокруг имплантата, который должен дать возможность управлять устройствами посредством мысли. Реакции ученых и экспертов на это событие обобщает медиа-редакция Nature, а Naked Science приводит перевод этой статьи.

20 февраля
Полина

В Российской академии наук завершили первый Большой словарь ударений, его издадут к концу года. Лингвисты собрали наиболее современные нормы произношения привычных слов и зафиксировали ударение для лексики, которая появилась в русском языке недавно.

1 февраля
Андрей

Канадские исследователи изучили состав пород, вышедших на поверхность при появлении первых континентов. По итогам анализа выяснилось, что новая земная кора возникла не в результате движения тектонических плит, а из-за процессов в океанических плато молодой Земли.

22 февраля
РНФ

Ученые показали, что экстремальный подъем уровня Каспийского моря на десятки метров, произошедший 18-13 тысяч лет назад и получивший название «Великая Хвалынская трансгрессия», мог быть вызван, вопреки существующим гипотезам, не таянием ледника, а естественными изменениями палеоклимата. Оказалось, что из-за холодного климата того периода обширные территории, с которых собирали воду впадающие в Каспий реки, были покрыты многолетней мерзлотой. В результате массы дождевых и талых вод почти не впитывались в мерзлые грунты и стекали в море, испарение с поверхности которого было небольшим. Все эти факторы привели к повышению уровня Каспия и увеличению площади моря более чем вдвое по сравнению с современным. Полученные данные помогут уточнить представления о масштабе колебаний уровня Каспийского моря при изменении климата.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: