Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

В мире появляется все больше новых профессий. Уже сегодня можно встретить биохакеров или дизайнеров виртуальной реальности. Еще одна перспективная область — наука о данных (Data Science). Чем занимается дата-сайентист и как им стать, рассказали в лаборатории Philips Research Lab Rus.

10.9K

Выбор редакции

Наш спикер — Андрей Поляков, научный сотрудник лаборатории Philips Research Lab Rus.

 

— Кто такой дата сайентист и в чем суть его работы?

 

— Это профессия, которая объединяет в себе черты математика, программиста, инженера и ученого. Суть его работы в том, чтобы научить компьютер решать задачи, с которыми ежедневно сталкиваются государство, бизнес или частные лица, причем от качества их решения зависит безопасность людей, прибыль компаний и даже удовлетворение от вечернего досуга.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

Представьте, что в стране есть несколько десятков международных аэропортов, каждый день в них прибывают сотни рейсов разных авиакомпаний. Сотни тысяч человек ежедневно пересекают границу.

 

Государству в лице его пограничной службы требуется решить, кого пускать в страну, а кого — нет. Оно заинтересовано в иностранных туристах, которые будут ходить по театрам, ресторанам и экскурсиям, но не хочет видеть у себя международных преступников или лиц, которые ранее нарушили местное законодательство.

 

Таким образом, государство должно решить, пускать человека в страну или нет на основании предъявляемого им паспорта и исторических данных о нем.

 

В качестве другого примера можно взять работу страховой компании. Для каждого клиента нужно оценить вероятность наступления страхового случая с последующим определением стоимости страховки исходя из самых разных данных о человеке: возрасте, текущем состоянии здоровья и наличии хронических заболеваний, образе жизни, вредных привычках, увлечениях экстремальными видами спорта, штрафах за нарушение правил дорожного движения и т. д.

 

Наконец, третий пример: мы пришли вечером с работы домой, решили разобрать личную почту и посмотреть какой-нибудь хороший фильм.

 

Вы обнаруживаете письмо от незнакомого отправителя. Спам это или нет? И как определить, какой фильм посмотреть сегодня вечером с девушкой? А какое вино лучше выбрать?

 

— Кейсы очень показательные и интересные, но при чем здесь дата-сайентисты?

 

— Эти примеры я привожу не просто так. Дата-сайентист нужен, чтобы научить компьютер решать все эти и многие другие задачи. И как только компьютер начинает выполнять такие процессы, дальше все происходит по принципу «вкалывают роботы — счастлив человек».

 

Он автоматически принимает решение о выдаче кредита, торгует на бирже, строит оптимальные маршруты, рекомендует фильмы и музыку, ориентируясь на предпочтения пользователя.

 

Но разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью данных и алгоритмов. В этом и состоит работа дата-сайентиста.

 

Усредненный портрет этого специалиста замечательно представлен в исследовании 360datascience. Согласно его результатам, дата-сайентист образца 2019 года — это молодой человек (в профессии 70 % мужчин и 30 % женщин) с высшим техническим образованием (кроме того, 30 % имеют ученую степень), у него уже есть за плечами два года опыта работы в роли дата-сайентиста и восемь лет общего трудового стажа.

 

Также он владеет как минимум двумя языками программирования и разговаривает на двух языках.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

— Какие задачи ставятся перед дата-сайентистами?

 

— Самые разные. Одно дело, когда у компании уже отлаженные процессы, готовые исторические данные и даже какой-то штатный работающий алгоритм. В этом случае от дата-сайентиста требуется, например, повысить точность распознавания или предсказания уже работающей системы.

 

Однако в современном мире дела обстоят совсем не так просто. И технологические гиганты, и стартапы работают в сфере инноваций. Это не только поле больших возможностей, но и больших рисков.

 

Процесс создания инноваций характеризуется высокой степенью неопределенности. Тут, как правило, нет ни готовых данных, ни алгоритмов, ни рецептов успеха. Есть лишь энтузиазм и сплошная неясность.

 

Соответственно, меняется и подход к тому, что должен знать и уметь дата-сайентист. Сегодня на Западе наряду с понятием data scientist появляется понятие Unicorn data scientist.

 

— Чем различаются эти специальности?

 

— Отличие этого «единорога» от обычного дата-сайентиста состоит в присутствии навыков бизнес-аналитика и инновационного предпринимательства.

 

Он отлично разбирается в предметной области и знает ее особенности, определяет и согласовывает технические требования, предъявляемые к алгоритму, выясняет (а часто и создает) бизнес-логику приложения, что требует понимания бизнес-процессов компании и умения находить общий язык с совершенно разными людьми, которые могут пребывать в разных точках нашей планеты: программистами, аналитиками, менеджерами, маркетологами, руководством и заказчиком.

 

Таким образом, помимо общей математической и технической грамотности, присущей дата-сайентисту, от «единорога» требуются такие качества, как креативность, проактивность, стратегическое мышление, умение доводить дело до конца.

 

В этой сфере очень важно доносить свои идеи и разговаривать по целому спектру вопросов проекта с разными специалистами именно на их языке — будь то ученый, маркетолог или программист.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

— В каких областях особенно востребована профессия дата-сайентиста?

 

— Сегодня для руководителей бизнеса очевидно, что машинное обучение — ключевой фактор успеха их организаций на рынке, поэтому сферы применения этой профессии постоянно расширяются. Приведу в пример наиболее популярные области.

 

Машинное обучение востребованно в сфере безопасности (контроль государственной границы, системы контроля управления доступом зданий и объектов, криминалистика).

 

Идем дальше — здравоохранение (предсказание и диагностика заболеваний, помощь врачу в планировании операций, выявление аномалий на МРТ/КТ снимках).

 

Еще пример — информационные технологии (аналитические системы, выявление мошеннических действий, интеллектуальные чат-боты, системы планирования ресурсов и интеллектуальный рекрутинг персонала) или в интернет-бизнесе (поисковые системы, разнообразные почтовые, погодные, контекстная реклама и другие сервисы, такси, персонализированные рекомендательные системы, фильтрация спама).

 

Банковская и финансовая сфера (управление рисками, алгоритмическая биржевая торговля, кредитование, страхование).

 

Дата-сайентисты полезны и в логистике (навигация, доставка, оптимизация товаров на складе, поиск оптимального маршрута, разработка беспилотных транспортных систем).

 

И в управлении взаимоотношений с клиентами (поиск и привлечение потенциальных клиентов, выявление трендов, создание персональных предложений), в образовании (создание разнообразных платформ для соревнований и хакатонов, онлайн-курсов по машинному обучению).

 

— Какой диапазон заработной платы в разных странах, которую получают эксперты по аналитическим данным?

 

— По версии Glassdoor профессия дата-сайентиста сейчас возглавляет рейтинг лучших вакансий 2019 года в США и занимает седьмую строчку этого же рейтинга для Великобритании.

 

Медианная заработная плата составляет 108 000 долларов для США, 42 000 фунтов для Великобритании и 52 000 евро для Германии.

 

Если говорить о США, в технологических гигантах средняя заработная плата может стартовать от 130 000 долларов в год для специалистов с небольшим опытом и доходить до 200 000 долларов для профессионалов с многолетним опытом. Зарплаты «единорогов» начинаются от 200 000 долларов в год.

 

Что касается других стран, то существует исследование BusinessBroadway на 2018 год. Согласно ему, самые высокие средние зарплаты дата-сайентистов в США (120 000 долларов), Австралии (110 000), Израиле (87500 долларов) и Канаде (81 339 долларов), а самые низкие — в Польше (29 000 долларов), на Украине (25 125 долларов), в Индии (14 058 долларов) и России (13 052 доллара).

 

— Какова специфика этой профессии в сфере здравоохранения?

 

— Сама работа в сфере здравоохранения подразумевает повышенную степень ответственности за здоровье и жизни людей. Поэтому самый первый аспект работы дата сайентиста в этой области — этический.

 

Люди хотят знать ответ на вопрос, можно ли вверять жизнь и здоровье человека в руки роботу. В этой сфере никто не ставит целью заменить врача машиной, речь идет о том, чтобы искусственный интеллект стал средством поддержки принятия решений.

 

Например, робот может предсказывать у пациента наличие определенных заболеваний по симптоматке и предлагать варианты лечения, но окончательный диагноз ставит врач и лечение назначает он же.

 

Второй аспект — это данные. Для решения задач прогнозирования и классификации требуется наличие по возможности полных, консистентных, репрезентативных, предварительно размеченных данных. Дело в том, что в здравоохранении и медицине их пока недостаточно.

 

Это связано с тем, что разметка данных должна производиться врачом, а сбор и обработка информации — систематически. Это очень трудоемкий, монотонный и дорогой процесс именно в силу того, что это делается вручную.

 

И пока ресурсов на это не хватает. Но даже если допустить, что мы создали очень хорошую базу данных, некоторые заболевания эволюционируют, да и для традиционных болезней характерна большая вариативность признаков.

 

Соответствующие базы данных требуется постоянно обновлять, ведь если компьютер никогда не видел какое-нибудь заболевание, он не сможет его распознать и предложить вариант лечения.

 

Но на этом пути встают еще и юридические вопросы: это и защита персональных данных пациента (например, проводится деперсонификация информации), и принадлежность прав на медицинские данные.

 

— Где можно получить образование, навыки и знания в этой области?

 

— Сейчас очень подходящее время для того, чтобы стать дата-сайентистом. Вычислительные ресурсы сегодня очень дешевы, а знания можно почерпнуть из разной специализированной литературы, специальных порталов, из открытых источников и онлайн-курсов, а также благодаря работе на программном обеспечении, которое позволяет создавать сложные нейросетевые архитектуры абсолютно бесплатно.

 

Все, что требуется от человека, который находится в начале своего карьерного пути, — это врожденное любопытство и желание и готовность постоянно учиться. Это качество, кстати, касается абсолютно всех дата-сайентистов — и начинающих, и опытных.

 

Сфера искусственного интеллекта в целом и машинного обучения в частности, сейчас очень быстро развивается, новые методы решения задач, библиотеки и инструменты появляются буквально каждый день, надо успевать следить хотя бы за основными изменениями.

 

Чтобы стать дата-сайентистом, в первую очередь стоит получить качественное высшее математическое или техническое образование. Это фундамент, необходимый для того, чтобы работать с данными, понимать, что говорят цифры в данных, как работают алгоритмы, что пишут коллеги в своих научных статьях, оценивать время работы и точность алгоритмов, проверять гипотезы и т. д.

 

В большинстве случаев дата сайентисты это изначально математики, представители естественных наук (физика, химия, биология), инженеры и экономисты.

 

Если говорить о России, прекрасное базовое профильное образование можно получить в МГУ (мехмат, ВМК, физфак), МФТИ, ВШЭ. Также программы подготовки специалистов по анализу данных и компьютерным наукам существуют в Физтехе, ВШЭ и Сколтехе.

 

— А где стоит учиться программированию и машинному обучению?

 

— Второй момент — программирование. Каждый дата-сайентист должен уметь быстро воплощать свои идеи в коде. Де-факто рабочими языками являются Python и R. Опционально дата-сайентисты владеют SQL, lMatlab, Octave, C/C++, Java.

 

Существует множество онлайн-платформ по обучению программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

 

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях (Kaggle) и хакатонах, которые проводятся разными компаниями при взаимодействии с академическими институтами.

 

В прошлом году подобное мероприятие организовали Philips и Сколтех, предоставив молодым ученым попробовать себя в поиске решений для лечения заболеваний нервной системы.

 

Кроме того, многие дата-сайентисты получали опыт программирования на предыдущих местах работы.

 

Третий момент — это собственно теория и практика машинного обучения. Здесь большой популярностью пользуются курсы по Machine Learning и Deep Learning на Coursera от Andrew Ng и курсы Стэнфордского университета.

 

Что касается очных курсов, то подготовкой дата-сайентистов занимаются, например, в "Яндексе" (Школа анализа данных) и компании Mail Group (Техносфера).

 

Профильная ученая степень крайне приветствуется работодателями, но не является обязательной: судя по тому, что число людей со степенью в отрасли практически не меняется из года в год, ее наличие не является необходимым условием для входа в профессию.

 

Однако получение ученой степени в области искусственного интеллекта в сильном университете можно рассматривать как конкурентное преимущество.

 

Дело в том, что в этом случае это не просто корочка, а доказательство того, что человек действительно является исследователем, самостоятельной «боевой единицей», способной не только грамотно применять существующие методы решения задач, но и изобератать алгоритмы для новых постановок и ситуаций.

 

— Как работают эксперты по аналитическим данным в лаборатории Philips Research?

 

— В лаборатории Philips Research каждый дата-сайентист занимается созданием интеллектуальной собственности в рамках текущих проектов компании. Тематика проектов достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений, обработкой текстов, предсказаниями болезней, поиском аномалий, генеративными моделями и т. д.

 

В рамках проектов сайентисты принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием.

 

К тому же наши специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей с последующим докладом на ведущих мировых конференциях в сфере искусственного интеллекта.

Naked Science Facebook VK Twitter
Philips Research
5Статей
Лаборатория Philips в «Сколково» – часть глобальной научно-исследовательской сети Philips Research, одной из крупнейших частных исследовательских организаций в мире. Более 1250 ученых работают в 10 лабораториях в нескольких локациях в Европе, Северной Америке, Китае, Индии, Африке и России. Работа российского подразделения интегрирована в глобальные исследовательские проекты компании.
10.9K
Комментарии
Вчера
У муслимов просто инет плохой и телефоны дешевые....
Вчера
То что у вас паранойя не означает что за вами не...

Колумнисты

Физтех
130Статей
Сколтех
51Статья
Discovery Channel
36Статей
ТюмГУ
18Статей
СФУ
12Статей
Комментарии

Быстрый вход

Или авторизуйтесь с помощью:

на сайте, чтобы оставить комментарий.
Вы сообщаете об ошибке в следующем тексте:
Нажмите Отправить ошибку