Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

В мире появляется все больше новых профессий. Уже сегодня можно встретить биохакеров или дизайнеров виртуальной реальности. Еще одна перспективная область — наука о данных (Data Science). Чем занимается дата-сайентист и как им стать, рассказали в лаборатории Philips Research Lab Rus.

12.4K

Выбор редакции

Наш спикер — Андрей Поляков, научный сотрудник лаборатории Philips Research Lab Rus.

 

— Кто такой дата сайентист и в чем суть его работы?

 

— Это профессия, которая объединяет в себе черты математика, программиста, инженера и ученого. Суть его работы в том, чтобы научить компьютер решать задачи, с которыми ежедневно сталкиваются государство, бизнес или частные лица, причем от качества их решения зависит безопасность людей, прибыль компаний и даже удовлетворение от вечернего досуга.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

Представьте, что в стране есть несколько десятков международных аэропортов, каждый день в них прибывают сотни рейсов разных авиакомпаний. Сотни тысяч человек ежедневно пересекают границу.

 

Государству в лице его пограничной службы требуется решить, кого пускать в страну, а кого — нет. Оно заинтересовано в иностранных туристах, которые будут ходить по театрам, ресторанам и экскурсиям, но не хочет видеть у себя международных преступников или лиц, которые ранее нарушили местное законодательство.

 

Таким образом, государство должно решить, пускать человека в страну или нет на основании предъявляемого им паспорта и исторических данных о нем.

 

В качестве другого примера можно взять работу страховой компании. Для каждого клиента нужно оценить вероятность наступления страхового случая с последующим определением стоимости страховки исходя из самых разных данных о человеке: возрасте, текущем состоянии здоровья и наличии хронических заболеваний, образе жизни, вредных привычках, увлечениях экстремальными видами спорта, штрафах за нарушение правил дорожного движения и т. д.

 

Наконец, третий пример: мы пришли вечером с работы домой, решили разобрать личную почту и посмотреть какой-нибудь хороший фильм.

 

Вы обнаруживаете письмо от незнакомого отправителя. Спам это или нет? И как определить, какой фильм посмотреть сегодня вечером с девушкой? А какое вино лучше выбрать?

 

— Кейсы очень показательные и интересные, но при чем здесь дата-сайентисты?

 

— Эти примеры я привожу не просто так. Дата-сайентист нужен, чтобы научить компьютер решать все эти и многие другие задачи. И как только компьютер начинает выполнять такие процессы, дальше все происходит по принципу «вкалывают роботы — счастлив человек».

 

Он автоматически принимает решение о выдаче кредита, торгует на бирже, строит оптимальные маршруты, рекомендует фильмы и музыку, ориентируясь на предпочтения пользователя.

 

Но разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью данных и алгоритмов. В этом и состоит работа дата-сайентиста.

 

Усредненный портрет этого специалиста замечательно представлен в исследовании 360datascience. Согласно его результатам, дата-сайентист образца 2019 года — это молодой человек (в профессии 70 % мужчин и 30 % женщин) с высшим техническим образованием (кроме того, 30 % имеют ученую степень), у него уже есть за плечами два года опыта работы в роли дата-сайентиста и восемь лет общего трудового стажа.

 

Также он владеет как минимум двумя языками программирования и разговаривает на двух языках.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

— Какие задачи ставятся перед дата-сайентистами?

 

— Самые разные. Одно дело, когда у компании уже отлаженные процессы, готовые исторические данные и даже какой-то штатный работающий алгоритм. В этом случае от дата-сайентиста требуется, например, повысить точность распознавания или предсказания уже работающей системы.

 

Однако в современном мире дела обстоят совсем не так просто. И технологические гиганты, и стартапы работают в сфере инноваций. Это не только поле больших возможностей, но и больших рисков.

 

Процесс создания инноваций характеризуется высокой степенью неопределенности. Тут, как правило, нет ни готовых данных, ни алгоритмов, ни рецептов успеха. Есть лишь энтузиазм и сплошная неясность.

 

Соответственно, меняется и подход к тому, что должен знать и уметь дата-сайентист. Сегодня на Западе наряду с понятием data scientist появляется понятие Unicorn data scientist.

 

— Чем различаются эти специальности?

 

— Отличие этого «единорога» от обычного дата-сайентиста состоит в присутствии навыков бизнес-аналитика и инновационного предпринимательства.

 

Он отлично разбирается в предметной области и знает ее особенности, определяет и согласовывает технические требования, предъявляемые к алгоритму, выясняет (а часто и создает) бизнес-логику приложения, что требует понимания бизнес-процессов компании и умения находить общий язык с совершенно разными людьми, которые могут пребывать в разных точках нашей планеты: программистами, аналитиками, менеджерами, маркетологами, руководством и заказчиком.

 

Таким образом, помимо общей математической и технической грамотности, присущей дата-сайентисту, от «единорога» требуются такие качества, как креативность, проактивность, стратегическое мышление, умение доводить дело до конца.

 

В этой сфере очень важно доносить свои идеи и разговаривать по целому спектру вопросов проекта с разными специалистами именно на их языке — будь то ученый, маркетолог или программист.

 

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

 

— В каких областях особенно востребована профессия дата-сайентиста?

 

— Сегодня для руководителей бизнеса очевидно, что машинное обучение — ключевой фактор успеха их организаций на рынке, поэтому сферы применения этой профессии постоянно расширяются. Приведу в пример наиболее популярные области.

 

Машинное обучение востребованно в сфере безопасности (контроль государственной границы, системы контроля управления доступом зданий и объектов, криминалистика).

 

Идем дальше — здравоохранение (предсказание и диагностика заболеваний, помощь врачу в планировании операций, выявление аномалий на МРТ/КТ снимках).

 

Еще пример — информационные технологии (аналитические системы, выявление мошеннических действий, интеллектуальные чат-боты, системы планирования ресурсов и интеллектуальный рекрутинг персонала) или в интернет-бизнесе (поисковые системы, разнообразные почтовые, погодные, контекстная реклама и другие сервисы, такси, персонализированные рекомендательные системы, фильтрация спама).

 

Банковская и финансовая сфера (управление рисками, алгоритмическая биржевая торговля, кредитование, страхование).

 

Дата-сайентисты полезны и в логистике (навигация, доставка, оптимизация товаров на складе, поиск оптимального маршрута, разработка беспилотных транспортных систем).

 

И в управлении взаимоотношений с клиентами (поиск и привлечение потенциальных клиентов, выявление трендов, создание персональных предложений), в образовании (создание разнообразных платформ для соревнований и хакатонов, онлайн-курсов по машинному обучению).

 

— Какой диапазон заработной платы в разных странах, которую получают эксперты по аналитическим данным?

 

— По версии Glassdoor профессия дата-сайентиста сейчас возглавляет рейтинг лучших вакансий 2019 года в США и занимает седьмую строчку этого же рейтинга для Великобритании.

 

Медианная заработная плата составляет 108 000 долларов для США, 42 000 фунтов для Великобритании и 52 000 евро для Германии.

 

Если говорить о США, в технологических гигантах средняя заработная плата может стартовать от 130 000 долларов в год для специалистов с небольшим опытом и доходить до 200 000 долларов для профессионалов с многолетним опытом. Зарплаты «единорогов» начинаются от 200 000 долларов в год.

 

Что касается других стран, то существует исследование BusinessBroadway на 2018 год. Согласно ему, самые высокие средние зарплаты дата-сайентистов в США (120 000 долларов), Австралии (110 000), Израиле (87500 долларов) и Канаде (81 339 долларов), а самые низкие — в Польше (29 000 долларов), на Украине (25 125 долларов), в Индии (14 058 долларов) и России (13 052 доллара).

 

— Какова специфика этой профессии в сфере здравоохранения?

 

— Сама работа в сфере здравоохранения подразумевает повышенную степень ответственности за здоровье и жизни людей. Поэтому самый первый аспект работы дата сайентиста в этой области — этический.

 

Люди хотят знать ответ на вопрос, можно ли вверять жизнь и здоровье человека в руки роботу. В этой сфере никто не ставит целью заменить врача машиной, речь идет о том, чтобы искусственный интеллект стал средством поддержки принятия решений.

 

Например, робот может предсказывать у пациента наличие определенных заболеваний по симптоматке и предлагать варианты лечения, но окончательный диагноз ставит врач и лечение назначает он же.

 

Второй аспект — это данные. Для решения задач прогнозирования и классификации требуется наличие по возможности полных, консистентных, репрезентативных, предварительно размеченных данных. Дело в том, что в здравоохранении и медицине их пока недостаточно.

 

Это связано с тем, что разметка данных должна производиться врачом, а сбор и обработка информации — систематически. Это очень трудоемкий, монотонный и дорогой процесс именно в силу того, что это делается вручную.

 

И пока ресурсов на это не хватает. Но даже если допустить, что мы создали очень хорошую базу данных, некоторые заболевания эволюционируют, да и для традиционных болезней характерна большая вариативность признаков.

 

Соответствующие базы данных требуется постоянно обновлять, ведь если компьютер никогда не видел какое-нибудь заболевание, он не сможет его распознать и предложить вариант лечения.

 

Но на этом пути встают еще и юридические вопросы: это и защита персональных данных пациента (например, проводится деперсонификация информации), и принадлежность прав на медицинские данные.

 

— Где можно получить образование, навыки и знания в этой области?

 

— Сейчас очень подходящее время для того, чтобы стать дата-сайентистом. Вычислительные ресурсы сегодня очень дешевы, а знания можно почерпнуть из разной специализированной литературы, специальных порталов, из открытых источников и онлайн-курсов, а также благодаря работе на программном обеспечении, которое позволяет создавать сложные нейросетевые архитектуры абсолютно бесплатно.

 

Все, что требуется от человека, который находится в начале своего карьерного пути, — это врожденное любопытство и желание и готовность постоянно учиться. Это качество, кстати, касается абсолютно всех дата-сайентистов — и начинающих, и опытных.

 

Сфера искусственного интеллекта в целом и машинного обучения в частности, сейчас очень быстро развивается, новые методы решения задач, библиотеки и инструменты появляются буквально каждый день, надо успевать следить хотя бы за основными изменениями.

 

Чтобы стать дата-сайентистом, в первую очередь стоит получить качественное высшее математическое или техническое образование. Это фундамент, необходимый для того, чтобы работать с данными, понимать, что говорят цифры в данных, как работают алгоритмы, что пишут коллеги в своих научных статьях, оценивать время работы и точность алгоритмов, проверять гипотезы и т. д.

 

В большинстве случаев дата сайентисты это изначально математики, представители естественных наук (физика, химия, биология), инженеры и экономисты.

 

Если говорить о России, прекрасное базовое профильное образование можно получить в МГУ (мехмат, ВМК, физфак), МФТИ, ВШЭ. Также программы подготовки специалистов по анализу данных и компьютерным наукам существуют в Физтехе, ВШЭ и Сколтехе.

 

— А где стоит учиться программированию и машинному обучению?

 

— Второй момент — программирование. Каждый дата-сайентист должен уметь быстро воплощать свои идеи в коде. Де-факто рабочими языками являются Python и R. Опционально дата-сайентисты владеют SQL, lMatlab, Octave, C/C++, Java.

 

Существует множество онлайн-платформ по обучению программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

 

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях (Kaggle) и хакатонах, которые проводятся разными компаниями при взаимодействии с академическими институтами.

 

В прошлом году подобное мероприятие организовали Philips и Сколтех, предоставив молодым ученым попробовать себя в поиске решений для лечения заболеваний нервной системы.

 

Кроме того, многие дата-сайентисты получали опыт программирования на предыдущих местах работы.

 

Третий момент — это собственно теория и практика машинного обучения. Здесь большой популярностью пользуются курсы по Machine Learning и Deep Learning на Coursera от Andrew Ng и курсы Стэнфордского университета.

 

Что касается очных курсов, то подготовкой дата-сайентистов занимаются, например, в "Яндексе" (Школа анализа данных) и компании Mail Group (Техносфера).

 

Профильная ученая степень крайне приветствуется работодателями, но не является обязательной: судя по тому, что число людей со степенью в отрасли практически не меняется из года в год, ее наличие не является необходимым условием для входа в профессию.

 

Однако получение ученой степени в области искусственного интеллекта в сильном университете можно рассматривать как конкурентное преимущество.

 

Дело в том, что в этом случае это не просто корочка, а доказательство того, что человек действительно является исследователем, самостоятельной «боевой единицей», способной не только грамотно применять существующие методы решения задач, но и изобератать алгоритмы для новых постановок и ситуаций.

 

— Как работают эксперты по аналитическим данным в лаборатории Philips Research?

 

— В лаборатории Philips Research каждый дата-сайентист занимается созданием интеллектуальной собственности в рамках текущих проектов компании. Тематика проектов достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений, обработкой текстов, предсказаниями болезней, поиском аномалий, генеративными моделями и т. д.

 

В рамках проектов сайентисты принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием.

 

К тому же наши специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей с последующим докладом на ведущих мировых конференциях в сфере искусственного интеллекта.

Naked Science Facebook VK Twitter
Philips Research
6Статей
Лаборатория Philips в «Сколково» – часть глобальной научно-исследовательской сети Philips Research, одной из крупнейших частных исследовательских организаций в мире. Более 1250 ученых работают в 10 лабораториях в нескольких локациях в Европе, Северной Америке, Китае, Индии, Африке и России. Работа российского подразделения интегрирована в глобальные исследовательские проекты компании.
12.4K
Комментарии
Аватар пользователя Самандра
23 июн
может на сколах какие-нибудь еще не окислившиеся "...
23 июн
Я побоялся бы что.зеленое станет чёрным но местные...
23 июн
Оказывается есть даже палеодиета основанная на...

Колумнисты

Физтех
136Статей
Сколтех
55Статей
Discovery Channel
38Статей
ТюмГУ
23Статьи
СФУ
12Статей
Комментарии

Быстрый вход

Или авторизуйтесь с помощью:

на сайте, чтобы оставить комментарий.
Вы сообщаете об ошибке в следующем тексте:
Нажмите Отправить ошибку