Охота на единорогов: кто такие дата-сайентисты и чем они занимаются — Naked Science
26 минут
Philips

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

3.3

В мире появляется все больше новых профессий. Уже сегодня можно встретить биохакеров или дизайнеров виртуальной реальности. Еще одна перспективная область — наука о данных (Data Science). Чем занимается дата-сайентист и как им стать, рассказали в лаборатории Philips Research Lab Rus.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются / ©Пресс-служба Philips Research

Наш спикер — Андрей Поляков, научный сотрудник лаборатории Philips Research Lab Rus.

— Кто такой дата сайентист и в чем суть его работы?

— Это профессия, которая объединяет в себе черты математика, программиста, инженера и ученого. Суть его работы в том, чтобы научить компьютер решать задачи, с которыми ежедневно сталкиваются государство, бизнес или частные лица, причем от качества их решения зависит безопасность людей, прибыль компаний и даже удовлетворение от вечернего досуга.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

Представьте, что в стране есть несколько десятков международных аэропортов, каждый день в них прибывают сотни рейсов разных авиакомпаний. Сотни тысяч человек ежедневно пересекают границу.

Государству в лице его пограничной службы требуется решить, кого пускать в страну, а кого — нет. Оно заинтересовано в иностранных туристах, которые будут ходить по театрам, ресторанам и экскурсиям, но не хочет видеть у себя международных преступников или лиц, которые ранее нарушили местное законодательство.

Таким образом, государство должно решить, пускать человека в страну или нет на основании предъявляемого им паспорта и исторических данных о нем.

В качестве другого примера можно взять работу страховой компании. Для каждого клиента нужно оценить вероятность наступления страхового случая с последующим определением стоимости страховки исходя из самых разных данных о человеке: возрасте, текущем состоянии здоровья и наличии хронических заболеваний, образе жизни, вредных привычках, увлечениях экстремальными видами спорта, штрафах за нарушение правил дорожного движения и т. д.

Наконец, третий пример: мы пришли вечером с работы домой, решили разобрать личную почту и посмотреть какой-нибудь хороший фильм.

Вы обнаруживаете письмо от незнакомого отправителя. Спам это или нет? И как определить, какой фильм посмотреть сегодня вечером с девушкой? А какое вино лучше выбрать?

— Кейсы очень показательные и интересные, но при чем здесь дата-сайентисты?

— Эти примеры я привожу не просто так. Дата-сайентист нужен, чтобы научить компьютер решать все эти и многие другие задачи. И как только компьютер начинает выполнять такие процессы, дальше все происходит по принципу «вкалывают роботы — счастлив человек».

Он автоматически принимает решение о выдаче кредита, торгует на бирже, строит оптимальные маршруты, рекомендует фильмы и музыку, ориентируясь на предпочтения пользователя.

Но разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью данных и алгоритмов. В этом и состоит работа дата-сайентиста.

Усредненный портрет этого специалиста замечательно представлен в исследовании 360datascience. Согласно его результатам, дата-сайентист образца 2019 года — это молодой человек (в профессии 70 % мужчин и 30 % женщин) с высшим техническим образованием (кроме того, 30 % имеют ученую степень), у него уже есть за плечами два года опыта работы в роли дата-сайентиста и восемь лет общего трудового стажа.

Также он владеет как минимум двумя языками программирования и разговаривает на двух языках.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— Какие задачи ставятся перед дата-сайентистами?

— Самые разные. Одно дело, когда у компании уже отлаженные процессы, готовые исторические данные и даже какой-то штатный работающий алгоритм. В этом случае от дата-сайентиста требуется, например, повысить точность распознавания или предсказания уже работающей системы.

Однако в современном мире дела обстоят совсем не так просто. И технологические гиганты, и стартапы работают в сфере инноваций. Это не только поле больших возможностей, но и больших рисков.

Процесс создания инноваций характеризуется высокой степенью неопределенности. Тут, как правило, нет ни готовых данных, ни алгоритмов, ни рецептов успеха. Есть лишь энтузиазм и сплошная неясность.

Соответственно, меняется и подход к тому, что должен знать и уметь дата-сайентист. Сегодня на Западе наряду с понятием data scientist появляется понятие Unicorn data scientist.

— Чем различаются эти специальности?

— Отличие этого «единорога» от обычного дата-сайентиста состоит в присутствии навыков бизнес-аналитика и инновационного предпринимательства.

Он отлично разбирается в предметной области и знает ее особенности, определяет и согласовывает технические требования, предъявляемые к алгоритму, выясняет (а часто и создает) бизнес-логику приложения, что требует понимания бизнес-процессов компании и умения находить общий язык с совершенно разными людьми, которые могут пребывать в разных точках нашей планеты: программистами, аналитиками, менеджерами, маркетологами, руководством и заказчиком.

Таким образом, помимо общей математической и технической грамотности, присущей дата-сайентисту, от «единорога» требуются такие качества, как креативность, проактивность, стратегическое мышление, умение доводить дело до конца.

В этой сфере очень важно доносить свои идеи и разговаривать по целому спектру вопросов проекта с разными специалистами именно на их языке — будь то ученый, маркетолог или программист.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— В каких областях особенно востребована профессия дата-сайентиста?

— Сегодня для руководителей бизнеса очевидно, что машинное обучение — ключевой фактор успеха их организаций на рынке, поэтому сферы применения этой профессии постоянно расширяются. Приведу в пример наиболее популярные области.

Машинное обучение востребованно в сфере безопасности (контроль государственной границы, системы контроля управления доступом зданий и объектов, криминалистика).

Идем дальше — здравоохранение (предсказание и диагностика заболеваний, помощь врачу в планировании операций, выявление аномалий на МРТ/КТ снимках).

Еще пример — информационные технологии (аналитические системы, выявление мошеннических действий, интеллектуальные чат-боты, системы планирования ресурсов и интеллектуальный рекрутинг персонала) или в интернет-бизнесе (поисковые системы, разнообразные почтовые, погодные, контекстная реклама и другие сервисы, такси, персонализированные рекомендательные системы, фильтрация спама).

Банковская и финансовая сфера (управление рисками, алгоритмическая биржевая торговля, кредитование, страхование).

Дата-сайентисты полезны и в логистике (навигация, доставка, оптимизация товаров на складе, поиск оптимального маршрута, разработка беспилотных транспортных систем).

И в управлении взаимоотношений с клиентами (поиск и привлечение потенциальных клиентов, выявление трендов, создание персональных предложений), в образовании (создание разнообразных платформ для соревнований и хакатонов, онлайн-курсов по машинному обучению).

— Какой диапазон заработной платы в разных странах, которую получают эксперты по аналитическим данным?

— По версии Glassdoor профессия дата-сайентиста сейчас возглавляет рейтинг лучших вакансий 2019 года в США и занимает седьмую строчку этого же рейтинга для Великобритании.

Медианная заработная плата составляет 108 000 долларов для США, 42 000 фунтов для Великобритании и 52 000 евро для Германии.

Если говорить о США, в технологических гигантах средняя заработная плата может стартовать от 130 000 долларов в год для специалистов с небольшим опытом и доходить до 200 000 долларов для профессионалов с многолетним опытом. Зарплаты «единорогов» начинаются от 200 000 долларов в год.

Что касается других стран, то существует исследование BusinessBroadway на 2018 год. Согласно ему, самые высокие средние зарплаты дата-сайентистов в США (120 000 долларов), Австралии (110 000), Израиле (87500 долларов) и Канаде (81 339 долларов), а самые низкие — в Польше (29 000 долларов), на Украине (25 125 долларов), в Индии (14 058 долларов) и России (13 052 доллара).

— Какова специфика этой профессии в сфере здравоохранения?

— Сама работа в сфере здравоохранения подразумевает повышенную степень ответственности за здоровье и жизни людей. Поэтому самый первый аспект работы дата сайентиста в этой области — этический.

Люди хотят знать ответ на вопрос, можно ли вверять жизнь и здоровье человека в руки роботу. В этой сфере никто не ставит целью заменить врача машиной, речь идет о том, чтобы искусственный интеллект стал средством поддержки принятия решений.

Например, робот может предсказывать у пациента наличие определенных заболеваний по симптоматке и предлагать варианты лечения, но окончательный диагноз ставит врач и лечение назначает он же.

Второй аспект — это данные. Для решения задач прогнозирования и классификации требуется наличие по возможности полных, консистентных, репрезентативных, предварительно размеченных данных. Дело в том, что в здравоохранении и медицине их пока недостаточно.

Это связано с тем, что разметка данных должна производиться врачом, а сбор и обработка информации — систематически. Это очень трудоемкий, монотонный и дорогой процесс именно в силу того, что это делается вручную.

И пока ресурсов на это не хватает. Но даже если допустить, что мы создали очень хорошую базу данных, некоторые заболевания эволюционируют, да и для традиционных болезней характерна большая вариативность признаков.

Соответствующие базы данных требуется постоянно обновлять, ведь если компьютер никогда не видел какое-нибудь заболевание, он не сможет его распознать и предложить вариант лечения.

Но на этом пути встают еще и юридические вопросы: это и защита персональных данных пациента (например, проводится деперсонификация информации), и принадлежность прав на медицинские данные.

— Где можно получить образование, навыки и знания в этой области?

— Сейчас очень подходящее время для того, чтобы стать дата-сайентистом. Вычислительные ресурсы сегодня очень дешевы, а знания можно почерпнуть из разной специализированной литературы, специальных порталов, из открытых источников и онлайн-курсов, а также благодаря работе на программном обеспечении, которое позволяет создавать сложные нейросетевые архитектуры абсолютно бесплатно.

Все, что требуется от человека, который находится в начале своего карьерного пути, — это врожденное любопытство и желание и готовность постоянно учиться. Это качество, кстати, касается абсолютно всех дата-сайентистов — и начинающих, и опытных.

Сфера искусственного интеллекта в целом и машинного обучения в частности, сейчас очень быстро развивается, новые методы решения задач, библиотеки и инструменты появляются буквально каждый день, надо успевать следить хотя бы за основными изменениями.

Чтобы стать дата-сайентистом, в первую очередь стоит получить качественное высшее математическое или техническое образование. Это фундамент, необходимый для того, чтобы работать с данными, понимать, что говорят цифры в данных, как работают алгоритмы, что пишут коллеги в своих научных статьях, оценивать время работы и точность алгоритмов, проверять гипотезы и т. д.

В большинстве случаев дата сайентисты это изначально математики, представители естественных наук (физика, химия, биология), инженеры и экономисты.

Если говорить о России, прекрасное базовое профильное образование можно получить в МГУ (мехмат, ВМК, физфак), МФТИ, ВШЭ. Также программы подготовки специалистов по анализу данных и компьютерным наукам существуют в Физтехе, ВШЭ и Сколтехе.

— А где стоит учиться программированию и машинному обучению?

— Второй момент — программирование. Каждый дата-сайентист должен уметь быстро воплощать свои идеи в коде. Де-факто рабочими языками являются Python и R. Опционально дата-сайентисты владеют SQL, lMatlab, Octave, C/C++, Java.

Существует множество онлайн-платформ по обучению программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях (Kaggle) и хакатонах, которые проводятся разными компаниями при взаимодействии с академическими институтами.

В прошлом году подобное мероприятие организовали Philips и Сколтех, предоставив молодым ученым попробовать себя в поиске решений для лечения заболеваний нервной системы.

Кроме того, многие дата-сайентисты получали опыт программирования на предыдущих местах работы.

Третий момент — это собственно теория и практика машинного обучения. Здесь большой популярностью пользуются курсы по Machine Learning и Deep Learning на Coursera от Andrew Ng и курсы Стэнфордского университета.

Что касается очных курсов, то подготовкой дата-сайентистов занимаются, например, в “Яндексе” (Школа анализа данных) и компании Mail Group (Техносфера).

Профильная ученая степень крайне приветствуется работодателями, но не является обязательной: судя по тому, что число людей со степенью в отрасли практически не меняется из года в год, ее наличие не является необходимым условием для входа в профессию.

Однако получение ученой степени в области искусственного интеллекта в сильном университете можно рассматривать как конкурентное преимущество.

Дело в том, что в этом случае это не просто корочка, а доказательство того, что человек действительно является исследователем, самостоятельной «боевой единицей», способной не только грамотно применять существующие методы решения задач, но и изобератать алгоритмы для новых постановок и ситуаций.

— Как работают эксперты по аналитическим данным в лаборатории Philips Research?

— В лаборатории Philips Research каждый дата-сайентист занимается созданием интеллектуальной собственности в рамках текущих проектов компании. Тематика проектов достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений, обработкой текстов, предсказаниями болезней, поиском аномалий, генеративными моделями и т. д.

В рамках проектов сайентисты принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием.

К тому же наши специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей с последующим докладом на ведущих мировых конференциях в сфере искусственного интеллекта.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Philips
10 статей
Компания была основана в 1891 году и за свою историю несколько раз меняла приоритетное направление деятельности: изначально выпускала электрические лампочки, затем переключилась на бытовую электронику, после 2000-х годов начала специализироваться на медицинском диагностическом оборудовании.
Позавчера, 18:50
5 минут
Илья Ведмеденко

Россия подняла в небо группу из шести военно-транспортных самолетов Ан-124-100. Такие тренировки позволяют отработать переброску на большие расстояния личного состава воинских подразделений.

Позавчера, 17:27
9 минут
Василий Парфенов

Специалисты по информационной безопасности нашли пренеприятнейшую особенность ОС Windows 10. Ее штатный драйвер файловой системы NTFS при определенных условиях реагирует крайне деструктивным образом — критически повреждает главную файловую таблицу MFT. Вызвать такое его поведение можно огромным количеством способов: от создания подготовленной веб-страницы до отправки картинок, файлов и документов жертве.

11 часов назад
13 минут
Василий Парфенов

Операторы миссии InSight пришли к выводу, что продолжать попытки бурения марсианской поверхности бессмысленно. Бур с инструментами для измерения теплового потока из недр красной планеты не смог погрузиться достаточно глубоко из-за недостатка трения с почвой — она оказалась слишком комкующейся.

Позавчера, 18:50
5 минут
Илья Ведмеденко

Россия подняла в небо группу из шести военно-транспортных самолетов Ан-124-100. Такие тренировки позволяют отработать переброску на большие расстояния личного состава воинских подразделений.

Позавчера, 17:27
9 минут
Василий Парфенов

Специалисты по информационной безопасности нашли пренеприятнейшую особенность ОС Windows 10. Ее штатный драйвер файловой системы NTFS при определенных условиях реагирует крайне деструктивным образом — критически повреждает главную файловую таблицу MFT. Вызвать такое его поведение можно огромным количеством способов: от создания подготовленной веб-страницы до отправки картинок, файлов и документов жертве.

15 января
10 минут
Василий Парфенов

Американский исследователь создал нейросеть, которая с точностью около 70% определяет политические убеждения человека, анализируя только его лицо. Ранее он уже сделал алгоритм, устанавливающий по фотографии сексуальную ориентацию. Оба этих эксперимента провели с целью опровергнуть так называемую новую френологию, а в итоге частично подтвердили псевдонаучные гипотезы.

4 января
2 минуты
Илья Ведмеденко

В России приступили к летным испытаниям нового Ту-214. По имеющимся данным, речь идет о третьем и заключительном экземпляре Ту-214ПУ, изготовленном по контракту от 2017 года.

19.12.2020
38 минут
Александр Березин

За последние полвека люди в России (и не только) стали слабее на десятки процентов. Судя по всему, с такой же скоростью они теряют интерес к сексу и становятся уязвимее к ряду болезней. Речь идет не просто о снижении мужественности мужчин и все более слабых женщинах — перед нами прямая угроза здоровью обоих полов. Попробуем разобраться, что о ней известно.

6 января
42 минуты
Александр Березин

Попытки нашей страны создать замену сверхмассовому биплану советской эпохи терпят неудачи вот уже тридцать лет. Причина проста: кризис легкомоторной авиации в целом. Когда-то самая передовая часть авиастроения сегодня застряла на решениях большой древности — и без резкого изменения всей концепции "летающего такси" так и не увидит заметных результатов.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: