Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
22.03.2019
Philips
15 727

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

3.3

В мире появляется все больше новых профессий. Уже сегодня можно встретить биохакеров или дизайнеров виртуальной реальности. Еще одна перспективная область — наука о данных (Data Science). Чем занимается дата-сайентист и как им стать, рассказали в лаборатории Philips Research Lab Rus.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются – иллюстрация к материалу на Naked Science
Охота на единорогов: кто такие дата-сайентисты и чем они занимаются / ©Пресс-служба Philips Research / Автор: Татьяна Соловьёва

Наш спикер — Андрей Поляков, научный сотрудник лаборатории Philips Research Lab Rus.

— Кто такой дата сайентист и в чем суть его работы?

— Это профессия, которая объединяет в себе черты математика, программиста, инженера и ученого. Суть его работы в том, чтобы научить компьютер решать задачи, с которыми ежедневно сталкиваются государство, бизнес или частные лица, причем от качества их решения зависит безопасность людей, прибыль компаний и даже удовлетворение от вечернего досуга.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

Представьте, что в стране есть несколько десятков международных аэропортов, каждый день в них прибывают сотни рейсов разных авиакомпаний. Сотни тысяч человек ежедневно пересекают границу.

Государству в лице его пограничной службы требуется решить, кого пускать в страну, а кого — нет. Оно заинтересовано в иностранных туристах, которые будут ходить по театрам, ресторанам и экскурсиям, но не хочет видеть у себя международных преступников или лиц, которые ранее нарушили местное законодательство.

Таким образом, государство должно решить, пускать человека в страну или нет на основании предъявляемого им паспорта и исторических данных о нем.

В качестве другого примера можно взять работу страховой компании. Для каждого клиента нужно оценить вероятность наступления страхового случая с последующим определением стоимости страховки исходя из самых разных данных о человеке: возрасте, текущем состоянии здоровья и наличии хронических заболеваний, образе жизни, вредных привычках, увлечениях экстремальными видами спорта, штрафах за нарушение правил дорожного движения и т. д.

Наконец, третий пример: мы пришли вечером с работы домой, решили разобрать личную почту и посмотреть какой-нибудь хороший фильм.

Вы обнаруживаете письмо от незнакомого отправителя. Спам это или нет? И как определить, какой фильм посмотреть сегодня вечером с девушкой? А какое вино лучше выбрать?

— Кейсы очень показательные и интересные, но при чем здесь дата-сайентисты?

— Эти примеры я привожу не просто так. Дата-сайентист нужен, чтобы научить компьютер решать все эти и многие другие задачи. И как только компьютер начинает выполнять такие процессы, дальше все происходит по принципу «вкалывают роботы — счастлив человек».

Он автоматически принимает решение о выдаче кредита, торгует на бирже, строит оптимальные маршруты, рекомендует фильмы и музыку, ориентируясь на предпочтения пользователя.

Но разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью данных и алгоритмов. В этом и состоит работа дата-сайентиста.

Усредненный портрет этого специалиста замечательно представлен в исследовании 360datascience. Согласно его результатам, дата-сайентист образца 2019 года — это молодой человек (в профессии 70 % мужчин и 30 % женщин) с высшим техническим образованием (кроме того, 30 % имеют ученую степень), у него уже есть за плечами два года опыта работы в роли дата-сайентиста и восемь лет общего трудового стажа.

Также он владеет как минимум двумя языками программирования и разговаривает на двух языках.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— Какие задачи ставятся перед дата-сайентистами?

— Самые разные. Одно дело, когда у компании уже отлаженные процессы, готовые исторические данные и даже какой-то штатный работающий алгоритм. В этом случае от дата-сайентиста требуется, например, повысить точность распознавания или предсказания уже работающей системы.

Однако в современном мире дела обстоят совсем не так просто. И технологические гиганты, и стартапы работают в сфере инноваций. Это не только поле больших возможностей, но и больших рисков.

Процесс создания инноваций характеризуется высокой степенью неопределенности. Тут, как правило, нет ни готовых данных, ни алгоритмов, ни рецептов успеха. Есть лишь энтузиазм и сплошная неясность.

Соответственно, меняется и подход к тому, что должен знать и уметь дата-сайентист. Сегодня на Западе наряду с понятием data scientist появляется понятие Unicorn data scientist.

— Чем различаются эти специальности?

— Отличие этого «единорога» от обычного дата-сайентиста состоит в присутствии навыков бизнес-аналитика и инновационного предпринимательства.

Он отлично разбирается в предметной области и знает ее особенности, определяет и согласовывает технические требования, предъявляемые к алгоритму, выясняет (а часто и создает) бизнес-логику приложения, что требует понимания бизнес-процессов компании и умения находить общий язык с совершенно разными людьми, которые могут пребывать в разных точках нашей планеты: программистами, аналитиками, менеджерами, маркетологами, руководством и заказчиком.

Таким образом, помимо общей математической и технической грамотности, присущей дата-сайентисту, от «единорога» требуются такие качества, как креативность, проактивность, стратегическое мышление, умение доводить дело до конца.

В этой сфере очень важно доносить свои идеи и разговаривать по целому спектру вопросов проекта с разными специалистами именно на их языке — будь то ученый, маркетолог или программист.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— В каких областях особенно востребована профессия дата-сайентиста?

— Сегодня для руководителей бизнеса очевидно, что машинное обучение — ключевой фактор успеха их организаций на рынке, поэтому сферы применения этой профессии постоянно расширяются. Приведу в пример наиболее популярные области.

Машинное обучение востребованно в сфере безопасности (контроль государственной границы, системы контроля управления доступом зданий и объектов, криминалистика).

Идем дальше — здравоохранение (предсказание и диагностика заболеваний, помощь врачу в планировании операций, выявление аномалий на МРТ/КТ снимках).

Еще пример — информационные технологии (аналитические системы, выявление мошеннических действий, интеллектуальные чат-боты, системы планирования ресурсов и интеллектуальный рекрутинг персонала) или в интернет-бизнесе (поисковые системы, разнообразные почтовые, погодные, контекстная реклама и другие сервисы, такси, персонализированные рекомендательные системы, фильтрация спама).

Банковская и финансовая сфера (управление рисками, алгоритмическая биржевая торговля, кредитование, страхование).

Дата-сайентисты полезны и в логистике (навигация, доставка, оптимизация товаров на складе, поиск оптимального маршрута, разработка беспилотных транспортных систем).

И в управлении взаимоотношений с клиентами (поиск и привлечение потенциальных клиентов, выявление трендов, создание персональных предложений), в образовании (создание разнообразных платформ для соревнований и хакатонов, онлайн-курсов по машинному обучению).

— Какой диапазон заработной платы в разных странах, которую получают эксперты по аналитическим данным?

— По версии Glassdoor профессия дата-сайентиста сейчас возглавляет рейтинг лучших вакансий 2019 года в США и занимает седьмую строчку этого же рейтинга для Великобритании.

Медианная заработная плата составляет 108 000 долларов для США, 42 000 фунтов для Великобритании и 52 000 евро для Германии.

Если говорить о США, в технологических гигантах средняя заработная плата может стартовать от 130 000 долларов в год для специалистов с небольшим опытом и доходить до 200 000 долларов для профессионалов с многолетним опытом. Зарплаты «единорогов» начинаются от 200 000 долларов в год.

Что касается других стран, то существует исследование BusinessBroadway на 2018 год. Согласно ему, самые высокие средние зарплаты дата-сайентистов в США (120 000 долларов), Австралии (110 000), Израиле (87500 долларов) и Канаде (81 339 долларов), а самые низкие — в Польше (29 000 долларов), на Украине (25 125 долларов), в Индии (14 058 долларов) и России (13 052 доллара).

— Какова специфика этой профессии в сфере здравоохранения?

— Сама работа в сфере здравоохранения подразумевает повышенную степень ответственности за здоровье и жизни людей. Поэтому самый первый аспект работы дата сайентиста в этой области — этический.

Люди хотят знать ответ на вопрос, можно ли вверять жизнь и здоровье человека в руки роботу. В этой сфере никто не ставит целью заменить врача машиной, речь идет о том, чтобы искусственный интеллект стал средством поддержки принятия решений.

Например, робот может предсказывать у пациента наличие определенных заболеваний по симптоматке и предлагать варианты лечения, но окончательный диагноз ставит врач и лечение назначает он же.

Второй аспект — это данные. Для решения задач прогнозирования и классификации требуется наличие по возможности полных, консистентных, репрезентативных, предварительно размеченных данных. Дело в том, что в здравоохранении и медицине их пока недостаточно.

Это связано с тем, что разметка данных должна производиться врачом, а сбор и обработка информации — систематически. Это очень трудоемкий, монотонный и дорогой процесс именно в силу того, что это делается вручную.

И пока ресурсов на это не хватает. Но даже если допустить, что мы создали очень хорошую базу данных, некоторые заболевания эволюционируют, да и для традиционных болезней характерна большая вариативность признаков.

Соответствующие базы данных требуется постоянно обновлять, ведь если компьютер никогда не видел какое-нибудь заболевание, он не сможет его распознать и предложить вариант лечения.

Но на этом пути встают еще и юридические вопросы: это и защита персональных данных пациента (например, проводится деперсонификация информации), и принадлежность прав на медицинские данные.

— Где можно получить образование, навыки и знания в этой области?

— Сейчас очень подходящее время для того, чтобы стать дата-сайентистом. Вычислительные ресурсы сегодня очень дешевы, а знания можно почерпнуть из разной специализированной литературы, специальных порталов, из открытых источников и онлайн-курсов, а также благодаря работе на программном обеспечении, которое позволяет создавать сложные нейросетевые архитектуры абсолютно бесплатно.

Все, что требуется от человека, который находится в начале своего карьерного пути, — это врожденное любопытство и желание и готовность постоянно учиться. Это качество, кстати, касается абсолютно всех дата-сайентистов — и начинающих, и опытных.

Сфера искусственного интеллекта в целом и машинного обучения в частности, сейчас очень быстро развивается, новые методы решения задач, библиотеки и инструменты появляются буквально каждый день, надо успевать следить хотя бы за основными изменениями.

Чтобы стать дата-сайентистом, в первую очередь стоит получить качественное высшее математическое или техническое образование. Это фундамент, необходимый для того, чтобы работать с данными, понимать, что говорят цифры в данных, как работают алгоритмы, что пишут коллеги в своих научных статьях, оценивать время работы и точность алгоритмов, проверять гипотезы и т. д.

В большинстве случаев дата сайентисты это изначально математики, представители естественных наук (физика, химия, биология), инженеры и экономисты.

Если говорить о России, прекрасное базовое профильное образование можно получить в МГУ (мехмат, ВМК, физфак), МФТИ, ВШЭ. Также программы подготовки специалистов по анализу данных и компьютерным наукам существуют в Физтехе, ВШЭ и Сколтехе.

— А где стоит учиться программированию и машинному обучению?

— Второй момент — программирование. Каждый дата-сайентист должен уметь быстро воплощать свои идеи в коде. Де-факто рабочими языками являются Python и R. Опционально дата-сайентисты владеют SQL, lMatlab, Octave, C/C++, Java.

Существует множество онлайн-платформ по обучению программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях (Kaggle) и хакатонах, которые проводятся разными компаниями при взаимодействии с академическими институтами.

В прошлом году подобное мероприятие организовали Philips и Сколтех, предоставив молодым ученым попробовать себя в поиске решений для лечения заболеваний нервной системы.

Кроме того, многие дата-сайентисты получали опыт программирования на предыдущих местах работы.

Третий момент — это собственно теория и практика машинного обучения. Здесь большой популярностью пользуются курсы по Machine Learning и Deep Learning на Coursera от Andrew Ng и курсы Стэнфордского университета.

Что касается очных курсов, то подготовкой дата-сайентистов занимаются, например, в «Яндексе» (Школа анализа данных) и компании Mail Group (Техносфера).

Профильная ученая степень крайне приветствуется работодателями, но не является обязательной: судя по тому, что число людей со степенью в отрасли практически не меняется из года в год, ее наличие не является необходимым условием для входа в профессию.

Однако получение ученой степени в области искусственного интеллекта в сильном университете можно рассматривать как конкурентное преимущество.

Дело в том, что в этом случае это не просто корочка, а доказательство того, что человек действительно является исследователем, самостоятельной «боевой единицей», способной не только грамотно применять существующие методы решения задач, но и изобератать алгоритмы для новых постановок и ситуаций.

— Как работают эксперты по аналитическим данным в лаборатории Philips Research?

— В лаборатории Philips Research каждый дата-сайентист занимается созданием интеллектуальной собственности в рамках текущих проектов компании. Тематика проектов достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений, обработкой текстов, предсказаниями болезней, поиском аномалий, генеративными моделями и т. д.

В рамках проектов сайентисты принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием.

К тому же наши специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей с последующим докладом на ведущих мировых конференциях в сфере искусственного интеллекта.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
8 часов назад
Андрей Папиш

Крупнейшее в мире озеро, Каспийское море, давно теряет свой объем по разным причинам, специалисты указывают на перемены климата как глобального, так и регионального. Российские океанологи недавно обнаружили на севере Каспия новый остров, очередное подтверждение обмеления моря. Naked Science связался с учеными, открывшими участок суши, и выяснил подробности.

Вчера, 14:34
Университет Лобачевского

Ученые Университета Лобачевского сравнили психическое и физиологическое состояние людей до и после просмотра триллера «Вышка». Участники эксперимента смотрели фильм в парах и по одиночке. Триллер о восхождении двух подруг на 500-метровую телевышку, построенный на страхе высоты и падения, вызывал наиболее сильные эмоции у зрителей при парном просмотре. Это явление было изучено впервые в России, а в мировой науке есть лишь единичные статьи. Авторы исследования назвали его «эффектом созрителя».

Вчера, 18:01
Юлия Трепалина

Ученые не раз описывали, как живущие в дикой природе приматы, слоны и птицы изготавливали и применяли орудия, но о подобных примерах среди морских животных сообщалось реже. Недавно американские и британские исследователи китов наблюдали такое поведение у косаток: млекопитающие использовали обрывки водорослей по аналогии с мочалкой — в процессе взаимного груминга.

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

20 июня
Александр Березин

Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.

Вчера, 11:25
Александр Березин

Нарастающий в последние десятки лет пластиковый кризис многие годы пытались решить наращиванием вторичной переработки пластика. Ученые выяснили, что такие переработанные полимеры негативно повлияли на развитие подопытных животных.

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

19 июня
ЮФУ

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно