• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
22.03.2019
Philips
15 669

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

3.3

В мире появляется все больше новых профессий. Уже сегодня можно встретить биохакеров или дизайнеров виртуальной реальности. Еще одна перспективная область — наука о данных (Data Science). Чем занимается дата-сайентист и как им стать, рассказали в лаборатории Philips Research Lab Rus.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются / ©Пресс-служба Philips Research / Автор: Татьяна Соловьёва

Наш спикер — Андрей Поляков, научный сотрудник лаборатории Philips Research Lab Rus.

— Кто такой дата сайентист и в чем суть его работы?

— Это профессия, которая объединяет в себе черты математика, программиста, инженера и ученого. Суть его работы в том, чтобы научить компьютер решать задачи, с которыми ежедневно сталкиваются государство, бизнес или частные лица, причем от качества их решения зависит безопасность людей, прибыль компаний и даже удовлетворение от вечернего досуга.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

Представьте, что в стране есть несколько десятков международных аэропортов, каждый день в них прибывают сотни рейсов разных авиакомпаний. Сотни тысяч человек ежедневно пересекают границу.

Государству в лице его пограничной службы требуется решить, кого пускать в страну, а кого — нет. Оно заинтересовано в иностранных туристах, которые будут ходить по театрам, ресторанам и экскурсиям, но не хочет видеть у себя международных преступников или лиц, которые ранее нарушили местное законодательство.

Таким образом, государство должно решить, пускать человека в страну или нет на основании предъявляемого им паспорта и исторических данных о нем.

В качестве другого примера можно взять работу страховой компании. Для каждого клиента нужно оценить вероятность наступления страхового случая с последующим определением стоимости страховки исходя из самых разных данных о человеке: возрасте, текущем состоянии здоровья и наличии хронических заболеваний, образе жизни, вредных привычках, увлечениях экстремальными видами спорта, штрафах за нарушение правил дорожного движения и т. д.

Наконец, третий пример: мы пришли вечером с работы домой, решили разобрать личную почту и посмотреть какой-нибудь хороший фильм.

Вы обнаруживаете письмо от незнакомого отправителя. Спам это или нет? И как определить, какой фильм посмотреть сегодня вечером с девушкой? А какое вино лучше выбрать?

— Кейсы очень показательные и интересные, но при чем здесь дата-сайентисты?

— Эти примеры я привожу не просто так. Дата-сайентист нужен, чтобы научить компьютер решать все эти и многие другие задачи. И как только компьютер начинает выполнять такие процессы, дальше все происходит по принципу «вкалывают роботы — счастлив человек».

Он автоматически принимает решение о выдаче кредита, торгует на бирже, строит оптимальные маршруты, рекомендует фильмы и музыку, ориентируясь на предпочтения пользователя.

Но разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью данных и алгоритмов. В этом и состоит работа дата-сайентиста.

Усредненный портрет этого специалиста замечательно представлен в исследовании 360datascience. Согласно его результатам, дата-сайентист образца 2019 года — это молодой человек (в профессии 70 % мужчин и 30 % женщин) с высшим техническим образованием (кроме того, 30 % имеют ученую степень), у него уже есть за плечами два года опыта работы в роли дата-сайентиста и восемь лет общего трудового стажа.

Также он владеет как минимум двумя языками программирования и разговаривает на двух языках.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— Какие задачи ставятся перед дата-сайентистами?

— Самые разные. Одно дело, когда у компании уже отлаженные процессы, готовые исторические данные и даже какой-то штатный работающий алгоритм. В этом случае от дата-сайентиста требуется, например, повысить точность распознавания или предсказания уже работающей системы.

Однако в современном мире дела обстоят совсем не так просто. И технологические гиганты, и стартапы работают в сфере инноваций. Это не только поле больших возможностей, но и больших рисков.

Процесс создания инноваций характеризуется высокой степенью неопределенности. Тут, как правило, нет ни готовых данных, ни алгоритмов, ни рецептов успеха. Есть лишь энтузиазм и сплошная неясность.

Соответственно, меняется и подход к тому, что должен знать и уметь дата-сайентист. Сегодня на Западе наряду с понятием data scientist появляется понятие Unicorn data scientist.

— Чем различаются эти специальности?

— Отличие этого «единорога» от обычного дата-сайентиста состоит в присутствии навыков бизнес-аналитика и инновационного предпринимательства.

Он отлично разбирается в предметной области и знает ее особенности, определяет и согласовывает технические требования, предъявляемые к алгоритму, выясняет (а часто и создает) бизнес-логику приложения, что требует понимания бизнес-процессов компании и умения находить общий язык с совершенно разными людьми, которые могут пребывать в разных точках нашей планеты: программистами, аналитиками, менеджерами, маркетологами, руководством и заказчиком.

Таким образом, помимо общей математической и технической грамотности, присущей дата-сайентисту, от «единорога» требуются такие качества, как креативность, проактивность, стратегическое мышление, умение доводить дело до конца.

В этой сфере очень важно доносить свои идеи и разговаривать по целому спектру вопросов проекта с разными специалистами именно на их языке — будь то ученый, маркетолог или программист.

Охота на единорогов: кто такие дата-сайентисты и чем они занимаются

— В каких областях особенно востребована профессия дата-сайентиста?

— Сегодня для руководителей бизнеса очевидно, что машинное обучение — ключевой фактор успеха их организаций на рынке, поэтому сферы применения этой профессии постоянно расширяются. Приведу в пример наиболее популярные области.

Машинное обучение востребованно в сфере безопасности (контроль государственной границы, системы контроля управления доступом зданий и объектов, криминалистика).

Идем дальше — здравоохранение (предсказание и диагностика заболеваний, помощь врачу в планировании операций, выявление аномалий на МРТ/КТ снимках).

Еще пример — информационные технологии (аналитические системы, выявление мошеннических действий, интеллектуальные чат-боты, системы планирования ресурсов и интеллектуальный рекрутинг персонала) или в интернет-бизнесе (поисковые системы, разнообразные почтовые, погодные, контекстная реклама и другие сервисы, такси, персонализированные рекомендательные системы, фильтрация спама).

Банковская и финансовая сфера (управление рисками, алгоритмическая биржевая торговля, кредитование, страхование).

Дата-сайентисты полезны и в логистике (навигация, доставка, оптимизация товаров на складе, поиск оптимального маршрута, разработка беспилотных транспортных систем).

И в управлении взаимоотношений с клиентами (поиск и привлечение потенциальных клиентов, выявление трендов, создание персональных предложений), в образовании (создание разнообразных платформ для соревнований и хакатонов, онлайн-курсов по машинному обучению).

— Какой диапазон заработной платы в разных странах, которую получают эксперты по аналитическим данным?

— По версии Glassdoor профессия дата-сайентиста сейчас возглавляет рейтинг лучших вакансий 2019 года в США и занимает седьмую строчку этого же рейтинга для Великобритании.

Медианная заработная плата составляет 108 000 долларов для США, 42 000 фунтов для Великобритании и 52 000 евро для Германии.

Если говорить о США, в технологических гигантах средняя заработная плата может стартовать от 130 000 долларов в год для специалистов с небольшим опытом и доходить до 200 000 долларов для профессионалов с многолетним опытом. Зарплаты «единорогов» начинаются от 200 000 долларов в год.

Что касается других стран, то существует исследование BusinessBroadway на 2018 год. Согласно ему, самые высокие средние зарплаты дата-сайентистов в США (120 000 долларов), Австралии (110 000), Израиле (87500 долларов) и Канаде (81 339 долларов), а самые низкие — в Польше (29 000 долларов), на Украине (25 125 долларов), в Индии (14 058 долларов) и России (13 052 доллара).

— Какова специфика этой профессии в сфере здравоохранения?

— Сама работа в сфере здравоохранения подразумевает повышенную степень ответственности за здоровье и жизни людей. Поэтому самый первый аспект работы дата сайентиста в этой области — этический.

Люди хотят знать ответ на вопрос, можно ли вверять жизнь и здоровье человека в руки роботу. В этой сфере никто не ставит целью заменить врача машиной, речь идет о том, чтобы искусственный интеллект стал средством поддержки принятия решений.

Например, робот может предсказывать у пациента наличие определенных заболеваний по симптоматке и предлагать варианты лечения, но окончательный диагноз ставит врач и лечение назначает он же.

Второй аспект — это данные. Для решения задач прогнозирования и классификации требуется наличие по возможности полных, консистентных, репрезентативных, предварительно размеченных данных. Дело в том, что в здравоохранении и медицине их пока недостаточно.

Это связано с тем, что разметка данных должна производиться врачом, а сбор и обработка информации — систематически. Это очень трудоемкий, монотонный и дорогой процесс именно в силу того, что это делается вручную.

И пока ресурсов на это не хватает. Но даже если допустить, что мы создали очень хорошую базу данных, некоторые заболевания эволюционируют, да и для традиционных болезней характерна большая вариативность признаков.

Соответствующие базы данных требуется постоянно обновлять, ведь если компьютер никогда не видел какое-нибудь заболевание, он не сможет его распознать и предложить вариант лечения.

Но на этом пути встают еще и юридические вопросы: это и защита персональных данных пациента (например, проводится деперсонификация информации), и принадлежность прав на медицинские данные.

— Где можно получить образование, навыки и знания в этой области?

— Сейчас очень подходящее время для того, чтобы стать дата-сайентистом. Вычислительные ресурсы сегодня очень дешевы, а знания можно почерпнуть из разной специализированной литературы, специальных порталов, из открытых источников и онлайн-курсов, а также благодаря работе на программном обеспечении, которое позволяет создавать сложные нейросетевые архитектуры абсолютно бесплатно.

Все, что требуется от человека, который находится в начале своего карьерного пути, — это врожденное любопытство и желание и готовность постоянно учиться. Это качество, кстати, касается абсолютно всех дата-сайентистов — и начинающих, и опытных.

Сфера искусственного интеллекта в целом и машинного обучения в частности, сейчас очень быстро развивается, новые методы решения задач, библиотеки и инструменты появляются буквально каждый день, надо успевать следить хотя бы за основными изменениями.

Чтобы стать дата-сайентистом, в первую очередь стоит получить качественное высшее математическое или техническое образование. Это фундамент, необходимый для того, чтобы работать с данными, понимать, что говорят цифры в данных, как работают алгоритмы, что пишут коллеги в своих научных статьях, оценивать время работы и точность алгоритмов, проверять гипотезы и т. д.

В большинстве случаев дата сайентисты это изначально математики, представители естественных наук (физика, химия, биология), инженеры и экономисты.

Если говорить о России, прекрасное базовое профильное образование можно получить в МГУ (мехмат, ВМК, физфак), МФТИ, ВШЭ. Также программы подготовки специалистов по анализу данных и компьютерным наукам существуют в Физтехе, ВШЭ и Сколтехе.

— А где стоит учиться программированию и машинному обучению?

— Второй момент — программирование. Каждый дата-сайентист должен уметь быстро воплощать свои идеи в коде. Де-факто рабочими языками являются Python и R. Опционально дата-сайентисты владеют SQL, lMatlab, Octave, C/C++, Java.

Существует множество онлайн-платформ по обучению программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.

Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях (Kaggle) и хакатонах, которые проводятся разными компаниями при взаимодействии с академическими институтами.

В прошлом году подобное мероприятие организовали Philips и Сколтех, предоставив молодым ученым попробовать себя в поиске решений для лечения заболеваний нервной системы.

Кроме того, многие дата-сайентисты получали опыт программирования на предыдущих местах работы.

Третий момент — это собственно теория и практика машинного обучения. Здесь большой популярностью пользуются курсы по Machine Learning и Deep Learning на Coursera от Andrew Ng и курсы Стэнфордского университета.

Что касается очных курсов, то подготовкой дата-сайентистов занимаются, например, в “Яндексе” (Школа анализа данных) и компании Mail Group (Техносфера).

Профильная ученая степень крайне приветствуется работодателями, но не является обязательной: судя по тому, что число людей со степенью в отрасли практически не меняется из года в год, ее наличие не является необходимым условием для входа в профессию.

Однако получение ученой степени в области искусственного интеллекта в сильном университете можно рассматривать как конкурентное преимущество.

Дело в том, что в этом случае это не просто корочка, а доказательство того, что человек действительно является исследователем, самостоятельной «боевой единицей», способной не только грамотно применять существующие методы решения задач, но и изобератать алгоритмы для новых постановок и ситуаций.

— Как работают эксперты по аналитическим данным в лаборатории Philips Research?

— В лаборатории Philips Research каждый дата-сайентист занимается созданием интеллектуальной собственности в рамках текущих проектов компании. Тематика проектов достаточно широкая, и заниматься в лаборатории можно чем угодно: распознаванием образов и обработкой изображений, обработкой текстов, предсказаниями болезней, поиском аномалий, генеративными моделями и т. д.

В рамках проектов сайентисты принимают участие в разработке интеллектуальных систем, занимаются изобретательской деятельностью с последующим патентованием.

К тому же наши специалисты проводят исследования, экспериментируют с данными и оформляют свои результаты в виде научных статей с последующим докладом на ведущих мировых конференциях в сфере искусственного интеллекта.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 13:05
Юлия Трепалина

Во время проживания в отелях туристы, как правило, расходуют ощутимо больше воды, чем у себя дома: из-за долгого плескания в душе разница может доходить до 250 литров в день. В новом исследовании ученые с помощью эксперимента показали, как побудить отдыхающих пользоваться водными ресурсами экономнее.

Вчера, 18:00
Андрей

Индийские палеонтологи обнаружили 27 крупных позвонков древней змеи эпохи раннего эоцена, которую отнесли к новому виду. По оценкам исследователей, это самый крупный представитель семейства Madtsoiidae, чей рост мог достигать 15 метров. Ему дали имя в честь индийского божества.

Позавчера, 11:00
НИУ ВШЭ

Северный Кавказ играл ключевую роль в древней колонизации Евразии и формировании ее культурного и генетического наследия, однако до сих пор не до конца изучена генетическая история носителей местных культур. Ученые впервые провели глубокое секвенирование древней ДНК представителей кобанской культуры, сформировавшейся в позднем бронзовом веке на Северном Кавказе, и сравнили ее с генетическими данными современных народов Кавказа. Результаты работы подтвердили роль носителей кобанской культуры как древнего генетического моста между бронзовым и железным веками на Северном Кавказе.

16 апреля
Ольга Иванова

Американские исследователи пришли к выводу: тихоходки способны повышать уровень продуктов генов репарации ДНК до такой степени, что это позволяет сделать их одними из самых распространенных в своем геноме. Среди прочего это помогает им выдерживать экстремальную радиацию.

Позавчера, 11:00
НИУ ВШЭ

Северный Кавказ играл ключевую роль в древней колонизации Евразии и формировании ее культурного и генетического наследия, однако до сих пор не до конца изучена генетическая история носителей местных культур. Ученые впервые провели глубокое секвенирование древней ДНК представителей кобанской культуры, сформировавшейся в позднем бронзовом веке на Северном Кавказе, и сравнили ее с генетическими данными современных народов Кавказа. Результаты работы подтвердили роль носителей кобанской культуры как древнего генетического моста между бронзовым и железным веками на Северном Кавказе.

Вчера, 13:05
Юлия Трепалина

Во время проживания в отелях туристы, как правило, расходуют ощутимо больше воды, чем у себя дома: из-за долгого плескания в душе разница может доходить до 250 литров в день. В новом исследовании ученые с помощью эксперимента показали, как побудить отдыхающих пользоваться водными ресурсами экономнее.

8 апреля
Василий Парфенов

Режим работы, количество трудовых часов в неделю и экономическую стабильность профессии прочно ассоциируют с благополучием человека. Количественно и качественно определить эти взаимосвязи получается редко — нужны большие выборки респондентов и длительное время наблюдений. Автор новой научной работы использовал долговременное исследование более чем семи тысяч американцев, чтобы выявить основные эффекты паттернов трудовой деятельности на психическое и физическое здоровье работающих людей.

28 марта
Игорь Байдов

Американская компания JetZero, которая обещает произвести фурор в гражданской авиации, получила сертификат летной годности на испытания уменьшенной копии разрабатываемого ею сверхэффективного реактивного авиалайнера со «смешанным крылом». Предстоящая программа летных испытаний будет направлена на оценку летно-технических характеристик самолета, его устойчивости и управляемости.

21 марта
Дарья Г.

По спектральным данным от «Джеймса Уэбба» и результатам компьютерного моделирования атмосферы астрономы показали, что экзопланета LHS 1140 b — мир-океан. Причем по характеристикам это лучший на сегодня потенциально обитаемый мир, подходящий для пристального изучения.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: