Кто такой дата-сайентист и как им стать

Дата-аналитик

Если вам нравится описывать данные, выявлять в них тренды, анализировать полученные результаты и, наконец, визуализировать их для заказчика, вам подойдет позиция дата-аналитика. Скорее всего, в ходе работы вы будете много общаться с людьми и двигаться по карьерной лестнице быстрее, чем это делают дата-сайентисты.

С кем вам предстоит работать?

Вы будете часто взаимодействовать с представителями компаний, которые заказывают обработку и визуализацию данных. Иногда вы будете встречаться в офисе, иногда общение будет происходить онлайн — в электронной почте, Slack и Jira. По моему опыту, вам предстоит регулярно общаться с людьми и заниматься в основном аналитикой, при этом инженерных задач и работы с продуктом будет меньше.

С кем нужно будет делиться выводами?

Скорее всего, с теми же самыми людьми. Однако, если у вас есть менеджер, общение частично будет происходить через него. Также бывают ситуации, когда дата-аналитик получает задачу, выполняет ее и затем самостоятельно представляет результаты заказчикам. Для составления отчетов часто используются такие инструменты, как Tableau, Google Data Studio, Power BI и Salesforce. В основном они работают с доступными источниками, такими как CSV-файлы, но иногда приходится создавать более сложные SQL-запросы к базам данных.

С какой скоростью нужно выполнять задачи?

Вы будете работать над проектами значительно быстрее, чем дата-сайентисты. Запросы, материалы и аналитические данные приходят регулярно, и на их основе нужно создавать отчеты. Дата-аналитику, как правило, не нужно строить модели и делать прогнозы — его задачи более ситуативные и описательные, поэтому их можно выполнять быстрее.

Фото: Gorodenkoff / Shutterstock

Специалисты по изучению данных (data scientist)

Специалист по Data Science — это эксперт по данным, который часто имеет высшее образование в области математики или статистики и нередко умеет программировать на R или Python. Наиболее востребованные датасайентисты также обладают знаниями в соответствующих областях бизнеса.

Хотя наборы навыков у разных людей разнятся, задача специалиста по данным состоит в том, чтобы помочь их работодателю решить сложные проблемы, часто связанные с поиском инсайтов, оптимизацией бизнес-процессов и построением предиктивных моделей. Эта роль может рассматриваться как часть ИТ, или же она может быть интегрирована в один из департаментов компании. Из всех возможных ролей, связанных с данными, датасайентисты, как правило, являются наиболее опытными экспертами.

Основные задачи Data Scientist:

  • умение извлекать необходимую информацию из разнообразных источников
  • использовать информационные потоки в режиме реального времени
  • устанавливать скрытые закономерности в массивах данных
  • статистически анализировать их для принятия грамотных бизнес-решений.

Основное отличие специалистов по изучению данных от, например, аналитиков, — это умение видеть логические связи в системе собранной информации, и на основании этого разрабатывать те или иные бизнес-решения. Специалисты по изучению данных собирают информацию, строят модели на ее основании и активно применяют количественный анализ.

Именно это редкое сочетание компетенций определяет зарплату специалиста по изучению данных: в США она составляет $110 тыс. — $140 тыс. в год. «Эта вакансия становится все более востребованной,- отмечает на страницах IT World Лора Келли (Laura Kelley), вице-президент агентства по ИТ-консалтингу и подбору персонала Modis (США). — Компании уделяют все больше внимания информации и приложениям. Им требуются специалисты, способные управлять большим количеством данных`.

Майкл Раппа (Michael Rappa), директор Института аналитики в Университете Северной Каролины, вместе со своими коллегами уже 6 лет разрабатывает курс, на котором будут готовить специалистов по изучению данных. «Эти специалисты должны уметь извлекать нужную информацию из всевозможных источников, включая информационные потоки в режиме реального времени, и анализировать ее для дальнейшего принятия бизнес-решений, — говорит он. — Дело не только в объеме обрабатываемой информации, но также в ее разнородности и скорости обновления».

Компании, которые пытаются решить эту задачу силами специалистов по статистике, компьютерных или бизнес-аналитиков, не добиваются нужного результата. Необходимо объединить все эти навыки в одном человеке. Например, бизнес-аналитики воспринимают такие показатели, как разработка и менеджмент продукта, но не способны анализировать и адекватно интерпретировать данные. Математикам и специалистам по статистике недостает знаний в области бизнеса. Именно поэтому, по мнению Раппы, специалистам по изучению данных требуется междисциплинарное образование – они должны уметь решать бизнес-проблемы и составлять информационные модели.

100% выпускников разработанного Институтом аналитики курса для специалистов по изучению данных получили предложения о работе еще до того, как завершили обучение. Раппа также отмечает, что сама специальность — специалист по изучению данных — звучит более привлекательно, чем `специалист по статистике` или `компьютерный аналитик`.

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй — возможно более важный с практической точки зрения — чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Эти знания помогают ему выполнять свои должностные обязанности:

  • взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
  • собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
  • анализировать поведение потребителей;
  • составлять отчеты и делать презентации по выполненной работе;
  • решать бизнес-задачи и увеличивать прибыль за счет использования данных;
  • работать с популярными языками программирования;
  • моделировать клиентскую базу;
  • заниматься персонализацией продуктов;
  • анализировать эффективность деятельности внутренних процессов компании;
  • выявлять и предотвращать риски;
  • работать со статистическими данными;
  • заниматься аналитикой и методами интеллектуального анализа;
  • выявлять закономерности, которые помогают организации достигнуть конечной цели;
  • программировать и тренировать модели машинного обучения;

внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Кто он, Data Scientist?

Вообще-то Data Scientist —  профессия, окруженная разными мифами. В глазах одних Data Scientists — это подобие шаманов, способных из «больших данных добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать —  умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist — это специалист, владеющий тремя группами навыков:

  1. IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий — аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

Кто такой Data Scientist?

Давайте начнем наше знакомство с профессией с области, в которой работают Data Scientists. Data Science – это наука о данных, которая занимается изучением данных, их анализом различными методами и последующим преобразованием данных в полезные знания. Раньше обработать данные человек мог вручную, но сейчас их количество стало настолько огромным, что для обработки часто требуется искусственный интеллект. Поэтому наука активно взаимодействует с машинным обучением, математикой, статистикой и анализом данных.

Нас постоянно окружают результаты работы Data Scientists, например, мы ежедневно смотрим прогноз погоды, реклама предлагает нам определенные товары, авиасервисы прогнозируют стоимость билетов, врачи с помощью программ могут предсказать диагнозы, а голосовые помощники выполняют множество наших просьб. Всем этим и многими другими вещами управляет специалист по данным. Data Scientist – это специалист, который занимается поиском закономерностей в больших массивах данных, анализирует и хранит их. Профессия Data Scientist считается одной из самых высокооплачиваемых и сложных в мире ИТ. 

Стоит обратить внимание на то, что Data Science стала неотъемлемой частью будущего. Сейчас ее активно используют в стартапах, IT компаниях, различных бизнесах, чтобы предоставлять наиболее точные данные и прогнозы, быть ближе к пользователю, автоматизировать свои решения и повысить маржинальность бизнеса

Спрос на Data Scientists ежегодно растет. Например, по информации веб-сайта по поиску работы Indeed, за 2019 год вакансий Data Scientists стало на 29% больше. 

Data Scientists постоянно ищут паттерны и тренды в огромных наборах данных, используя многообразные тулы, техники и критическое мышление, чтобы найти практическое решение для реальных data-centric проблем. Давайте подробнее поговорим о том, что входит в обязанности специалистов по данным.

Работа data сайентистом

Профессия data scientist интересна и востребована. Многие прямо сейчас изучают эту сферу, в то время как другие ищут хороших специалистов по данной специальности.

Что касается востребованности, по множествам рейтингов в США эта профессия считается самой востребованной в стране. В России тоже много вакансий для дата-сайентиста, особенно в Москве. Так как сфера сейчас стремительно развивается и явно обладает огромным потенциалом, количество вакансий точно будет увеличиваться с каждым годом. Как у нас, так и за рубежом.

Основным плюсом работы специалистом по данным является заработная плата и быстро развивающееся направление, которое скорее всего будет актуально многие годы. Но сразу стоит отметить, что профессия объемная и трудная в изучении. Чтобы стать тем, кого возьмут на работу, надо потратить 1-2 года на обучение, усердно занимаясь на курсах или самостоятельно.

Так же дата-сайентистом крайне сложно стать людям, мало смыслящим в математике. Есть примеры, когда гуманитарий становился data-сайентистом, но для таких случаев путь изучения специальности еще более тернист и сложен. Помимо математики, облегчить становление специалистом по данным можно, зная статистику, программирование и основные принципы машинного обучения.

Заработок в профессии

То, сколько получают дата саентисты, зависит от нескольких факторов:

  • опыт работы ученого по данным;
  • навыки, которые можно подтвердить путем прохождения тестовых заданий или показа предыдущие проекты;
  • сферы деятельности компании-работодателя;
  • сложности конкретного проекта или группы проектов.

На 2020 год показатели зарплаты выше среднестатистических. Это от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Столько получают новички в профессии.

Средняя заработная плата специалиста составляет примерно 105-150 тысяч рублей в России и 140-190 тысяч рублей в Москве. Специалисты с высокой квалификацией и большим опытом зарабатывают от 230 тысяч рублей.

Заработок за границей зависит от страны. В Европе платят так же, как в Москве, а вот в Америке заработная плата больше. В час там платят в среднем 40-60 долларов, то есть работая условные 4 часа в день можно зарабатывать по 200 долларов. Высокая заработная плата связана не только с разницей в экономике России и США, но и с тем, что в Америке намного больше компаний и стартапов, которым нужен ученый по данным.

Требования и обязанности

Эффективный способ понять, что должен уметь дата саентист — ознакомиться с требованиями работодателя. Причем как в вакансиях на постоянную работу, так и в проектных работах на фрилансе. Конечно, у каждого работодателя будут свои требования к аналитику, но основные обязанности специалиста встречаются во всех вакансиях.

Список главных требований и обязанностей:

  • проведение исследований в области деятельности компании;
  • создание систем для прогнозирования и оценки рисков;
  • сегментация клиентов;
  • отличное владение SQL;
  • оптимизация процессов на основе большого объема данных;
  • создание автоматизированных систем для анализа данных на основе современного инструментария Data Science (Python, Apache Spark, Jupyter, Zeppelin);
  • работа в Apache Kafka, HDFS, Apache Spark, Apache Cassandra;
  • создание, развитие и поддержка внутренней инфраструктуры данных для их анализа, обработки и составления прогнозов;
  • знание языка программирования Python и/или R;
  • построение моделей данных и работа с сырыми данными;
  • формулировка гипотез и их валидация;
  • визуализация результатов;
  • понимание принципов математической статистики и методов машинного обучения;
  • использование прикладной статистики;
  • работа с современными системами контроля версий (Git, HG);
  • взаимодействие с подразделением IT.

Пример вакансии:

Где найти работу

В том, чтобы найти работу data сайентисту, нет ничего сложного. После обучения стоит поискать вакансии на одном из популярных сайтов (например, на HeadHunter или Trud). Там можно отфильтровать работу по опыту, заработной плате, виду деятельности и расположению офиса.

Если хочется начать с проектной работы, лучше поискать заказы на биржах фриланса. Отмечу, что проектные заказы, связанные с работой с данными, встречаются редко и довольно сложны в выполнении, так как требуют ознакомления с деятельностью компании-заказчика. Придется каждый раз делать это заново, ведь на фрилансе заказчики будут меняться часто. Поэтому данный вид деятельности рекомендован опытным специалистам, а не новичкам.

*2020: Академия больших данных MADE и HeadHunter выяснили, как меняется спрос на Data Scientist в России

16 июля 2020 года Академия больших данных MADE от Mail.ru Group и российская платформа онлайн-рекрутинга HeadHunter (hh.ru) составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют, а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

Академия MADE и HeadHunter (hh.ru) проводят исследование уже второй год подряд. На этот раз эксперты проанализировали 10 500 резюме и 8100 вакансий. По оценкам аналитиков, специалисты по анализу данных — одни из самых востребованных на рынке. В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения – в 7,2 раза, чем в 2015 году. Если сравнивать с 2018 годом, количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению – в 1,3 раза.

Активнее других специалистов по большим данным ищут ИТ-компании (на их долю приходится больше трети – 38% – открытых вакансий), компании из финансового сектора (29% вакансий), а также из сферы услуг для бизнеса (9% вакансий).

Такая же ситуация и в сфере машинного обучения. Но здесь перевес в пользу ИТ-компаний еще очевиднее – они публикуют 55% вакансий на рынке. Каждую десятую вакансию размещают компании из финансового сектора (10% вакансий) и сферы услуг для бизнеса (9%).

С июля 2019 года по апрель 2020 года резюме специалистов по анализу данных и машинному обучению стало больше на 33%. Первые в среднем размещают 246 резюме в месяц, вторые – 47.

Самый популярный навык — владение Python. Это требование встречается в 45% вакансий специалистов по анализу данных и в половине (51%) вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (Data Mining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

В целом предложение на рынке Data Science соответствует спросу. Среди самых распространенных навыков специалистов по анализу данных – владение Python (77%), SQL (48%), анализом данных (45%), Git (28%) и Linux (21%). При этом владение Python, SQL и Git – навыки, которые практически одинаково часто встречаются в резюме специалистов любого уровня. Опытных специалистов отличают развитые навыки анализа данных, в том числе интеллектуального (Data Analysis и Data Mining).

У специалистов по машинному обучению в топе такие навыки, как владение Python (72%), SQL (34%), Git (34%), Linux (27%) и С++ (22%).

На долю Москвы приходится больше половины (65%) вакансий специалистов по в сфере анализа данных и ровно половина вакансий специалистов в области машинного обучения. На втором месте Санкт-Петербург: 15% вакансий специалистов в сфере анализа данных и 18% вакансий в области машинного обучения — в этом городе.

По сравнению с первым полугодием 2019 года в июле 2019 года – апреле 2020 года доля вакансий специалистов по анализу данных в Москве несколько возросла — с 60% до 65%.

Что касается соискателей, больше половины из них также находятся в Москве: 63% специалистов по анализу данных и 53% специалистов по машинному обучению. Вторая строчка – тоже за Санкт-Петербургом (16% и 19% резюме соответственно).

Уровень дохода дата сайентиста

А теперь немного о самом популярном вопросе – сколько зарабатывает специалист? Дата сайентист – это одна из самых быстро развивающихся профессий и спрос на таких специалистов постоянно увеличивается. Интерес к аналитике больших данных будет расти еще долгое время.  А вот найти высококлассного специалиста  в этой сфере очень проблематично. Поэтому, если решили остановиться на данной профессии и считаете, что вам она по плечу, тогда есть все шансы найти хорошую перспективную работу, которая будет приносить вам высокий доход.

Заработная плата по этой специальности значительно отличается в зависимости от сферы деятельности и региона. В Москве начинающий специалист без опыта или со стажем до 1 года может найти работу с зарплатой до 100 тысяч рублей! Да, платят таким специалистам хорошо. В СПБ начинающий дата сайентист может получать от 45 до 85 тысяч рублей. По другим регионам, если появляются вакансии, доход меньше.

Профессионал уровня middle с опытом от 5 лет может рассчитывать на ежемесячный доход в разы больше: в Москве до 500 тысяч рублей, в СПБ – в среднем 150-200 тысяч рублей.

В качестве бонуса многие работодатели предлагают дополнительное обучение (повышение квалификации) за счет средств компании.

Заключение

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьезные теоретические знания и практический опыт нескольких профессий сразу. В любой компании такой специалист на вес золота. Чтобы достичь желаемых целей и постичь эту науку нужно упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

А еще бытует мнение, что лет через 10–20 любому менеджеру в продвинутой компании будет просто необходимо владеть хотя бы базовыми навыками Data Science. Как однажды рекрутер Линда Берч сказала в своем интервью Mashable: «Если вы не помешаны на данных, то через десять лет вам просто не найдется места в рядах начальников». Что ж, как говорится, поживем – увидим!

Материалы по теме:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector