Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных). Что такое data science и как это работает?  Data scientist где учиться

Data Science - очень трендовая тема. Специалиста в этой области, Data Scientist, уже назвали самой “сексуальной” профессией XXI века. Коллеги в SkillFactory нашли и собрали полезные статьи, мастер-классы и онлайн-курсы, которые помогут вам самостоятельно разобраться в этой теме и составить собственное впечатление.

Взрыв data science

Почему data science вызывает такой интерес? Основная причина - это скрытая эффективность, которая содержится в данных. Любая компания собирает данные. И их анализ позволяет делать более совершенные продукты, привлекать больше целевых клиентов и удерживать их, усовершенствовать бизнес-процессы и многое другое. Почему data science воспринимается как некая “волшебная пилюля”? Основной принцип состоит в том, что data science позволяет делать объективные выводы из имеющихся данных, свободные от предвзятости или предрассудков, свойственных для человека. Спрос со стороны бизнеса рождает и большой спрос на специалистов. Только в США в ближайшие три года ожидается нехватка порядка 190 тысяч специалистов по данным. Интерес соискателей также не заставил себя ждать:

Кто такой data scientist?

Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч. Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них - это математика, программирование, а также понимание бизнеса и стратегии.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) - работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. Разработчик BI (Business Intelligence Developer) - занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования. Инженер по данным (Data Engineer) - занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. Специалист по данным (Data Scientist) - занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.


Оригинал: http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

Введение в Data Science и Big Data

“Специалист по большим данным: где учиться и куда пойти работать”
  • В чем разница между Data Scientist и Data Engineer
  • Где учиться: курсы, магистерские программы и др.
  • Лайфхаки как найти работу
  • Введение в профессию Big Data от популярного сервиса Антирабство
  • Обзор всех профессий, связанных с Big Data
  • Какие навыки нужны для попадания в профессию
Подборка видео с неформальных встреч DataTalks на Youtube .
  • Организатор: компания Wargaming
  • Темы: как зарабатывать на данных и машинном обучении, визуализация данных
  • Спикеры: специалисты по анализу данных, бизнес-аналитики
“Как данные изменят бизнес” (TED)
  • Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
  • Спикер: вице-президент Boston Consulting Group Филип Эванс
  • Есть расшифровка лекции на русском
Кто и зачем создает искусственный интеллект?
  • Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
  • Очень занимательное и наглядное описание того, как развивался искусственный интеллект
Машинное обучение
  • Вторая лекция Байрама Аннакова
  • Типы машинного обучения и методов создания искусственного интеллекта
  • Множество кейсов и практических советов
Машинный интеллект и машинное обучение
  • Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
  • Увлекательное введение в тему с множеством ярких примеров
Нейросети: доступно о сложном
  • Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning

Подборка хороших курсов

Онлайн-курс “Машинное обучение и анализ данных”
  • Специализация Яндекса и МФТИ на Coursera на русском языке
  • Полное введение в data science и машинное обучение на базе Python
  • Теорию можно смотреть бесплатно, задания и сертификат - платные
Dataquest.io
  • Интерактивное пошаговое изучение Data Science с фокусом на Python
  • Обучение через практику: с самого начала работа с реальными данными и кодом
  • 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
Datacamp
  • Интерактивный онлайн-курс по Data Science с фокусом на R
  • 66 курсов по машинному обучению, анализу данных и статистике
  • Курс построен на решении практических задач
Анализ данных
  • Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
  • Срок обучения: 1 год. С лета 2017 - ускоренная программа (полгода)
  • Стоимость: 1999 рублей в месяц
Основы статистики
  • Бесплатное и ясное введение в математическую статистику для всех
Машинное обучение
  • Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
  • Этот курс можно считать индустриальным стандартом по введению в машинное обучение
  • Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
Введение в машинное обучение
  • Курс от Яндекса и ВШЭ
  • Очень хорошее теоретическое введение в машинное обучение
Видеозаписи лекций Школы анализа данных Яндекса
  • Видеозаписи занятий легендарной Школы анализа данных Яндекса
  • Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.
“10 онлайн-курсов по машинному обучению”
  • Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”
Ведение в SQL
  • Один из немногих бесплатных онлайн-курсов по SQL на русском языке
  • Интерактивный курс построенный на практике для аналитиков, маркетологов и product-менеджеров
  • Необходимый минимум, все самые важные операторы включая JOIN, GROUP BY и др.
  • Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий
  • Включает соревнования, научный семинар, выставку
  • Strata+Hadoop World
    • Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
    • Все звезды и все новинки - здесь
    • Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие
    Data Science Week
    • Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
    • Для профессионалов в области Big Data и новичков в этой сфере
    • Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов
    Data Fest?
    • Ежегодная конференция по Data Science, проходящая раз в год в Москве
    • Для разработчиков, инженеров, исследователей
    • Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом
    Open Data Science
    • Одно из самых крупных и живых сообществ по анализу данных в рунете
    • В основе - групповой чат Slack
    • Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а
    Moscow Data Science
    • Группа, посвященная митапам по Data Science в Москве
    • Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений - все на тему Data Science
    • Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом

    Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас.

    Кто из нас не слышал про «big data»? Вряд ли найдётся хоть один. В последние годы интерес к работе с данными значительно вырос, так как крупным IT компаниям нужно придумывать всё новые решения для анализа, обработки и последующего использования данных. Некоторые даже запускают учебные программы совместно с вузами. Однако у большинства нет понимания, что это за люди, аналитики данных. Если вы один из таких людей, и у вас есть желание стать аналитиком данных, то эта статья для вас. Мы отобрали только бесплатные средства обучения, которыми можно пользоваться вне зависимости от вашего местоположения.

    Чем занимаются аналитики данных

    Так называемые data analyst`ы занимаются её информации и анализом для получения наглядных, воспринимаемых человеком результатов. К таким людям обычно причисляют специалистов по big data, data mining, машинному обучению, анализу систем, бизнес-аналитиков.

    Что смотреть

    Лекции «Школы анализа данных» от Яндекса

    ШАД - курсы по анализу данных от сотрудников Яндекса. Поступить туда довольно непросто, минимум, предъявляемый к поступающим - базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования. К счастью, курсы записываются, чтобы все желающие смогли обучаться по видеолекциям.

    Курс «Машинное обучение»

    На курсе учат применять теорию вероятности и статистику, рассказывают об основах машинного обучения, учат строить алгоритмы

    Курс «Алгоритмы и структуры данных поиска»

    Во время лекций рассказывается про алгоритмы поиска и сортировки больших объёмов данных, алгоритмы и манипуляции со строками, теоретико-графовые алгоритмы, построение и анализ структур данных.

    Курс «Параллельные и распределенные вычисления»

    Для тех, кто хотел давно познакомиться с многопоточным и параллельным программированием, а также MapReduce.

    Курс «Дискретный анализ и теория вероятностей»

    В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики, а также демонстрируется их применение.

    Курс «Сложность вычислений»

    После просмотра курса вы узнаете о вероятностных классах сложности и основных приёмов анализа и построения данных.

    Лекции Технострим Mail.ru Group

    Программы курсов предназначены для учащихся нескольких вузов Москвы, но доступны любым желающим. Будущим аналитикам мы советуем следующие сборники лекций:

    Лекции Big Data University

    Big Data University - онлайн курс, созданный совместно с IBM для новичков и людей не имеющих математического образования. Лекции, помогающие ознакомиться с основами работы с данными записаны на понятном английском языке.

    Welch Labs

    На этом канале собраны лекции по математике, информатике, программированию и машинному обучению. В процессе, приводятся примеры применения изучаемых вещей в реальной жизни. Лекции на английском, но есть отличные русские субтитры.

    Курс « Обучение по структурированным данным: Введение в вероятностные графические модели» факультета компьютерных наук НИУ ВШЭ

    Курс ориентирован на углублённое введение в теорию и приложения одного из самых популярных на сегодняшний день подходов к решению таких задач — дискретных вероятностных графических моделей. Язык курса — английский.

    Канал sentdex

    Канал полностью посвящен работе с данными. Причем полезные вещи для себя найдут не только те, кому интересна математика. Здесь есть видео по анализу и программированию для финансовых аналитиков и робототехнике с помощью Rasperri Pi.

    Канал Siraj Raval

    Парень рассказывает о современных технологиях и как с ними работать. Научиться работе с данными помогут курсы по глубинному обучению, data science, машинному обучению.

    Канал Data School

    Если вы только краем уха слышали что-то про машинное обучение, но уже заинтересовались, то этот канал для вас. Автор на понятном уровне, с примерами объяснит что это, как работает и где применяется.

    Где заниматься

    Для тех, кто не уверен, что готов полностью самостоятельно обучаться смотря лекции существуют онлайн-курсы с заданиями с проверкой.

    Курсы по data science на Coursera

    Не нужно объяснять что это за платформа. Нужно выбирать курс и начинать заниматься.

    Stepik.org

    Анализ данных в R

    В первой части рассматриваются все основные этапы статистического анализа R, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов. Слушатели научатся основным элементам программирования на языке R, что позволит быстро и эффективно решать широчайший спектр задач, возникающих при обработке данных.

    Во второй части разбираются несколько продвинутых тем, которые не были рассмотрены в первой: предобработка данных при помощи пакетов data.table и dplyr, продвинутые приемы визуализации, работа в R Markdown.

    Введение в базы данных

    Погружение в СУБД

    Курс для тех, кто имеет некоторый опыт общения с реляционными СУБД и желает знать больше про то, как они работают. В курсе затронуты:

    • проектирование схемы базы данных;
    • управление транзакциями;
    • оптимизация запросов;
    • новые возможности реляционных СУБД

    Hadoop. Система для обработки больших объемов данных

    Курс посвящен методам обработки больших объемов данных с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.

    Многие работодатели сегодня находятся в активных поисках дата-сайентистов. При этом они заинтересованы в привлечении тех «ученых», у которых есть соответствующее образование. При этом нужно учитывать всю дезинформацию, которой полнится рынок. Мы расскажем вам о самых главных заблуждениях относительно Data Science и дата-сайентистов, о навыках, которыми должны они обладать, а также о том, кем же на самом деле являются представители этой редкой породы.

    Наука о данных (Data Science) является разделом информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объемов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Рассматривается как академическая дисциплина. С начала 2010-х годов позиционируется как практическая межотраслевая сфера деятельности. Специализация «ученый по данным» с начала 2010-х годов считается одной из самых высокооплачиваемых, привлекательных и перспективных профессий.

    Data Science заблуждения

    1. Big data – это статистика и бизнес-аналитика с большим количеством данных. Здесь нет ничего нового

    Такого мнения придерживаются преимущественно те люди, которые обладают ограниченным опытом разработки программного обеспечения, или не отягощены вообще никаким опытом. Хотите аналогию? Пожалуйста. Возьмем в качестве примера лед. Его можно назвать ну очень холодной водой. Что тут нового? Тем не менее, охлаждение воды меняет не только ее температуру, но решительным образом изменяет ее качественные характеристики, преобразовывая жидкость в твердое вещество. То же самое может быть сказано и относительно большого количества данных. Большие массивы данных, в конечном счете, ломают старые парадигмы вычислений, расчетов и выкладок. При использовании традиционных методов бизнес-аналитики на проведение тех или иных расчетов могут уйти годы. Распараллеливание и распределенные вычисления являются очевидными ответами на вопрос о масштабировании. Но это не всегда оказывается так легко, даже в случае такого простого статистического инструмента, как логистический регрессионный анализ. Распределенные статистические вычисления настолько же отличаются от традиционной бизнес-аналитики, насколько лед от воды.

    2. Дата-сайентисты – те же инженеры-программисты после ребрендинга

    Иногда инженеры с большим опытом разработки программного обеспечения проходят переквалификацию и становятся дата-сайентистами с целью повышения заработной платы. Однако такая практика зачастую приводит к неудовлетворительным результатам. Ведь в сфере big data отладка ошибок статистики даже на самом простом уровне представляется довольно сложной задачей. Инженеры обучены обнаруживать и устранять программные ошибки. Но без твердых знаний по теории вероятности и статистике даже крутому программисту вряд ли удастся успешно устранить несложную статистическую ошибку.


    Инженеры более высокого уровня умеют строить простые дискретные модели, основанные на правилах. Но такие модели не подходят для получения более тонких инсайтов из данных. Отсюда и упущенная финансовая выгода. Потому для получения ответов на «big data вопросы» нужны высококвалифицированные и узкоспециализированные кадры, которые будут фундаментом предиктивного моделирования следующего поколения.

    3. Дата-сайентистам не нужно понимать бизнес – им все расскажут данные

    Люди, которые имеют за плечами образование и опыт работы программиста, зачастую поддаются этому соблазну. И, правда, зачем им разбираться в бизнесе, если у них настолько мощная база? Мощная, но не всемогущая. Поиск всех возможных корреляций невероятно трудоемкий и затратный по времени, не говоря уже о статистической проблематике. Дата-сайентисты просто обязаны руководствоваться бизнес-интуицией, чтобы успешно различать ложные и реальные корреляции. Отсутствие экспертных знаний в той или иной сфере может приводить к необоснованным выводам. Как вам это? Увеличение количества полицейских приводит к росту преступности – значит, необходимо сократить число правоохранителей в районах с неблагоприятной криминогенной обстановкой. Наконец, наличие деловой интуиции также важно для убеждения основных заинтересованных сторон: рассуждая о корреляциях на языке, который понимают бизнесмены, специалист по данным будет более успешен, чем его коллега, не обладающий бизнес-чутьем.


    Большие данные и наука о данных – это знания о том, как построить оптимальную модель, в которой будут сочетаться правильный инжиниринг, статистические и деловые навыки. Без этого дата-сайентист не сможет достигнуть всего того, что он намеревается сделать.

    Так кто же такие дата-сайентисты?

    Ученые по данным представляют собой продукт эволюции бизнес- и дата-аналитиков. Формально обучение таких специалистов включает информатику, статистику, аналитику и математику. Что отличает первоклассного дата-сайентиста? Сильная деловая хватка в сочетании со способностью общаться с бизнес- и IT-руководителями в таком формате, который помогает влиять на развитие компании. Анджул Бамбра, вице-президент отдела big data в компании IBM, утверждает, что ученые по данным – это «частично аналитики, а частично художники». Это очень любознательные люди, которые могут смотреть на данные и определять тенденции. Их можно сравнить с художниками эпохи Возрождения, которые хотели не просто учиться, но и изменять окружающий их мир.

    В то время как традиционный аналитик анализирует данные из одного источника (например, системы CRM), дата-сайентист обязательно изучает данные из нескольких разнородных источников. Он будет настойчиво просеивать все входящие данные с целью обнаружения ранее скрытых инсайтов, которые могут обеспечить конкурентное преимущество. Дата-сайентист не просто собирает и анализирует данные, но смотрит на них под разными углами и анализирует в разных контекстах, определяет то, что значат те или иные данные для бренда, а затем дает рекомендации относительно применения наличествующей информации.


    Дата-сайентисты – это люди, которые постоянно исследуют, задают миллионы вопросов, проводят «а что, если…» анализ, подвергают сомнению существующие предположения и процессы, определяют богатые источники данных и присоединяют к ним бедные массивы… В конкурентной среде, где задачи постоянно меняются, а бурное течение данных никогда не иссякает, дата-сайентисты помогают руководству принимать решения . И это самое ценное их качество.

    Почему «ученые»?

    Многие утверждают, что называть специалиста по данным ученым весьма и весьма претенциозно. Однако если постараться смотреть в корень, то такая формулировка обретает смысл. Например, физики-экспериментаторы должны сами разрабатывать и создавать оборудование, собирать данные, проводить эксперименты и обобщать все полученные сведения в отчетах. То же самое делают и дата-сайентисты. Потому самыми высококвалифицированными учеными по данным считаются люди с ученой степенью по физике или общественным (социальным) наукам.


    Лучшими на планете дата-сайентистами являются ученые со степенью доктора наук в таких эзотерических областях, как экология и системная биология. Яркий пример – Джордж Румелиотис, возглавляющий команду дата-сайентистов компании Intuit в Силиконовой долине. Он получил докторскую степень в области астрофизики. Многие дата-сайентисты являются обладателями ученых степеней по информатике, математике и экономике. Но, как бы там ни было, хороший специалист, специализирующийся на анализе данных, может выйти из любой области.


    Основные навыки, без которых не обойтись дата-сайентисту

    Базовые инструменты . Независимо от того, какие задачи ставит компания, ученый по данным должен знать, как использовать базовые инструменты: язык программирования R для статистической обработки данных и работы с графикой, высокоуровневый язык программирования Python, ориентированный на повышение производительности разработчика и читаемости кода, язык структурированных запросов, такой как SQL, применяемый для создания, модификации и управления данными в произвольной реляционной базе данных.

    Базовая статистика . Понимание статистики является жизненно необходимым для дата-сайентиста. Не секрет, что многие специалисты не в состоянии определить даже P-значение – величину, используемую при тестировании статистических гипотез. Дата-сайентист просто обязан быть знаком со статистическими тестами, распределениями, оценками максимального правдоподобия и т.д. Статистика важна для разных сфер бизнеса, особенно для data-driven компаний


    Машинное обучение . Если дата-сайентист работает в крупной компании с огромными объемами данных, он должен быть знаком с методами машинного обучения. Конечно, многие из этих методов могут быть реализованы при помощи библиотек R или Python, потому здесь не нужно быть ведущим мировым экспертом, чтобы разобраться в том, как работают алгоритмы. Гораздо важнее понимать, когда использование тех или иных методов будет наиболее целесообразным.

    Многовариантные расчеты и линейная алгебра . Эти дисциплины образуют основу многих методов машинного обучения.

    Подготовка данных к анализу . Зачастую анализируемые данные бывают довольно «грязными», значительно усложняя работу с ними. Потому очень важно знать, как бороться со всеми недостатками данных. В качестве примера несовершенства data можно привести такое противоречивое форматирование строк, как «New York» - «new york» - «ny», или даты «2014-01-01» – «01/01/2014», или использование системы UNIX-время и последовательности Timestamp.

    Визуализация данных и коммуникация . Это невероятно важные моменты, особенно если речь идет о молодых data-driven компаниях, или же о тех компаниях, в которых дата-сайентисты воспринимаются как люди, помогающие принимать data-driven решения. Очень пригодятся знания ggplot (расширение языка R) и JavaScript-библиотеки для обработки и визуализации данных D3.js.

    Программирование . Дата-сайентисты, как правило, ответственны за обработку большого количества регистрационных данных и data-driven продуктов.

    Думать как дата-сайентист . Работодатель всегда хочет видеть в дата-сайентисте человека, который решает проблемы. «Ученый» всегда должен знать, что является важным на данном этапе, а что не представляет особой ценности. Он обязан взаимодействовать с проектировщиками и менеджерами, отвечающими за развитие продукта.


    Издание Harvard Business Review утверждает, что дата-сайентист – самая сексуальная профессия 21 века. И с этим сложно не согласиться. Наука о данных только развивается, и всех современных дата-сайентистов можно смело назвать пионерами. И если вы можете сказать, что являетесь лучшим IT-специалистом среди статистиков и лучшим статистиком среди IT-специалистов, тогда вы настоящий дата-сайентист.

    При подготовке статьи были использованы материалы

    Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

    Data Science - наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

    (С.Мальцева, В.Корнилов НИУ «ВШЭ»)

    Профессия новая, актуальная и . Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

    Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт (10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

    Массивы данных подразделяют на 3 вида:

    структурированные (например, данные кассовых аппаратов в торговле);

    полуструктурированные (сообщения E-mail);

    неструктурированные (видеофайлы, изображения, фотографии).

    Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

    По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

    Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

    Особенности профессии

    В работе с данными Data Scientist использует различные способы:

    • статистические методы;
    • моделирование баз данных;
    • методы интеллектуального анализа;
    • приложения искусственного интеллекта для работы с данными;
    • методы проектирования и разработки баз данных.

    Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

    • сбор данных из разных источников для последующей оперативной обработки;
    • анализ поведения потребителей;
    • моделирование клиентской базы и персонализация продуктов;
    • анализ эффективности внутренних процессов базы;
    • анализ различных рисков;
    • выявление возможного мошенничества по изучению сомнительных операций;
    • составление периодических отчетов с прогнозами и презентацией данных.

    Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным - это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.

    Плюсы и минусы профессии

    Плюсы

    • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. По данным McKinsey Global Institute к 2018 г. только в США потребуется более 190 тысяч Data Scientist. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
    • Высокооплачиваемая профессия.
    • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

    Минусы

    • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
    • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

    Место работы

    Data Scientist занимают ключевые позиции в:

    • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
    • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
    • медицине (автоматическая диагностика болезней);
    • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
    • телекомпаниях;
    • крупных торговых сетях;
    • избирательных кампаниях.

    Важные качества

    • аналитический склад ума;
    • трудолюбие;
    • настойчивость;
    • скрупулёзность, точность, внимательность;
    • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
    • коммуникабельность;
    • умение объяснить сложные вещи простыми словами;
    • бизнес-интуиция.

    Профессиональные знания и навыки:

    • знание математики, матанализа, математической статистики, теории вероятностей;
    • знание английского языка;
    • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
    • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
    • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
    • главный базовый навык специалиста по data scientist - организация и администрация кластерных систем хранения больших массивов данных;
    • знание законов развития бизнеса;
    • экономические знания.

    Вузы

    • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
    • МФТИ, Кафедра анализа данных.
    • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
    • Школа анализа данных Яндекс.
    • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
    • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

    Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

    • онлайн-курсы ведущих университетов мира COURSERA;
    • канал машинного обучения MASHIN LEARNING;
    • подборка курсов edX;
    • курсы Udacity;
    • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
    • 6-шаговые курсы Datacamp;
    • обучающие видео O’Reilly;
    • скринкасты для начинающих и продвинутых Data Origami;
    • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
    • соревнования по анализу данных Kaggle.сom

    Оплата труда

    Зарплата на 04.07.2019

    Россия 50000—200000 ₽

    Москва 60000—300000 ₽

    Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. - $140 тыс. в год.

    По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

    Ступеньки карьеры и перспективы

    Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

    Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

    ЧТО ТАКОЕ « BIG DATA » в реальных цифрах?

    1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
    2. 90% всех существующих на сегодня данных появились за последние 2 года.
    3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
    4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
    5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
    6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
    7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
    8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
    9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
    10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

    Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

    В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:

    1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
    2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
    3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
    4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

    В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

    Видео: Новая специализация «Большие данные» - Михаил Левин

    Data Scientist в инфографике. Профессия свежая, высокооплачиваемая и на слуху. Но какими навыками должен обладать такой специалист? Рассмотрим.

    Поговорим о навыках

    Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.

    • Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
    • Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
    • Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
    • Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.

    Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:

    1. Математике и статистике.
    2. Предметной области и софте.
    3. Программировании и БД.
    4. Обмене данными и визуализации.

    Рассмотрим каждый пункт подробнее.

    Data Scientist и математическая статистика

    Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.

    1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.

    2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.

    3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.

    4. Байесовский вывод способствует подправке вероятности гипотезы.

    5. Контролируемое обучение:

    • деревья решений;
    • случайные леса;
    • логистическая регрессия.

    6. Неконтролируемое обучение:

    • кластеризация;
    • уменьшение размерности.

    7. Оптимизация: градиентный спуск и варианты.

    Навыки в предметной области и софте

    Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.

    Перечень необходимых скиллов диковинный, но не менее полезный:

    Программирование и базы данных

    От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.

    1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.