Наиболее полный список инструментов для анализа данных и машинного обучения. Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Наиболее полный список инструментов для анализа данных и машинного обучения. Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Полезное

Огромное разнообразие различных платформ и инструментов для анализа данных может поставить в тупик любого специалиста, перед которым стоит задача построения бизнес процесса на основе продвинутого анализа данных предприятия. Сегодня машинное обучение и глубокий анализ данных уже не является чем-то новым. Это обязательный пункт, без которого бизнес не сможет нормально конкурировать в современном мире. Анализ собираемой информации — ключ к улучшению показателей бизнеса. Но для этого нужно располагать и оперировать инструментами для анализа данных. Какими? Давайте рассмотрим этот вопрос. Мы собрали для вас наиболее полный список представленных на рынке фреймворков, платформ, решений и систем продвинутой аналитики.

Кажется, что низкая стоимость распределенных вычислений и быстрота обработки делают Hadoop для Больших Данных примерно таким же по значимости решением, как и все остальные вместе взятые программные продукты. Любой перечень платформ Big Data с открытым исходным кодом действительно начинается с «железнорожденного слона», но Hadoop — не единственный краеугольный камень.

1 Hadoop

Presto поддерживает ANSI SQL, а это значит, что вдобавок к JSON, ARRAY, MAP и ROW, можно использовать стандартные типы данных SQL, функционал оконного интерфейса, статистические и аппроксимативные агрегатные функции.

По сравнению с Hive, у Presto есть недостаток: более активное участие в разработке, построении и развертывании определенных пользователем функций. Тем не менее, Presto считается одним из лучших механизмов с открытым исходным кодом для анализа Больших Данных.

7 Drill

9 IBM SPSS Modeler

Платформа IBM SPPS Modeler — коммерческий конкурент RapidMiner, который характеризуется низким порогом входа для начинающих. Понятность для новичков обеспечивается режимами «автопилота». Авто-модели (Auto Numeric, Auto Classifier) перебирают несколько возможных моделей с разными параметрами, определяя среди них лучшие. Не слишком опытный аналитик может построить на таком решении адекватную модель.

К основным особенностям SPSS следует отнести:

Пользовательский интерфейс SPSS постоянно улучшается, благодаря чему систему можно назвать интуитивно понятной. Выполнение простых задач вроде создания формул не требует подготовки в принципе. Все это делает IBM SPSS Modeler хорошим решением по части анализа данных для новичков.

Все достоинства IMB SPSS Modeler может затмить один недостаток, который отсекает крупную аудиторию пользователей. Речь о том, что данная система — это не лучший инструмент для анализа Больших Данных. Атрибуты, которые делают SPSS простым в использовании, слишком ограничены для масштабных подходов при работе с технологиями Big Data. В совсем плохих случаях, SPSS от перегрузки просто «падает».

Тем не менее, IBM SPSS Modeler остается популярным решением благодаря простоте использования и незатейливому интерфейсу.

10 KNIME

Аналитическая платформа Qlik предлагает полный доступ к ассоциативной машине индексации данных QIX, которая позволяет устанавливать взаимосвязи между несколькими источниками информации, которые, как правило, скрыты в иерархических моделях данных. «Фишка» в том, что именно QIX применяется компанией Qlik при создании своих остальных решений. QIX Engine использует столбчатое расположение данных в оперативной памяти, что обеспечивает высокую производительность при их индексации и сжатии. На практике это позволяет проводить data mining в более свободной форме, без необходимости предварительно определять возможные пользовательские запросы. В свою очередь, программисты могут более быстро создавать приложения на основе технологий Больших Данных, а пользователи — оперативно получать ответы.

Архитектура Qlik Analytics Platform включает в себя следующие элементы:

  1. Консоль управления Qlik (QMC) и Dev Hub.
  2. Интерфейсы программирования приложений (API) и наборы средств разработки (SDK) Qlik Sense.
  3. Вспомогательные службы Qlik Engine и Qlik Sense.

Платформа для анализа данных Qlik может быть использована в разработке аналитических приложений, информационных сервисов или платформ Интернета вещей. А обеспечение системой хороших визуальных и интерактивных возможностей позволяет пользователю лучше исследовать имеющиеся данные.

12

Это платформа российской разработки. Система предоставляет наиболее полный набор методов для Data Mining . В частности, в STATISTICA Data Miner реализованы инструменты предварительной обработки, фильтрации и чистки данных, что позволяет эффективно отбирать признаки из сотен тысяч возможных предикторов.

Особенностью данной платформы является возможность получения непосредственного доступа к базам данных даже без выполнения явных операций экспорта/импорта. ПО «умеет» обрабатывать, считывать и записывать данные почти со всех стандартных файлов. Сами прогнозные модели могут быть сгенерированы в различных форматах (PMML, C++, C#, Java, SAS, хранимые процедуры баз данных).

Пользователи отмечают, что благодаря встроенному Мастеру Data Mining, выполняющему автоматическое построение моделей, STATISTICA Data Miner отлично подходит людям, не связанным с разработкой ПО (например, аналитикам по маркетингу). Тем не менее, широкий набор методов кластеризации, архитектур нейронных сетей, деревьев классификации и регрессии, многомерного моделирования, анализа последовательностей, ассоциаций и связей делает данную платформу мощным инструментом в руках эксперта.

Отметим также, что недавно компания представила новый продукт — STATISTICA Big Data Analytics, который, как понятно из названия, дополняет список ПО для анализа Больших Данных. Данная платформа является масштабируемой; она может создавать выборки с помощью MapReduce, искать на движке Lucene/SOLR, проводить аналитику Mahout, работать в «облаке» и с текстом Natural Language Processing. А если интегрировать STATISTICA Big Data Analytics с корпоративной версией STATISTICA Enterprise, это позволит внедрить аналитику Больших Данных на уровне предприятия.

13 Informatica Intelligent Data Platform

Компания Informatica называет свою разработку «путем виртуальных данных». Informatica Intelligent Data Platform предоставляет интеллектуальные и управляющие сервисы, которые могут работать с большинством популярных данных и форматов: веб, социальные сети, машинные журналы.

Данная интеллектуальная платформа для анализа данных включает в себя Vibe — виртуальный механизм, который позволяет произвести интеграцию сопоставленных данных один раз, а затем запускать их в различных средах. Подобно STATISTICA Data Miner, Informatica IDP базируется на интерфейсе типа drag-and-drop, т. е. пользователю нужно лишь перетаскивать на рабочую среду необходимые элементы, а все инструкции генерируются системой автоматически.

Главной «фишкой» Informatica Intelligent Data Platform является подход, касающийся ввода структурированных, частично структурированных и неструктурированных данных на одной семантической волне. Понимание между этими данными возможно благодаря подходам мапинга, эвристики и сопоставлению с образцом.

Компания Informatica, которая считается одним из главных игроков в сфере разработки аналитических инструментов для работы с технологиями Big Data, гордится тем, что IDP является единственной платформой, получившей награды как от Gartner, так и Forrester почти во всех категориях управления данными.

Архитектурно Informatica Intelligent Data Platform состоит из 3 слоев:

  1. Vibe — это упомянутый выше движок управления любым типом данных. Поскольку сейчас Vibe является встроенным механизмом, он предоставляет всеобщий доступ к данным, независимо от их местоположения или формата. Так как Vibe исполнен в виде виртуальной машины, движок может работать на любой локальной серверной платформе, кластерах Hadoop или облачном сервисе.
  2. Data Infrastructure. Инфраструктурный слой данных располагается над виртуальной машиной Vibe. Он включает в себя все сервисы, предназначенные для автоматизации непрерывной подачи «чистых», безопасных и подключенных данных в любом масштабе к любой платформе, кластерам Hadoop или облачному сервису.
  3. Data Intelligence. Интеллектуальный слой данных находится поверх Data Infrastructure. Он собирает метаданные, семантические данные и прочую информацию со всей платформы. Как только данные собраны, Data Intelligence сегментирует их для упрощения дальнейшей обработки. Роль данного слоя — предоставить методы для обработки Больших Данных. Речь идет об аналитике, business intelligence (BI) , а также operational intelligence (OI) в режиме реального времени. А с недавнего времени Data Intelligence расширила список «навыков» Informatica IDP машинным обучением.

Итак, главными характеристиками платформы для анализа данных от Informatica являются гибридная структура, позволяющая подключить любое приложение к любому устройству, систематичность и глобальность данных, а также демократизация данных, исключающая обязательное присутствие у пользователя навыков разработки ПО и знание какого-либо языка программирования для анализа информации.

Data Lake отвечает за консолидацию данных в едином хранилище. Этот компонент нивелирует сложность хранения силоса данных, связанного с большим количеством разрозненной информации. Data Curator базируется на значениях из озера данных и предоставляет единый формат всех изученных и проиндексированных наборов данных как с самого Data Lake, так и с внешних источников. Согласно Dell EMC , куратор данных сохраняет до 80% времени специалистам по анализу данных при подготовке информации для аналитики. Data Governor содержит информацию о происхождении данных и обеспечивает их безопасность на протяжении всего процесса анализа. Также куратор данных позволяет видеть и использовать наборы данных в формате «end-to-end».

Итого, с Dell EMC Analytic Insights Module пользователь может:

  • исследовать, использовать и индексировать все данные в едином формате с помощью Data Curator;
  • узнать происхождение, обеспечить управление и безопасность для всех приложений и хранилищ данных с помощью Data Governor;
  • преобразовать всю важную информацию в управляемые данными приложения и бизнес-модели.

21 Windows Azure HDInsight

Azure Machine Learning не только предоставляет возможность для создания моделей прогнозного анализа, но и обеспечивает полностью управляемый сервис, который можно использовать для развертывания предиктивных моделей в виде готовых к использованию веб-сервисов.

При всей своей функциональности, нельзя сказать, что Azure Machine Learning поглощает финансовые ресурсы в гигантских масштабах. Поскольку сервис работает на публичном облаке Azure, необходимость приобретения «железа» или ПО отпадает сама собой.

Пожалуй, именно Azure Machine Learning на сегодняшний день является наилучшим инструментом для работы с машинным обучением.

23 Pentaho Data Integration

Система Pentaho Data Integration (PDI) — это компонент комплекса Pentaho, отвечающий за процесс извлечения, преобразования и выгрузки данных (ETL). Несмотря на то, что использовать ETL-системы предполагается в рамках комплекса хранения данных, средства PDI могут быть применены с целью:

  • обмена данными между приложениями или базами данных;
  • экспорта данных из таблиц баз данных в файлы;
  • загрузки массивов данных в базы данных;
  • обработки данных;
  • интеграции в приложения.

Pentaho исключает необходимость писать код, ведь весь процесс разработки ведется в визуальной форме, что дает основание говорить о PDI, как об ориентированной на работу с метаданными системе. С помощью рабочей панели и интерактивных графических инструментов, пользователи могут анализировать данные по нескольким измерениям.

Pentaho Data Integration упрощает интеграцию больших объемов данных с помощью «drag-and-drop» инструмента, который перемещает данные из хранилищ в хранилища Big Data. Система также способна дополнять и объединять структурированные источники данных с частично структурированными и неструктурированными источниками, чтобы в итоге сформировать единую картину.

Инструмент может быть полностью персонализирован: настройка визуализации, интерактивных отчетов, рабочей панели и специальный анализ — все это доступно пользователю. А поскольку PDI на 100% является Java-платформой, построенной на промышленных стандартах вроде веб-сервиса RESTful, интеграция с любым приложением не вызывает проблем.

24 Teradata Aster Analytics

Teradata Aster Analytics — это инструмент, который в рамках одного интерфейса и синтаксиса позволяет работать с текстом, графикой, машинным обучением, паттернами и статистикой. Бизнес-аналитики и специалисты по анализу данных могут провести комплексный анализ данных со всего предприятия путем выполнения одного запроса. У Teradata Aster Analytics есть более 100 интегрированных передовых аналитических запросов.

Данный инструмент позволяет объединить Graph, R и MapReduce в пределах одного фреймворка. Со всеми функциями, которые выполняются как команды SQL, и со всеми аналитическими движками, встроенными в инструмент, Aster Analytics обеспечивает высокую производительность при обработке больших массивов данных.

Аналитика Teradata Aster Analytics доступна в пределах экосистемы Hadoop и Amazon Web Services.

Aster Analytics на Hadoop:

  1. Расширяет сценарии использования озера данных. Aster Analytics делает «железнорожденного слона» доступным для большинства бизнес-аналитиков с навыками работы на SQL или R.
  2. Работает нативно. Пользователям не нужно перемещать данные из Hadoop на серверы для анализа данных.
  3. Быстро реализует аналитику. Пользователи могут создавать изолированную программную и рабочую среду на одном кластере Hadoop на одних и тех же данных.

Aster Analytics на AWS:

  1. Ускоряет окупаемость бизнеса. Компания может быстро подготовить аналитическую изолированную программную среду на облаке и, с целью ускорения процесса развития, использовать встроенные SQL-запросы.
  2. Повышает гибкость аналитики. Специалисту по анализу данных предоставляется мощный набор разноплановых инструментов: каждый аналитик может найти подходящее средство для работы с Большими Данными.
  3. Снижает финансовую нагрузку. Компании могут использовать встроенные передовые аналитические функции и наборы данных без необходимости использования нового оборудования.

25

Это инструмент, который направлен на то, чтобы оптимизировать ресурсы и повысить рентабельность в масштабах всей компании.

Интеграция экспертной аналитики с менеджером моделей на выходе дает более быстрые и точные результаты прогнозов, а также привносит прогностические идеи в бизнес-процессы и приложения — сферы, где пользователи взаимодействуют.

С SAP BusinessObjects Predictive Analytics можно:

  • автоматизировать приготовление данных, прогнозное моделирование, развертывание — и, как итог, легко переучить модель;
  • использовать расширенные возможности визуализации, чтобы быстрее сделать выводы;
  • интегрироваться с языком программирования R, чтобы открыть доступ к большому количеству пользовательских скриптов;
  • скооперироваться с SAP HANA .

SAP BusinessObjects Predictive Analytics расширяет границы возможностей Spark, чтобы предоставить клиентам более продвинутую интерактивную аналитику данных. Актуальная версия инструмента позволяет подключиться к SAP HANA Vora и выполнять прогнозное моделирование автоматически. Используя нативное моделирование Spark на одинаковых экземплярах Spark, SAP HANA Vora позволяет выполнять распределенную обработку автоматизированных алгоритмов.

Отметим, что Forrester Research в апреле 2015 года наградил SAP статусом лидера в предсказательной аналитике на Больших Данных.

26 Oracle Big Data Preparation

Построенный в среде Hadoop и Spark с целью масштабируемости, облачный сервис Oracle Big Data Preparation предлагает аналитикам высоко интуитивный и интерактивный способ подготовки структурированных, частично структурированных и неструктурированных данных для их последующей обработки.

Как и большинство вышеописанных инструментов, Oracle Big Data Preparation нацелен на бизнес-пользователей, поэтому сервис прост в использовании. Масштабируемость позволяет работать с итерационным машинным обучением в кластерной среде вычислений. Еще одним преимуществом Oracle Big Data Preparation является интеграция с рядом облачных сервисов.

Что касается функций данного инструмента, то их можно разбить на 4 части: потребление, расширение, управление и публикация, а также интуитивный авторинг.

В потреблении (ingest) сервис импортирует и работает с разнородной информацией, очищает данные (например, от незначимых символов), стандартизирует даты, номера телефонов и другие данные, а также вычисляет и удаляет ненужные дубликаты данных.

К расширению (enrich) следует отнести определение категорий данных и идентификацию их характеристик в терминах атрибутов, свойств и схем, обнаружение метаданных (обнаружение схемы определяет схему/метаданные, которые прямо или косвенно определены в заголовках, полях или тегах).

Управление и публикации (govern and publications) подразумевают под собой интерактивную панель управления, которая обеспечивает единый график всех обработанных наборов данных с соответствующими метриками и возможностями для дальнейшего детального аудита и анализа. В свою очередь, различные форматы публикаций обеспечивают максимальную гибкость.

Резюме

Нами был рассмотрен ряд средств для анализа данных от лучших производителей Big Data-решений. Как вы могли заметить, большинство решений являются опенсорсными, то есть имеют открытый исходный код. Фреймворков, баз данных, аналитических платформ и прочих инструментов действительно много, поэтому от вас требуется четкое понимание задачи. Определившись с поставленной целью, вы без проблем подберете нужное средство (или набор средств), которое позволит провести полноценный анализ данных.

Аналитик больших данных - это универсальный специалист, который обладает знаниями в математике, статистике, информактике, компьютерных науках, бизнесе и экономике. Аналитик Big Data изучает большие массивы данных, содержащие разрозненную информацию, например, результаты исследований, рыночные тенденции, предпочтения клиентов и пр. Исследование и анализ такой информации может привести к новым научным открытиям, повышению эффективности работы компании, новым возможностям получения дохода, улучшению обслуживания клиентов и т.д. Основное умение специалистов по изучению данных – это видеть логические связи в системе собранной информации и на основании этого разрабатывать те или иные бизнес-решения, модели.

Аналитики Больших данных должны уметь извлекать нужную информацию из всевозможных источников, включая информационные потоки в режиме реального времени, и анализировать ее для дальнейшего принятия бизнес-решений. Дело не только в объеме обрабатываемой информации, но также в ее разнородности и скорости обновления.

Сегодня термин Big Data, как правило, используется для обозначения не только самих массивов данных, но также инструментов для их обработки и потенциальной пользы, которая может быть получена в результате кропотливого анализа. Главные характеристики, отличающие Big Data от другого рода данных – три V: volume (большие объемы), velocity (необходимость быстрой обработки), variety (разнообразие).

Есть две основные специализации для людей, которые хотят работать с большими данными:

  • инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
  • аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

Основной спрос на аналитиков Big Data формируют IT и телеком-компании и крупные розничные сети. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data - это возможность посмотреть на имеющиеся данные с разных углов зрения.

Другие названия профессии: Специалист по исследованию данных, Data Scientist, BI, Business intelligence специалист, Big Data специалист.

Обязанности

Сбор данных

Любой аналитик больших данных имеет дело с разрозненной информацией, которую нужно правильно структурировать, а именно провести:

  • построение процесса сбора данных для возможности их последующей оперативной обработки;
  • обеспечение полноты и взаимосвязанности данных из разных источников;
  • выработка решений по оптимизации текущих процессов на основании результатов анализа.

Анализ данных

Структурировав данные аналитик должен на их основе провести анализ и получить ответы на ранее поставленные вопросы. Для этого аналитик делает:

  • анализ и прогнозирование потребительского поведения, сегментацию клиентской базы, статистических показателей;
  • анализ эффективности внутренних процессов и операционной деятельности;
  • анализ различных рисков;
  • составление периодических отчетов с прогнозами и презентацией данных.

Разработка эффективных бизнес-решений

В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений:

  • составление отчётов, заключение выводов;
  • презентация результатов.

Что нужно знать и уметь

    Личные качества
  • Быстрая обучаемость;
  • Критическое мышление;
  • Аналитический склад ума;
  • Внимание к мелочам;
  • Ответственность;
  • Широкий кругозор;
  • Cпособность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • Умение объяснить сложные вещи простыми словами;
  • Бизнес-интуиция.
    Основные навыки
  • Основательное знание отрасли, в которой происходит работа;
  • Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.);
  • ETL (Extraction, Transformation, Loading) – извлечение данных из различных источников, их преобразование для анализа, загрузка в аналитическую базу данных;
  • Умение ставить задачу специалистам по базам данных;
  • Свободное владение SQL;
  • Знание английского языка на уровне чтения технической документации;
  • Знание скриптовых языков программирования Python/Ruby/Perl;
  • Навык машинного обучения;
  • Умение работать в Hadoop, Google big table.

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.


Результаты опроса работодателей свидетельствуют о том, что специалисты по обработке больших данных (Big Data) работают в 6% компаний. Основной спрос на аналитиков Big Data формируют IT и телеком-компании, банки и крупные розничные сети.

Вопрос: «Работают ли в вашей компании специалисты по анализу больших массивов данных (Big Data, Data Scientist)?»

Вариант ответа Все сферы деятельности ИТ / Телеком Банки Ритейл
Да 6% 21% 17% 13%
Нет 75% 60% 50% 45%
Затрудняюсь ответить 19% 19% 33% 42%

В своих комментариях представители крупных компаний отмечали, что аналитика больших данных является важным направлением бизнеса.

«Big Data аналитики входят в подразделение Digital. Это стратегическое для нас направление, оно подчиняется напрямую генеральному директору. Создано подразделение в таком формате меньше года назад. Наш бизнес связан с получением огромного количество данных, поэтому аналитика для нас очень важна. У нас очень сильная команда и очень амбициозные задачи», - говорит представитель оператора связи.

«У нас около 15 направлений/проектов по банку, где такие специалисты востребованы. Каждому проекту нужны свои специалисты, и они могут разные данные анализировать», - комментирует рекрутер крупного коммерческого банка.

Специалисты по подбору персонала отмечали ряд сложностей в подборе аналитиков больших данных, вызванных дефицитом квалифицированных кадров и отсутствием критериев по оценке компетенций: «Сложно оценивать уровень квалификации и экспертизы. У нас очень высокие требования. Мы проводим многоступенчатый отбор, с несколькими этапами интервьюирования, с тестами, проверяющими аналитические способности. Очень большое количество кандидатов отсеивается».

«Все мы хотим уже состоявшихся специалистов, реализовавших успешные кейсы, но их мало на рынке. Сложно определить уровень человека, потому как задачи разные, не совсем понятно, будет ли адекватен его опыт для нас», - добавляет представитель крупного коммерческого банка.

Проблемы с поиском кадров увеличиваются из-за отсутствия общепринятого названия должности специалистов, занимающихся анализом больших данных, и пула стандартных должностных обязанностей.

Вакансии, подразумевающие работу с большими данными, могут носить совершенно различные названия, например: аналитик big data; математик/математик-программист; менеджер по анализу систем; архитектор big data; бизнес-аналитик; BI-аналитик; информационный аналитик; специалист Data Mining; инженер по машинному обучению.

Специалистов по работе с Big Data можно разделить на 2 направления:
инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

В должностные обязанности аналитика Big Data входит:

Построение процесса сбора данных для возможности их последующей оперативной обработки;
анализ и прогнозирование потребительского поведения, сегментация клиентской базы (кластеризация, классификация, моделирование, прогнозирование);
персонализация продуктовых предложений;
анализ эффективности внутренних процессов и операционной деятельности;
выработка решений по оптимизации текущих процессов на основании результатов анализа;
анализ рисков, подозрительных операций, выявление мошенничества;
обеспечение полноты и взаимосвязанности данных из разных источников (многоканальные продажи, маркетинг, интернет);
формирование периодических отчетов для оценки результатов, визуализация и презентация данных.

Заработные платы аналитиков Big Data и требования к их профессиональным навыкам

Зарплатный диапазон Требования и пожелания к профессиональным навыкам
- Высшее образование (математика, математическая статистика)
- Знание методов математической статистики, алгоритмов анализа данных и математического моделирования
- Знание современных технологий обработки больших данных
- Знание основ реляционных БД и языка SQL
- Знание английского языка на уровне чтения технической документации
80 000 - 110 000 руб. - Отличные аналитические навыки, способность видеть новые пути решения задач
- Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau
- Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.)
- Опыт работы с большими массивами данных, реляционными БД
- Опыт анализа больших массивов данных с выявлением зависимостей и закономерностей
- Опыт работы с инструментами визуализации данных (в т.ч. для построения графов)
- Опыт работы аналитиком Big Data от 1 года
- Знание скриптовых языков программирования Python/Ruby/Perl
- Опыт машинного обучения
- Опыт использования Hadoop, Google big table
- Опыт работы аналитиком Big Data от 2 лет

Возможное пожелание: знание английского языка на свободном или разговорном уровне

- Опыт построения коммерчески успешных сложных моделей поведения целевой аудитории помощью data mining инструментов
- Опыт работы аналитиком Big Data от 3 лет

Возможные пожелания:
- наличие научных публикаций в области Big Data;
- опыт внедрения систем по работе с Big Data

Код для вставки в блог

Аналитик Big Data

Исследовательский центр портала Superjob изучил предложения работодателей и ожидания претендентов на позицию «Аналитик Big Data» в Москве.

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:
  • С ними интересно работать.
  • Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
  • Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
  • Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:
  • Тактическая оптимизация - улучшение маркетинговых кампаний, бизнес-процессов.
  • Прогнозируемая аналитика - прогноз спросов и событий.
  • Рекомендательные системы - Amazon, Netflix.
  • Системы автоматического принятия решений - например распознавание лиц или даже беспилотники.
  • Социальные исследования - обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

Аналитика

Аналитика - это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных - это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
  • Модели, которые могут прогнозировать поведение пользователя.
  • Классификационные модели, которые могут узнать и отфильтровать спам.
  • Рекомендательные системы - изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
  • Нейронные сети - не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг - это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Конспект

  1. Чем больше данных, тем сложнее их анализ.
  2. Наука о данных - это знания о выводимых данных, отбор, подготовка и анализ.
  3. Машинное обучение применяется для сбора и анализа массивов данных.
  4. Дата майнинг - это процесс очистки больших данных и подготовки их к последующему анализу.