OSPconf Big Data Forum 2014 Ilya Gershanov

Факторы успеха проектов Больших Данных Илья Гершанов

[email protected]

mailto:[email protected]

Большие Данные (Big Data)

2

Data Velocity

(Скорость)

Data Volume

(Объём)

Data Variety

(Разнообразие)

GB TB

В настоящее время обозначает

класс задач обработки данных,

которые не могут быть эффективно

решены с помощью традиционных

инструментов и подходов.

2008 г. - Редактор журнала Nature

Клиффорд Линч (Clifford Lynch)

впервые употребляет термин Big

Data.

(*) https://en.wikipedia.org/wiki/Big_data

2001 г. – Сотрудник Gartner Даг Лени

(Doug Laney) вводит понятие (3xV) в

оборот.

MB PB

https://en.wikipedia.org/wiki/Big_data



№ Задача 2013 2014 За год%

1 Предсказание поведения клиента 45% 44%

2 Поиск корреляций в разнородных данных

(интернет, гео-, транзакции и т.д.)

52% 43%

3 Предсказание продаж продуктов или услуг 34% 36%

4 Предотвращение мошенничества и управление

финансовыми рисками

28% 27%

5 Анализ интернет-активности (clickstream) 11% 26%

6 Выявление рисков ИТ безопасности 23% 25%

7 Анализ активности в социальных сетях для

потребительского сегмента

18% 24%

8 Анализ сенсорных данных, web-логов, и т.д. 22% 23%

9 На данный момент не рассматривается 15% 14%

Зачем это нужно

Большие Данные и Бизнес

(*) По данным 2014 Analytics, BI, and Information Management Survey by Information Week

1

1

9

2

15

2

6

1

1

3

Большие

Данные

«Пик Завышенных

Ожиданий»

«Плато

продуктивности»

Ож

ид

ани

я

… Время

~5-10 лет

2012

2013

Степень зрелости решений


(*) Gartner's 2013 Hype Cycle for Emerging Technologies…

Многочисленные поставщики

инструментов и решений

Первые успешные внедрения

в корпоративном секторе

Консолидация поставщиков

Негативные публикации в

прессе

2й-3й раунд венчурных

проектов

<5% потенциальных

пользователей

Продукты и сервисы 2го

поколения

4

Транзакционные БД и

приложения

Приложения в Облаке

Большие

Транзакционные

Данные

OLAP и ПАК для ХД

Большие

Данные

Взаимодействия

Соц. сети, Web Logs

Устройства,

сенсоры

Документы и эл. письма Volume

Variety

Velocity

Большие Данные (Big Data) Hadoop и NoSQL

Hadoop

Хранение и обработка

больших объёмов

данных

и частично- и

неструктурированных

данных

NoSQL

Быстро-меняющиеся

модели данных

Простота управления

Гибкая разработка

Высоконагруженные и

распределенные

приложения

Кластерные

платформы

Обработка Больших Данных

Стоимость масштабирования

Стоимость лицензий и

внедрения

5

http://www.workday.com/index.php

http://www.greenplum.com/

Опасения и Риски


• Экспертов не хватает, они дороги 47% (+9%) • Инструменты:

• Нужных просто нет 20% (+2%)

• Те, что есть, - не совместимы 19%

• Сложны в освоении 18% (+1%)

Ресурсы

• Не очевидна экономическая

эффективность бизнес инициатив Больших

Данных 35% (+4%) Экономика $?

• Качество данных 27% (+6%) Качество

данных

(*)По данным 2014 Analytics, BI, and Information Management Survey by Information Week

• Доступность данных 17% (+4% **) Данные

недоступны

(**) По сравнению с данными за 2013 г. 6

//commons.wikimedia.org/wiki/File:Znak_kachestva_2.svg?uselang=ru

Данные

недоступны

Собственно

Работа с

Большими

Данными

Загрузка Данных,

Интеграция,

Качество Данных

70-80% трудозатрат в проектах

Больших Данных –

Интеграция Данных и обеспечение

Качества Данных

8

• Ускорение разработки

продуктов и услуг

• Высвобождение

ресурсов

• Задачи подготовки

данных -

доступным

разработчикам

PowerCenter

Перенос фокуса с «ручной» интеграции на продуктивную работу

Трудоёмкость проектов Больших Данных

Время и ресурсы на

аналитику и другие

продуктивные задачи

Время и ресурсы на подготовку данных (миграция, парсинг,

профилирование, очистка, трансформация, привязка)

Кодирование

С исполь-

зованием

инструментария

Informatica

или экономия!

(*) Comparative costs and uses for data integration platforms by Bloor Research. Март 2014 9

Загрузка в систему Больших Данных «как есть»

Простой пример

10

Исходная система

Целевые системы

Графическая консоль

Прямая загрузка (вариант 1)

Генерация схемы

данных

Или промежуточные файлы (вариант 2)

Репликация изменений

Графический интерфейс

Гетерогенные среды

Автоматический параллелизм

http://www.informatica.com/us/products/data-replication

РСУБД

ПАК

Hadoop

Очереди

На основе журналов

Пакетная





Без необходимости программирования

WebSphere MQ JMS MSMQ SAP NetWeaver XI

JD Edwards Lotus Notes Oracle E-Business PeopleSoft

Oracle DB2 UDB DB2/400 SQL Server Sybase

ADABAS Datacom DB2 IDMS IMS

Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP

Informix Teradata Netezza ODBC JDBC

VSAM C-ISAM Binary Flat Files Tape Formats…

Web Services TIBCO webMethods

SAP NetWeaver SAP NetWeaver BI SAS Siebel

Messaging, and Web Services

Relational and Flat Files

Mainframe and Midrange

Unstructured Data and Files Flat files

ASCII reports HTML RPG ANSI LDAP

EDI–X12

EDI-Fact

RosettaNet

HL7

HIPAA

ebXML

HL7 v3.0

ACORD (AL3, XML)

XML

LegalXML

IFX

cXML

AST

FIX

Cargo IMP

MVR

Salesforce CRM

Force.com

RightNow

NetSuite

ADP Hewitt SAP By Design Oracle OnDemand

Packaged Applications

Industry Standards

XML Standards

SaaS/BPO

Social Media

Facebook Twitter

LinkedIn EMC/Greenplum Vertica

AsterData

MPP Appliances

Разнообразие форматов и типов источников

11 http://www.informatica.com/us/products/data-integration/powerexchange/

http://www.salesforce.com/

http://www.informatica.com/us/products/data-integration/powerexchange/




• «Не пытайтесь строить

законченную систему

Больших Данных …

технологии развиваются

слишком быстро в

настоящее время…»

Нужно ли ставить всё на Большие Данные?

12 (*) Ральф Кимбалл Ralph Kimball Newly Emerging Best Practices for Big Data

В обозримом будущем

системы Больших Данных

будут сосуществовать с

традиционными в

корпоративном ИТ

ландшафте.

• «В ближайшем будущем

поддерживайте баланс

технологий, включая

Hadoop, традиционные

кластерные вычисления,

СУБД…»

Разгрузка Корпоративного Хранилища Данных

Большой пример

Корпоративное Хранилище Данных

Корпоративные

Приложения

Операционные Хранилища

Данных (ODS)

Транзакци

онные

системы

Business Intelligence

Hadoop

Load

… Job 2 Job 1

Load Extract Transform

Job y

Job x

…

Запросы

Визуальная разработка

Знание Hadoop не требуется

Трансформации данных

выполняются в Hadoop (или

ПАК) без лишнего

копирования данных

13

Load Extract Transform Запросы

Качество

данных


= Качество бизнес-процессов и решений Качество Данных

Согласо-ванность

Полнота

Досто-верность

Точность

Актуаль-ность

15


Как процесс уровня предприятия Качество Данных

Анализ

1. Профилирование данных 2. Определение

целевых показателей

качества данных

3. Проектирование и

разработка правил

качества данных

5. Мониторинг

фактических

показателей качества

данных относительно

целевых

Улучшение

4. Внедрение правил в

платформе интеграции

данных

16

Data Steward

Разработчик Владелец

данных

Аналитик

Визуализация

Анализ эмоциональной

окраски высказываний

Data Mining,

Предиктивная

аналитика

Корпоративное

Хранилище

Данных

Платформа Informatica

Обработка, расчёт

показателей качества,

анализ всех данных

Результаты

Ин

те

грац

ия

Бо

ль

ши

х Д

ан

ны

х

Бизнес- пользователь

Качество данных & управление

Соц.сети, Web-логи

Устройства и сенсоры

Документы и

эл.почта

Приложения,

мейнфреймы

платежи, сделки

Клиент

Сущ-ти

Справочные данные

и т.д.

Инстр-ты

Data Steward

К-во данных,

Управление

правилами

Разработчик

Выверка и

исправление

Владелец данных

Мониторинг и

управление

Профилирование

Аналитик

17

Удобные интерфейсы для ИТ и Бизнес-пользователей

Экономика $?

Как оценить бизнес-инициативы Больших Данных?

Экономическая эффективность

19

Международный опыт клиентов Informatica

Партнёры Informatica в России и СНГ

• Знают ваш бизнес

• И технологии

http://www.croc.ru/humour/

Экспертов не хватает, они дороги (47%)

Нет необходимых инструментов (20%)

Инструменты не совместимы (19%)

Инструменты сложны в освоении (18%)

Ресурсы

Какие люди нужны?

Big Data

21

(*) Дрю Конвей http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

$

//upload.wikimedia.org/wikipedia/commons/d/db/Data_Science_Venn_Diagram.png

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram










И незаменимые специалисты

Большие данные

SELECT

T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,

customer.C_NAME,

customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY

FROM

(

SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx

FROM lineitem

GROUP BY L_ORDERKEY

) T1

JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)

JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)

JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)

WHERE nation.N_NAME = 'UNITED STATES'

) T2

INSERT OVERWRITE TABLE TARGET1 SELECT *

INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,

count(ORDERKEY2) GROUP BY CUSTKEY; Hive-QL

1.Интеграция данных – работа технолога,

не кодировщика.

2.Поток работ транслируется в

специфические команды среды, например

СУБД или Hadoop

3.Гораздо проще в поддержке и развитии,

чем «некий скрипт».

4.Нет риска, что никто не разберётся в

«самописном» сценарии загрузки

MapReduce

UDF

Vibe – виртуальная машина данных. Её код

развёрнут прямо на узлах кластера Hadoop 22

= Удалённые среды разработки и тестирования

Аутсорсинг?

Атрибут Значение

Name Эдгар Кодд

SSN 556-12-5697

Account Number 1565-859-2565

Phone number 818-223-5755

Product Ипотека 30 лет

Balance $560,000

Loan Amount $720,000

Атрибут Значение

Name Алёша Попович

SSN 556-36-9999




Balance $560,000


Не маскированные данные Маскированные данные

Распрацоўшчык

Field Description

Name Алёша Попович

SSN 556-36-9999




Balance $560,000


Маскированные данные Developer

Безопасные среды с

маскированными данными

Возможно только с

подмножеством данных

промышленной системы

http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/

23














О Компании Informatica

• Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 9 лет.

#1 независимый поставщик решений для интеграции данных


25

$0

$100 000 000

$200 000 000

$300 000 000

$400 000 000

$500 000 000

$600 000 000

$700 000 000

$800 000 000

$900 000 000

$1 000 000 000• Год основания: 1993

• Прибыль за 2013 г. : 948.2 млн.

долларов США

• Средний рост прибыли в год

(CAGR): 17%

• Сотрудники: 3,080+

• Партнёры: 450+

• Крупнейшие SI, ISV, OEM,

консалтинговые компании, лидеры

рынка (SaaS, социальные сети)

• Клиенты: Over 5,000

• Клиенты в 82 странах

• Прямое присутствие в 28 странах

• 1е место в рейтинге Customer Loyalty

Rankings (7 лет подряд)

#1 независимый поставщик решений для интеграции данных


26

• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры

исследования и разработки по направлениям «Репликация Данных» и «Управление Мастер-Данными» в Санкт-Петербурге и Казани

• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов

• 6 сертифицированных системных интеграторов

Компания Informatica В России и СНГ

27

http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&frm=1&source=images&cd=&cad=rja&uact=8&ved=0CAQQjRw&url=http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC.png&ei=UccZU6btKIeShQeNl4CYCw&usg=AFQjCNHieUvie3kdOmVnpshBPEThiLHeAw&sig2=hLUmeQZd3_EDzVtE30bKZA&bvm=bv.62578216,d.ZG4

https://www.google.ru/imgres?imgurl&imgrefurl=http://toplogos.ru/logo-mvideo/&h=0&w=0&tbnid=Vyrbdjr3HMGraM&tbnh=150&tbnw=337&zoom=1&docid=riOtDYJAz7lP1M&ei=rMcZU9fyBfDd7Qbk3oGoDA&ved=0CAIQsCUoAA

Спасибо за внимание!

Будем рады ответить на ваши

вопросы на нашем стенде

www.informatica.com/bigdata

http://www.informatica.com/bigdata

OSPconf Big Data Forum 2014 Ilya Gershanov

Software

Transcript of OSPconf Big Data Forum 2014 Ilya Gershanov