OSPconf Big Data Forum 2014 Ilya Gershanov

29
Факторы успеха проектов Больших Данных Илья Гершанов [email protected]

description

OSPconf Big Data Forum 2014 Ilya Gershanov (Informatica Corp.)

Transcript of OSPconf Big Data Forum 2014 Ilya Gershanov

Page 1: OSPconf Big Data Forum 2014 Ilya Gershanov

Факторы успеха проектов Больших Данных Илья Гершанов

[email protected]

Page 2: OSPconf Big Data Forum 2014 Ilya Gershanov

Большие Данные (Big Data)

2

Data Velocity

(Скорость)

Data Volume

(Объём)

Data Variety

(Разнообразие)

GB TB

В настоящее время обозначает

класс задач обработки данных,

которые не могут быть эффективно

решены с помощью традиционных

инструментов и подходов.

2008 г. - Редактор журнала Nature

Клиффорд Линч (Clifford Lynch)

впервые употребляет термин Big

Data.

(*) https://en.wikipedia.org/wiki/Big_data

2001 г. – Сотрудник Gartner Даг Лени

(Doug Laney) вводит понятие (3xV) в

оборот.

MB PB

Page 3: OSPconf Big Data Forum 2014 Ilya Gershanov

№ Задача 2013 2014 За год%

1 Предсказание поведения клиента 45% 44%

2 Поиск корреляций в разнородных данных

(интернет, гео-, транзакции и т.д.)

52% 43%

3 Предсказание продаж продуктов или услуг 34% 36%

4 Предотвращение мошенничества и управление

финансовыми рисками

28% 27%

5 Анализ интернет-активности (clickstream) 11% 26%

6 Выявление рисков ИТ безопасности 23% 25%

7 Анализ активности в социальных сетях для

потребительского сегмента

18% 24%

8 Анализ сенсорных данных, web-логов, и т.д. 22% 23%

9 На данный момент не рассматривается 15% 14%

Зачем это нужно

Большие Данные и Бизнес

(*) По данным 2014 Analytics, BI, and Information Management Survey by Information Week

1

1

9

2

15

2

6

1

1

3

Page 4: OSPconf Big Data Forum 2014 Ilya Gershanov

Большие

Данные

«Пик Завышенных

Ожиданий»

«Плато

продуктивности»

Ож

ид

ани

я

… Время

~5-10 лет

2012

2013

Степень зрелости решений

Большие Данные и Бизнес

(*) Gartner's 2013 Hype Cycle for Emerging Technologies…

Многочисленные поставщики

инструментов и решений

Первые успешные внедрения

в корпоративном секторе

Консолидация поставщиков

Негативные публикации в

прессе

2й-3й раунд венчурных

проектов

<5% потенциальных

пользователей

Продукты и сервисы 2го

поколения

4

Page 5: OSPconf Big Data Forum 2014 Ilya Gershanov

Транзакционные БД и

приложения

Приложения в Облаке

Большие

Транзакционные

Данные

OLAP и ПАК для ХД

Большие

Данные

Взаимодействия

Соц. сети, Web Logs

Устройства,

сенсоры

Документы и эл. письма Volume

Variety

Velocity

Большие Данные (Big Data) Hadoop и NoSQL

Hadoop

Хранение и обработка

больших объёмов

данных

и частично- и

неструктурированных

данных

NoSQL

Быстро-меняющиеся

модели данных

Простота управления

Гибкая разработка

Высоконагруженные и

распределенные

приложения

Кластерные

платформы

Обработка Больших Данных

Стоимость масштабирования

Стоимость лицензий и

внедрения

5

Page 6: OSPconf Big Data Forum 2014 Ilya Gershanov

Опасения и Риски

Большие Данные и Бизнес

• Экспертов не хватает, они дороги 47% (+9%) • Инструменты:

• Нужных просто нет 20% (+2%)

• Те, что есть, - не совместимы 19%

• Сложны в освоении 18% (+1%)

Ресурсы

• Не очевидна экономическая

эффективность бизнес инициатив Больших

Данных 35% (+4%) Экономика $?

• Качество данных 27% (+6%) Качество

данных

(*)По данным 2014 Analytics, BI, and Information Management Survey by Information Week

• Доступность данных 17% (+4% **) Данные

недоступны

(**) По сравнению с данными за 2013 г. 6

Page 7: OSPconf Big Data Forum 2014 Ilya Gershanov

Данные

недоступны

Page 8: OSPconf Big Data Forum 2014 Ilya Gershanov

Собственно

Работа с

Большими

Данными

Загрузка Данных,

Интеграция,

Качество Данных

70-80% трудозатрат в проектах

Больших Данных –

Интеграция Данных и обеспечение

Качества Данных

8

Page 9: OSPconf Big Data Forum 2014 Ilya Gershanov

• Ускорение разработки

продуктов и услуг

• Высвобождение

ресурсов

• Задачи подготовки

данных -

доступным

разработчикам

PowerCenter

Перенос фокуса с «ручной» интеграции на продуктивную работу

Трудоёмкость проектов Больших Данных

Время и ресурсы на

аналитику и другие

продуктивные задачи

Время и ресурсы на подготовку данных (миграция, парсинг,

профилирование, очистка, трансформация, привязка)

Кодирование

С исполь-

зованием

инструментария

Informatica

или экономия!

(*) Comparative costs and uses for data integration platforms by Bloor Research. Март 2014 9

Page 10: OSPconf Big Data Forum 2014 Ilya Gershanov

Загрузка в систему Больших Данных «как есть»

Простой пример

10

Исходная система

Целевые системы

Графическая консоль

Прямая загрузка (вариант 1)

Генерация схемы

данных

Или промежуточные файлы (вариант 2)

Репликация изменений

Графический интерфейс

Гетерогенные среды

Автоматический параллелизм

http://www.informatica.com/us/products/data-replication

РСУБД

ПАК

Hadoop

Очереди

На основе журналов

Пакетная

Page 11: OSPconf Big Data Forum 2014 Ilya Gershanov

Без необходимости программирования

WebSphere MQ JMS MSMQ SAP NetWeaver XI

JD Edwards Lotus Notes Oracle E-Business PeopleSoft

Oracle DB2 UDB DB2/400 SQL Server Sybase

ADABAS Datacom DB2 IDMS IMS

Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP

Informix Teradata Netezza ODBC JDBC

VSAM C-ISAM Binary Flat Files Tape Formats…

Web Services TIBCO webMethods

SAP NetWeaver SAP NetWeaver BI SAS Siebel

Messaging, and Web Services

Relational and Flat Files

Mainframe and Midrange

Unstructured Data and Files Flat files

ASCII reports HTML RPG ANSI LDAP

EDI–X12

EDI-Fact

RosettaNet

HL7

HIPAA

ebXML

HL7 v3.0

ACORD (AL3, XML)

XML

LegalXML

IFX

cXML

AST

FIX

Cargo IMP

MVR

Salesforce CRM

Force.com

RightNow

NetSuite

ADP Hewitt SAP By Design Oracle OnDemand

Packaged Applications

Industry Standards

XML Standards

SaaS/BPO

Social Media

Facebook Twitter

LinkedIn EMC/Greenplum Vertica

AsterData

MPP Appliances

Разнообразие форматов и типов источников

11 http://www.informatica.com/us/products/data-integration/powerexchange/

Page 12: OSPconf Big Data Forum 2014 Ilya Gershanov

• «Не пытайтесь строить

законченную систему

Больших Данных …

технологии развиваются

слишком быстро в

настоящее время…»

Нужно ли ставить всё на Большие Данные?

12 (*) Ральф Кимбалл Ralph Kimball Newly Emerging Best Practices for Big Data

В обозримом будущем

системы Больших Данных

будут сосуществовать с

традиционными в

корпоративном ИТ

ландшафте.

• «В ближайшем будущем

поддерживайте баланс

технологий, включая

Hadoop, традиционные

кластерные вычисления,

СУБД…»

Page 13: OSPconf Big Data Forum 2014 Ilya Gershanov

Разгрузка Корпоративного Хранилища Данных

Большой пример

Корпоративное Хранилище Данных

Корпоративные

Приложения

Операционные Хранилища

Данных (ODS)

Транзакци

онные

системы

Business Intelligence

Hadoop

Load

… Job 2 Job 1

Load Extract Transform

Job y

Job x

Запросы

Визуальная разработка

Знание Hadoop не требуется

Трансформации данных

выполняются в Hadoop (или

ПАК) без лишнего

копирования данных

13

Load Extract Transform Запросы

Page 15: OSPconf Big Data Forum 2014 Ilya Gershanov

= Качество бизнес-процессов и решений Качество Данных

Согласо-ванность

Полнота

Досто-верность

Точность

Актуаль-ность

15

Page 16: OSPconf Big Data Forum 2014 Ilya Gershanov

Как процесс уровня предприятия Качество Данных

Анализ

1. Профилирование данных 2. Определение

целевых показателей

качества данных

3. Проектирование и

разработка правил

качества данных

5. Мониторинг

фактических

показателей качества

данных относительно

целевых

Улучшение

4. Внедрение правил в

платформе интеграции

данных

16

Data Steward

Разработчик Владелец

данных

Аналитик

Page 17: OSPconf Big Data Forum 2014 Ilya Gershanov

Визуализация

Анализ эмоциональной

окраски высказываний

Data Mining,

Предиктивная

аналитика

Корпоративное

Хранилище

Данных

Платформа Informatica

Обработка, расчёт

показателей качества,

анализ всех данных

Результаты

Ин

те

грац

ия

Бо

ль

ши

х Д

ан

ны

х

Бизнес- пользователь

Качество данных & управление

Соц.сети, Web-логи

Устройства и сенсоры

Документы и

эл.почта

Приложения,

мейнфреймы

платежи, сделки

Клиент

Сущ-ти

Справочные данные

и т.д.

Инстр-ты

Data Steward

К-во данных,

Управление

правилами

Разработчик

Выверка и

исправление

Владелец данных

Мониторинг и

управление

Профилирование

Аналитик

17

Удобные интерфейсы для ИТ и Бизнес-пользователей

Page 18: OSPconf Big Data Forum 2014 Ilya Gershanov

Экономика $?

Page 19: OSPconf Big Data Forum 2014 Ilya Gershanov

Как оценить бизнес-инициативы Больших Данных?

Экономическая эффективность

19

Международный опыт клиентов Informatica

Партнёры Informatica в России и СНГ

• Знают ваш бизнес

• И технологии

Page 20: OSPconf Big Data Forum 2014 Ilya Gershanov

Экспертов не хватает, они дороги (47%)

Нет необходимых инструментов (20%)

Инструменты не совместимы (19%)

Инструменты сложны в освоении (18%)

Ресурсы

Page 22: OSPconf Big Data Forum 2014 Ilya Gershanov

И незаменимые специалисты

Большие данные

SELECT

T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,

customer.C_NAME,

customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY

FROM

(

SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx

FROM lineitem

GROUP BY L_ORDERKEY

) T1

JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)

JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)

JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)

WHERE nation.N_NAME = 'UNITED STATES'

) T2

INSERT OVERWRITE TABLE TARGET1 SELECT *

INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,

count(ORDERKEY2) GROUP BY CUSTKEY; Hive-QL

1.Интеграция данных – работа технолога,

не кодировщика.

2.Поток работ транслируется в

специфические команды среды, например

СУБД или Hadoop

3.Гораздо проще в поддержке и развитии,

чем «некий скрипт».

4.Нет риска, что никто не разберётся в

«самописном» сценарии загрузки

MapReduce

UDF

Vibe – виртуальная машина данных. Её код

развёрнут прямо на узлах кластера Hadoop 22

Page 23: OSPconf Big Data Forum 2014 Ilya Gershanov

= Удалённые среды разработки и тестирования

Аутсорсинг?

Атрибут Значение

Name Эдгар Кодд

SSN 556-12-5697

Account Number 1565-859-2565

Phone number 818-223-5755

Product Ипотека 30 лет

Balance $560,000

Loan Amount $720,000

Атрибут Значение

Name Алёша Попович

SSN 556-36-9999

Account Number 1565-333-3332

Phone number 818-555-5555

Product Ипотека 30 лет

Balance $560,000

Loan Amount $720,000

Не маскированные данные Маскированные данные

Распрацоўшчык

Field Description

Name Алёша Попович

SSN 556-36-9999

Account Number 1565-333-3332

Phone number 818-555-5555

Product Ипотека 30 лет

Balance $560,000

Loan Amount $720,000

Маскированные данные Developer

Безопасные среды с

маскированными данными

Возможно только с

подмножеством данных

промышленной системы

http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/

23

Page 24: OSPconf Big Data Forum 2014 Ilya Gershanov

О Компании Informatica

Page 25: OSPconf Big Data Forum 2014 Ilya Gershanov

• Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 9 лет.

#1 независимый поставщик решений для интеграции данных

О Компании Informatica

25

Page 26: OSPconf Big Data Forum 2014 Ilya Gershanov

$0

$100 000 000

$200 000 000

$300 000 000

$400 000 000

$500 000 000

$600 000 000

$700 000 000

$800 000 000

$900 000 000

$1 000 000 000• Год основания: 1993

• Прибыль за 2013 г. : 948.2 млн.

долларов США

• Средний рост прибыли в год

(CAGR): 17%

• Сотрудники: 3,080+

• Партнёры: 450+

• Крупнейшие SI, ISV, OEM,

консалтинговые компании, лидеры

рынка (SaaS, социальные сети)

• Клиенты: Over 5,000

• Клиенты в 82 странах

• Прямое присутствие в 28 странах

• 1е место в рейтинге Customer Loyalty

Rankings (7 лет подряд)

#1 независимый поставщик решений для интеграции данных

О Компании Informatica

26

Page 27: OSPconf Big Data Forum 2014 Ilya Gershanov

• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры

исследования и разработки по направлениям «Репликация Данных» и «Управление Мастер-Данными» в Санкт-Петербурге и Казани

• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов

• 6 сертифицированных системных интеграторов

Компания Informatica В России и СНГ

27

Page 28: OSPconf Big Data Forum 2014 Ilya Gershanov

Спасибо за внимание!

Будем рады ответить на ваши

вопросы на нашем стенде

www.informatica.com/bigdata

Page 29: OSPconf Big Data Forum 2014 Ilya Gershanov