OSPconf Big Data Forum 2014 Ilya Gershanov
-
Upload
ilya-gershanov -
Category
Software
-
view
177 -
download
0
description
Transcript of OSPconf Big Data Forum 2014 Ilya Gershanov
Большие Данные (Big Data)
2
Data Velocity
(Скорость)
Data Volume
(Объём)
Data Variety
(Разнообразие)
GB TB
В настоящее время обозначает
класс задач обработки данных,
которые не могут быть эффективно
решены с помощью традиционных
инструментов и подходов.
2008 г. - Редактор журнала Nature
Клиффорд Линч (Clifford Lynch)
впервые употребляет термин Big
Data.
(*) https://en.wikipedia.org/wiki/Big_data
2001 г. – Сотрудник Gartner Даг Лени
(Doug Laney) вводит понятие (3xV) в
оборот.
MB PB
№ Задача 2013 2014 За год%
1 Предсказание поведения клиента 45% 44%
2 Поиск корреляций в разнородных данных
(интернет, гео-, транзакции и т.д.)
52% 43%
3 Предсказание продаж продуктов или услуг 34% 36%
4 Предотвращение мошенничества и управление
финансовыми рисками
28% 27%
5 Анализ интернет-активности (clickstream) 11% 26%
6 Выявление рисков ИТ безопасности 23% 25%
7 Анализ активности в социальных сетях для
потребительского сегмента
18% 24%
8 Анализ сенсорных данных, web-логов, и т.д. 22% 23%
9 На данный момент не рассматривается 15% 14%
Зачем это нужно
Большие Данные и Бизнес
(*) По данным 2014 Analytics, BI, and Information Management Survey by Information Week
1
1
9
2
15
2
6
1
1
3
Большие
Данные
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ож
ид
ани
я
… Время
~5-10 лет
2012
2013
Степень зрелости решений
Большие Данные и Бизнес
(*) Gartner's 2013 Hype Cycle for Emerging Technologies…
Многочисленные поставщики
инструментов и решений
Первые успешные внедрения
в корпоративном секторе
Консолидация поставщиков
Негативные публикации в
прессе
2й-3й раунд венчурных
проектов
<5% потенциальных
пользователей
Продукты и сервисы 2го
поколения
4
Транзакционные БД и
приложения
Приложения в Облаке
Большие
Транзакционные
Данные
OLAP и ПАК для ХД
Большие
Данные
Взаимодействия
Соц. сети, Web Logs
Устройства,
сенсоры
Документы и эл. письма Volume
Variety
Velocity
Большие Данные (Big Data) Hadoop и NoSQL
Hadoop
Хранение и обработка
больших объёмов
данных
и частично- и
неструктурированных
данных
NoSQL
Быстро-меняющиеся
модели данных
Простота управления
Гибкая разработка
Высоконагруженные и
распределенные
приложения
Кластерные
платформы
Обработка Больших Данных
Стоимость масштабирования
Стоимость лицензий и
внедрения
5
Опасения и Риски
Большие Данные и Бизнес
• Экспертов не хватает, они дороги 47% (+9%) • Инструменты:
• Нужных просто нет 20% (+2%)
• Те, что есть, - не совместимы 19%
• Сложны в освоении 18% (+1%)
Ресурсы
• Не очевидна экономическая
эффективность бизнес инициатив Больших
Данных 35% (+4%) Экономика $?
• Качество данных 27% (+6%) Качество
данных
(*)По данным 2014 Analytics, BI, and Information Management Survey by Information Week
• Доступность данных 17% (+4% **) Данные
недоступны
(**) По сравнению с данными за 2013 г. 6
Данные
недоступны
Собственно
Работа с
Большими
Данными
Загрузка Данных,
Интеграция,
Качество Данных
70-80% трудозатрат в проектах
Больших Данных –
Интеграция Данных и обеспечение
Качества Данных
8
• Ускорение разработки
продуктов и услуг
• Высвобождение
ресурсов
• Задачи подготовки
данных -
доступным
разработчикам
PowerCenter
Перенос фокуса с «ручной» интеграции на продуктивную работу
Трудоёмкость проектов Больших Данных
Время и ресурсы на
аналитику и другие
продуктивные задачи
Время и ресурсы на подготовку данных (миграция, парсинг,
профилирование, очистка, трансформация, привязка)
Кодирование
С исполь-
зованием
инструментария
Informatica
или экономия!
(*) Comparative costs and uses for data integration platforms by Bloor Research. Март 2014 9
Загрузка в систему Больших Данных «как есть»
Простой пример
10
Исходная система
Целевые системы
Графическая консоль
Прямая загрузка (вариант 1)
Генерация схемы
данных
Или промежуточные файлы (вариант 2)
Репликация изменений
Графический интерфейс
Гетерогенные среды
Автоматический параллелизм
http://www.informatica.com/us/products/data-replication
РСУБД
ПАК
Hadoop
Очереди
На основе журналов
Пакетная
Без необходимости программирования
WebSphere MQ JMS MSMQ SAP NetWeaver XI
JD Edwards Lotus Notes Oracle E-Business PeopleSoft
Oracle DB2 UDB DB2/400 SQL Server Sybase
ADABAS Datacom DB2 IDMS IMS
Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP
Informix Teradata Netezza ODBC JDBC
VSAM C-ISAM Binary Flat Files Tape Formats…
Web Services TIBCO webMethods
SAP NetWeaver SAP NetWeaver BI SAS Siebel
Messaging, and Web Services
Relational and Flat Files
Mainframe and Midrange
Unstructured Data and Files Flat files
ASCII reports HTML RPG ANSI LDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP Hewitt SAP By Design Oracle OnDemand
Packaged Applications
Industry Standards
XML Standards
SaaS/BPO
Social Media
Facebook Twitter
LinkedIn EMC/Greenplum Vertica
AsterData
MPP Appliances
Разнообразие форматов и типов источников
11 http://www.informatica.com/us/products/data-integration/powerexchange/
• «Не пытайтесь строить
законченную систему
Больших Данных …
технологии развиваются
слишком быстро в
настоящее время…»
Нужно ли ставить всё на Большие Данные?
12 (*) Ральф Кимбалл Ralph Kimball Newly Emerging Best Practices for Big Data
В обозримом будущем
системы Больших Данных
будут сосуществовать с
традиционными в
корпоративном ИТ
ландшафте.
• «В ближайшем будущем
поддерживайте баланс
технологий, включая
Hadoop, традиционные
кластерные вычисления,
СУБД…»
Разгрузка Корпоративного Хранилища Данных
Большой пример
Корпоративное Хранилище Данных
Корпоративные
Приложения
Операционные Хранилища
Данных (ODS)
Транзакци
онные
системы
Business Intelligence
Hadoop
Load
… Job 2 Job 1
Load Extract Transform
Job y
Job x
…
Запросы
Визуальная разработка
Знание Hadoop не требуется
Трансформации данных
выполняются в Hadoop (или
ПАК) без лишнего
копирования данных
13
Load Extract Transform Запросы
= Качество бизнес-процессов и решений Качество Данных
Согласо-ванность
Полнота
Досто-верность
Точность
Актуаль-ность
15
Как процесс уровня предприятия Качество Данных
Анализ
1. Профилирование данных 2. Определение
целевых показателей
качества данных
3. Проектирование и
разработка правил
качества данных
5. Мониторинг
фактических
показателей качества
данных относительно
целевых
Улучшение
4. Внедрение правил в
платформе интеграции
данных
16
Data Steward
Разработчик Владелец
данных
Аналитик
Визуализация
Анализ эмоциональной
окраски высказываний
Data Mining,
Предиктивная
аналитика
Корпоративное
Хранилище
Данных
Платформа Informatica
Обработка, расчёт
показателей качества,
анализ всех данных
Результаты
Ин
те
грац
ия
Бо
ль
ши
х Д
ан
ны
х
Бизнес- пользователь
Качество данных & управление
Соц.сети, Web-логи
Устройства и сенсоры
Документы и
эл.почта
Приложения,
мейнфреймы
платежи, сделки
Клиент
Сущ-ти
Справочные данные
и т.д.
Инстр-ты
Data Steward
К-во данных,
Управление
правилами
Разработчик
Выверка и
исправление
Владелец данных
Мониторинг и
управление
Профилирование
Аналитик
17
Удобные интерфейсы для ИТ и Бизнес-пользователей
Экономика $?
Как оценить бизнес-инициативы Больших Данных?
Экономическая эффективность
19
Международный опыт клиентов Informatica
Партнёры Informatica в России и СНГ
• Знают ваш бизнес
• И технологии
Экспертов не хватает, они дороги (47%)
Нет необходимых инструментов (20%)
Инструменты не совместимы (19%)
Инструменты сложны в освоении (18%)
Ресурсы
Какие люди нужны?
Big Data
21
(*) Дрю Конвей http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
$
И незаменимые специалисты
Большие данные
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY; Hive-QL
1.Интеграция данных – работа технолога,
не кодировщика.
2.Поток работ транслируется в
специфические команды среды, например
СУБД или Hadoop
3.Гораздо проще в поддержке и развитии,
чем «некий скрипт».
4.Нет риска, что никто не разберётся в
«самописном» сценарии загрузки
MapReduce
UDF
Vibe – виртуальная машина данных. Её код
развёрнут прямо на узлах кластера Hadoop 22
= Удалённые среды разработки и тестирования
Аутсорсинг?
Атрибут Значение
Name Эдгар Кодд
SSN 556-12-5697
Account Number 1565-859-2565
Phone number 818-223-5755
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Атрибут Значение
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Не маскированные данные Маскированные данные
Распрацоўшчык
Field Description
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Маскированные данные Developer
Безопасные среды с
маскированными данными
Возможно только с
подмножеством данных
промышленной системы
http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/
23
О Компании Informatica
• Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 9 лет.
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
25
$0
$100 000 000
$200 000 000
$300 000 000
$400 000 000
$500 000 000
$600 000 000
$700 000 000
$800 000 000
$900 000 000
$1 000 000 000• Год основания: 1993
• Прибыль за 2013 г. : 948.2 млн.
долларов США
• Средний рост прибыли в год
(CAGR): 17%
• Сотрудники: 3,080+
• Партнёры: 450+
• Крупнейшие SI, ISV, OEM,
консалтинговые компании, лидеры
рынка (SaaS, социальные сети)
• Клиенты: Over 5,000
• Клиенты в 82 странах
• Прямое присутствие в 28 странах
• 1е место в рейтинге Customer Loyalty
Rankings (7 лет подряд)
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
26
• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры
исследования и разработки по направлениям «Репликация Данных» и «Управление Мастер-Данными» в Санкт-Петербурге и Казани
• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов
• 6 сертифицированных системных интеграторов
Компания Informatica В России и СНГ
27
Спасибо за внимание!
Будем рады ответить на ваши
вопросы на нашем стенде
www.informatica.com/bigdata