Большие Данные с точки зрения резентации Big... · PDF...

20
1 © 2011 Informatica. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties and does not necessarily represent the company’s outlook. Большие Данные с точки зрения MDM Сергей Кузнецов Генеральный Директор Informatica Россия Руководитель Центра Разработки

Transcript of Большие Данные с точки зрения резентации Big... · PDF...

Page 1: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

1

© 2011 Informatica. Company Confidential. Forward-looking information is based upon multiple

assumptions and uncertainties and does not necessarily represent the company’s outlook.

Большие Данные с точки зрения MDM

Сергей Кузнецов Генеральный Директор Informatica Россия

Руководитель Центра Разработки

Page 2: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

2

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

Page 3: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

3

Новый Подход p

Доставка данных для процессоров

Мир Данных

Корпорации - терабайты/день Facebook = 15Pb, eBay = 5Pb

Традиционный подход

Больше Памяти Быстрее Процессор

Page 4: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

4

Проект Hadoop

• Общедоступный проект (Apache), свой вклад

внесли компании Yahoo!, Facebook, Cloudera

• Состоит из двух основных компонент –

• HDFS (The Hadoop Distributed File System) – хранение данных на кластере дублирующими блоками 64/128 Mb

• MapReduce – распределенные вычисления среди узлов кластера

• Экосистема Hadoop

• Pig, Hive – оболочки для использования традиционных SQL запросов

• HBase - База Данных для хранения больших данных и широких таблиц, имеет ограниченную модель доступа

• Oozie, Sqoop, HUE, Flume и т.д.

p

Page 5: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

5

Hadoop MapReduce –

Page 6: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

6

Традиционный Подход

Использование Hadoop для Интерактивных Данных

DW

DW

Page 7: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

7

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

Page 8: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

8

Получения Достоверного Источника Данных

Централизованный

Достоверный

Источник Данных

Интеграция Данных

MDM КачествоДанных

• Целостность, Расширяемость,

• Консолидация данных

Управление мастер-данными

Data Quality

• Точность, Очищение данных

• Доступ к данных из любых

источников

• Репликация, защита и

маскирование данных

Качество Данных

Интеграция Данных

Управление Данными Полная интеграция в

существующую инфраструкту

приложений, процессов и пр

Page 9: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

9

Продукты компании Informatica

Master Data

Management

Data

Quality Data

Integration

PowerCenter Data Quality MDM

Единый репозитарий метаданных (правила, библиотеки и пр.)

Page 10: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

10

MDM – различные подходы

Единый Образ

Данных

Единый Источник Данных

Реестр Консолидация Синхронизация Централизация

Стиль

Процесс Реестр

идентификаторов-

указателей на

исходные

источники данных

Мастер-данные

собраны в Хабе,

далее -

синхронизация с

Хранилищем

Данных

Мастер-данные

собраны в Хабе,

синхронизация с

исходными

приложенияи –

источниками

данных

Мастер-данные

распределяются в

приложения из

Хаба

Обработка

Данных

Реальное время

Пакетное Пакетное и

Реальное время

Пакетное и

Реальное время

Направление

потока данных

Одностороннее Одностороннее Двустороннее Одностороннее

Page 11: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

11

Как Informatica решает задачу получения мастер-данных?

Управление Мастер Данными Операционные

Аналитические

CIF Инфраструктурные приложения

Хранилища Данных

Витрины Данных

Порталы/ Стэнды

Бизнес Аналитика

Инфраструктура

Приложения

Приложения

Инфраструктура

Данные сторонних организаций

Очистить

До

ста

ви

ть

да

нн

ые

По

луч

ить

До

ступ

Распознать

Разрешить

конфликты Связать

Соединить

Смоделировать

Определить

Page 12: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

12

Informatica MDM – основные возможности

Управление

данными

Очистка

Модель

Данных

Получение

Доступа

Разрешение

Конфликтов

Распознование

Определения

Построение

Связей

Доставка

Данных

Стандартизация адресов

Очистка Данных

Открытая

Архитектура

Один или

Несколько

Доменов Заказчик Продукт

Content

History Lineage

Configuration

Match Survivorship Validation Rules

Метаданные

Профилирование Анализ

Deterministic & Fuzzy Logic

Интернационализация

Соединение Функции

Доверия

Контр-агент & Продукт

Контр-агент

Продукт

Любые Источники Данных

Пакетное Реальное время

Любые Форматы

Бизнес-процессы

Вывод данных через API

Аналитика

Данных

Распознование

Разъединение

Интеграция

Данных

Качество

Данных

Управление

Мастер

Данными

Сервисы

Данных

Мониторинг KPI

Синхронизация Бизнес

Транзакции

Page 13: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

13

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

Page 14: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

14

Продукты Informatica и Hadoop

• Общие цели, дополняют друг друга

• Большие Данные

• Расширяемость, Надежность, Доступность, Переносимость

• Снижение стоимости хранения информации

• Управление Большими Данными и MDM

• Большие данные везде (Volume, Velocity, Variety)

• Сбор транзакционных данных – традиционных, соц сетей и пр

• Группирование данных больших объемов – в силу множественности является задачей Больших Данных

Page 15: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

15

Что меняется?

Традиционный Подход

• Основан на БД

• Несколько потоков используют поиск в

индексированной БД

• Издержки – Индексы БД в случае чтения и записи

одного фрагмента данных

Индексируемая

БД

Поиск

Поиск

Поиск

Поиск

Поиск

Поиск Поиск

Поиск

Поиск

Поиск

Поиск

Page 16: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

16

• Hadoop решает эту задачу на уровне данных

• Издержки – обмен данными между узлами кластера

Что меняется?

Page 17: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

17

Результаты

00:00:00

02:24:00

04:48:00

07:12:00

09:36:00

12:00:00

14:24:00

0 1 2 3 4 5 6

Вр

ем

я

Число узлов

Результаты Hadoop на 50M записей

Hadoop Results

Hub Distributed match

Page 18: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

18

Тесты на расширяемость

0

50000

100000

150000

200000

250000

300000

350000

0 1 2 3 4 5 6

Чи

сл

о з

ад

ач

в м

ин

уту

Число узлов в кластере

Расширяемость 50M

Hadoop Grouping

Hub Dist Match

Page 19: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

19

Informatica в России

• Informatica Россия & СНГ (офис продаж)

• Смоленский Пассаж, 6й этаж

• Смоленская пл. д.3

• 121099 Москва, Россия

• Тел +7(495) 771-7150

• Email: [email protected]

• Informatica R&D Центр

• Средний пр 88А, 7й этаж

• 199106 С-Петербург, Россия

• Тел +7(812) 320-9143

Page 20: Большие Данные с точки зрения резентации Big... · PDF file12 Informatica MDM – основные возможности Управление данными

20

Вопросы?