Большие Данные с точки зрения резентации Big... · PDF...
-
Upload
hoangquynh -
Category
Documents
-
view
244 -
download
4
Transcript of Большие Данные с точки зрения резентации Big... · PDF...
1
© 2011 Informatica. Company Confidential. Forward-looking information is based upon multiple
assumptions and uncertainties and does not necessarily represent the company’s outlook.
Большие Данные с точки зрения MDM
Сергей Кузнецов Генеральный Директор Informatica Россия
Руководитель Центра Разработки
2
Большие Данные с точки зрения MDM
Подходы к работе с Большими Данными, Hadoop
Управление Большими Данными –
Master Data Management (MDM)
Informatica MDM для Больших Данных
3
Новый Подход p
Доставка данных для процессоров
Мир Данных
Корпорации - терабайты/день Facebook = 15Pb, eBay = 5Pb
Традиционный подход
Больше Памяти Быстрее Процессор
4
Проект Hadoop
• Общедоступный проект (Apache), свой вклад
внесли компании Yahoo!, Facebook, Cloudera
• Состоит из двух основных компонент –
• HDFS (The Hadoop Distributed File System) – хранение данных на кластере дублирующими блоками 64/128 Mb
• MapReduce – распределенные вычисления среди узлов кластера
• Экосистема Hadoop
• Pig, Hive – оболочки для использования традиционных SQL запросов
• HBase - База Данных для хранения больших данных и широких таблиц, имеет ограниченную модель доступа
• Oozie, Sqoop, HUE, Flume и т.д.
p
5
Hadoop MapReduce –
6
Традиционный Подход
Использование Hadoop для Интерактивных Данных
DW
DW
7
Большие Данные с точки зрения MDM
Подходы к работе с Большими Данными, Hadoop
Управление Большими Данными –
Master Data Management (MDM)
Informatica MDM для Больших Данных
8
Получения Достоверного Источника Данных
Централизованный
Достоверный
Источник Данных
Интеграция Данных
MDM КачествоДанных
• Целостность, Расширяемость,
• Консолидация данных
Управление мастер-данными
Data Quality
• Точность, Очищение данных
• Доступ к данных из любых
источников
• Репликация, защита и
маскирование данных
Качество Данных
Интеграция Данных
Управление Данными Полная интеграция в
существующую инфраструкту
приложений, процессов и пр
9
Продукты компании Informatica
Master Data
Management
Data
Quality Data
Integration
PowerCenter Data Quality MDM
Единый репозитарий метаданных (правила, библиотеки и пр.)
10
MDM – различные подходы
Единый Образ
Данных
Единый Источник Данных
Реестр Консолидация Синхронизация Централизация
Стиль
Процесс Реестр
идентификаторов-
указателей на
исходные
источники данных
Мастер-данные
собраны в Хабе,
далее -
синхронизация с
Хранилищем
Данных
Мастер-данные
собраны в Хабе,
синхронизация с
исходными
приложенияи –
источниками
данных
Мастер-данные
распределяются в
приложения из
Хаба
Обработка
Данных
Реальное время
Пакетное Пакетное и
Реальное время
Пакетное и
Реальное время
Направление
потока данных
Одностороннее Одностороннее Двустороннее Одностороннее
11
Как Informatica решает задачу получения мастер-данных?
Управление Мастер Данными Операционные
Аналитические
CIF Инфраструктурные приложения
Хранилища Данных
Витрины Данных
Порталы/ Стэнды
Бизнес Аналитика
Инфраструктура
Приложения
Приложения
Инфраструктура
Данные сторонних организаций
Очистить
До
ста
ви
ть
да
нн
ые
По
луч
ить
До
ступ
Распознать
Разрешить
конфликты Связать
Соединить
Смоделировать
Определить
12
Informatica MDM – основные возможности
Управление
данными
Очистка
Модель
Данных
Получение
Доступа
Разрешение
Конфликтов
Распознование
Определения
Построение
Связей
Доставка
Данных
Стандартизация адресов
Очистка Данных
Открытая
Архитектура
Один или
Несколько
Доменов Заказчик Продукт
Content
History Lineage
Configuration
Match Survivorship Validation Rules
Метаданные
Профилирование Анализ
Deterministic & Fuzzy Logic
Интернационализация
Соединение Функции
Доверия
Контр-агент & Продукт
Контр-агент
Продукт
Любые Источники Данных
Пакетное Реальное время
Любые Форматы
Бизнес-процессы
Вывод данных через API
Аналитика
Данных
Распознование
Разъединение
Интеграция
Данных
Качество
Данных
Управление
Мастер
Данными
Сервисы
Данных
Мониторинг KPI
Синхронизация Бизнес
Транзакции
13
Большие Данные с точки зрения MDM
Подходы к работе с Большими Данными, Hadoop
Управление Большими Данными –
Master Data Management (MDM)
Informatica MDM для Больших Данных
14
Продукты Informatica и Hadoop
• Общие цели, дополняют друг друга
• Большие Данные
• Расширяемость, Надежность, Доступность, Переносимость
• Снижение стоимости хранения информации
• Управление Большими Данными и MDM
• Большие данные везде (Volume, Velocity, Variety)
• Сбор транзакционных данных – традиционных, соц сетей и пр
• Группирование данных больших объемов – в силу множественности является задачей Больших Данных
15
Что меняется?
Традиционный Подход
• Основан на БД
• Несколько потоков используют поиск в
индексированной БД
• Издержки – Индексы БД в случае чтения и записи
одного фрагмента данных
Индексируемая
БД
Поиск
Поиск
Поиск
Поиск
Поиск
Поиск Поиск
Поиск
Поиск
Поиск
Поиск
16
• Hadoop решает эту задачу на уровне данных
• Издержки – обмен данными между узлами кластера
Что меняется?
17
Результаты
00:00:00
02:24:00
04:48:00
07:12:00
09:36:00
12:00:00
14:24:00
0 1 2 3 4 5 6
Вр
ем
я
Число узлов
Результаты Hadoop на 50M записей
Hadoop Results
Hub Distributed match
18
Тесты на расширяемость
0
50000
100000
150000
200000
250000
300000
350000
0 1 2 3 4 5 6
Чи
сл
о з
ад
ач
в м
ин
уту
Число узлов в кластере
Расширяемость 50M
Hadoop Grouping
Hub Dist Match
19
Informatica в России
• Informatica Россия & СНГ (офис продаж)
• Смоленский Пассаж, 6й этаж
• Смоленская пл. д.3
• 121099 Москва, Россия
• Тел +7(495) 771-7150
• Email: [email protected]
• Informatica R&D Центр
• Средний пр 88А, 7й этаж
• 199106 С-Петербург, Россия
• Тел +7(812) 320-9143
20
Вопросы?