Инфраструктура Big data - от источников до быстрых витрин -...

23
Инфраструктура Big Data от источников до быстрых витрин

Transcript of Инфраструктура Big data - от источников до быстрых витрин -...

Page 1: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Инфраструктура Big Dataот источников до быстрых витрин

Page 2: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

НАЗВАНИЕ ПРЕЗЕНТАЦИИ

Петров

Юрий Владимирович

Data Architect, МТСТренер, консультант

yurypetrov.com

Page 3: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• ценность темы Биг Дата

• где деньги

• востребованы ли специалисты Big Data

на рынке?

Зачем вам Big Data

www.itsmforum.ru

Инфраструктура Big Data

Page 4: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Бизнес-модели и финансовые модели

• Евангелизм и консалтинг

• Коучинг

• Аппаратная и программная Инфраструктура

• Биржи данных

• Интернет вещей (IoT)

• Глобальный искусственный интеллект

• Локальный искусственный интеллект

• Стартапы на базе Open Data

Big Data и крупный бизнес

www.itsmforum.ru

Инфраструктура Big Data

Page 5: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Big Data это зонтичный термин и он настолько

широк, что бессмысленно придумывать для него

короткое определение.

Ключевая цель – обработка разнородных

данных любого объема с использованием

алгоритмов любой сложности в реальном

времени

Самое понятное определение Big Data

www.itsmforum.ru

Инфраструктура Big Data

Page 6: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Финтех, банки - транзакции

• Поисковые системы - тренды, рейтинги, аналитика и т.д.

• Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet

inspection)

• DMP/DSP - предпочтения, социальный профиль и активность пользователей

интернет

• IoT - умный дом, носимые девайсы

• Медицина вещей - фитнес-браслеты, неинвазивные сенсоры

• Датчики на пунктах пропуска на автодорогах и прочих объектах

• Метеодатчики

• Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы

• Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах

• Система умный город

• Различные системы искусственного интеллекта

Где нужен анализ данных в реальном времени?

www.itsmforum.ru

Инфраструктура Big Data

Page 7: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Непреодолимые ограничения традиционных

систем хранения и обработки данных давно

привели к пониманию того, что задача анализа

любого объема данных в реальном времени не

будет решена никогда.

Почему пришла Big Data на смену традиционной инфраструктуре

www.itsmforum.ru

Инфраструктура Big Data

Page 8: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Shared nothing – распределённая вычислительная архитектура, в

которой ни один узел не делит память, процессор или дисковое

пространство с другими узлами кластера

• MPP (Massive Parallel Processing) – параллельная обработка данных на

многих вычислительных узлах

• Различные типы контейнеров с данными, а так же просто файлы, видны

друг другу и доступны для прямых SQL-запросов, операций объединения

и трансформации

• Одинаково эффективная работа как со структурированными так и с

неструктурированными данными

Какие преимущества предоставляет Big Dataархитектура #1

www.itsmforum.ru

Инфраструктура Big Data

Page 9: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Выполнение сложных вычислений в реальном времени на

любых объемах данных

• Снижение сложности модели БД и ETL-процесса

• Кроссплатформенность и, как следствие, снижение стоимости

внедрения

• Неограниченное линейное масштабирование

• Повышенная отказоустойчивость благодаря встроенным

механизмам репликации, что позволит обеспечить

работоспособность 24x7

Какие преимущества предоставляет Big Dataархитектура #2

www.itsmforum.ru

Инфраструктура Big Data

Page 10: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

HDFS - распределенная файловая система

Что объединяет всю экосистему Hadoop? - распределенная файловая

система HDFS. И простые файлы, и контейнеры с данными видны друг другу

и доступны для анализа, операций трансформации-объединения и прочих

операций. Т.е. из интерфейса Hive мы можем написать join, который

объединит книги, которые сохранены в простых текстовых файлах и

метаданные по этим книгам из контейнера AVRO и сформировать

результирующий набор. Это невероятная универсальность и удобство, о

которых до сих пор мечтают заложники реляционных БД.

За счет чего в Big Data архитектуре реализованы все эти преимущества #1

www.itsmforum.ru

Инфраструктура Big Data

Page 11: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Shared nothing

Вычислительный узел в экосистеме Hadoop это независимый полноценный

компьютер. На каждом вычислительном узле расположена своя уникальная

часть данных плюс реплики других вычислительных узлов. Hadoop

старается запустить задачу Map на том узле, где физически находятся

обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким

образом мы доказали соответствие Hadoop требованию Shared nothing,

когда ни один узел не делит память, процессор или дисковое пространство

с другими узлами кластера

За счет чего в Big Data архитектуре реализованы все эти преимущества #2

www.itsmforum.ru

Инфраструктура Big Data

Page 12: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

MPP - YARN и ResourceManager

YARN через ResourceManager может управлять ресурсами кластера и делить

их в определенной пропорции между приложениями. Помимо MapReduce

такими приложениями могут быть Spark, Apache Drill и многие другие.

Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop

избавился от всех bottle neck и детских болезней. Мастер-нода больше не

перегружена метаданными и не является единой точкой отказа.

Промежуточные данные map-reduce джоба больше не приземляются на

диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это

полноценная MPP-система без каких-либо ограничений.

За счет чего в Big Data архитектуре реализованы все эти преимущества #3

www.itsmforum.ru

Инфраструктура Big Data

Page 13: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим

основные и наиболее популярные контейнеры, с помощью которых можно

реализовать 100% стоящих задач. Все контейнеры поддерживают

различные варианты сжатия:

• SequenceFile - список ключ-значение (например ключ: имя файла,

значение: содержимое файла)

• MapFile - сортированный по ключу список ключ-значение

• Avro - многомерное row-oriented хранилище, таблицы которого

описываются json-схемой

• ORCFile (Optimized Record Columnar File) и Parquet - многомерные

column-oriented хранилища, таблицы которых можно описать json-

схемой.

Описание ключевых контейнеров HDFS

www.itsmforum.ru

Инфраструктура Big Data

Page 14: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Нужные нам данные изо всех наших источников мы

собираем в едином хранилище на базе HDFS, которое

называется Data Lake. Данные в Data Lake могут

храниться как as-is так и в контейнерах, которые были

рассмотрены выше. Данные в Data Lake поступают с той

задержкой, которая нам минимально необходима

Data Lake

www.itsmforum.ru

Инфраструктура Big Data

Page 15: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Существует 2 принципиальных подхода к задаче обработки больших

массивов информации — Data Parallelizm и Task Parallelizm.

• В первом случае (Data Parallelizm), одинаковая цепочка вычислений

запускается параллельно на каждом вычислительном узле кластера над

уникальной частью данных. По этому принципу работают Apache Spark и

MapReduce.

• Во втором случае (Task Parallelizm) все наоборот — над одним

фрагментом данных начинает параллельно выполняться несколько

цепочек вычислений: по этому принципу работают Spark Streaming,

Apache Storm и др.

Подходы к обработке массивов данных

www.itsmforum.ru

Инфраструктура Big Data

Page 16: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Поток данных (например с DPI) поступает в брокеры

Apache Kafka, Apache Flume и т.п. Задача брокера

объединить микропакеты за установленный интервал

времени (например за 10 сек) и гарантированно

передать в систему потоковой обработки данных, такую

как Spark Streaming, Apache Storm и др.

Гарантированная доставка пакетов

www.itsmforum.ru

Инфраструктура Big Data

Page 17: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Spark Streaming собирает элементы данных в

упорядоченный неизменяемый RDD (Resilient

Distributed Datasets). Далее над каждым

элементом данных параллельно производятся

цепочки вычислений

Обработка потока

www.itsmforum.ru

Инфраструктура Big Data

Page 18: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Допустим мы вычислили всех абонентов, которые с

вероятностью 80% и более после работы едут в ночные

клубы. Эта информация может быть интересна внешним

компаниям, например ритейлу для проведения

таргетированной рекламной компании. Для быстрой

доставки информации внешним потребителям

используются быстрые витрины ключ-значение, такие

как Redis и AeroSpike.

Быстрые витрины - быстрая отдача информации - Redis и AeroSpike

www.itsmforum.ru

Инфраструктура Big Data

Page 19: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Для внутренних потребителей с целью

дальнейшего анализа те же самые данные о

принадлежности тому или иному сегменту могут

сохраняться в NoSQL витрине.

NoSQL витрина для внутренних потребителей

www.itsmforum.ru

Инфраструктура Big Data

Page 20: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Отсутствует реляционной поиск

• Scheme-less

• Многомерное табличное пространство, которое описывается JSON-

схемой

• Развитые механизмы шардирования, распределения по ключу,

распределение таблицы только на указанном кластере "Из коробки"

• Shared nothing и MPP архитектура

• Многомерный JSON-документ вместо таблицы

• Возможность хранения в атрибуте физической ссылки на другую

коллекцию атрибутов в формате JSON

Преимущества документо-ориентированных БД над реляционными

www.itsmforum.ru

Инфраструктура Big Data

Page 21: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

• Вершина является JSON-документом

• Все вершины связаны между собой ребрами

• Вершины и ребра имеют физические адреса, которые

однозначно указывают на местоположение данных

• Ребра имеют 2 направления и тоже являются JSON-

документом

• Язык запросов GREMLIN

Дополнительные преимущества графовых БД

www.itsmforum.ru

Инфраструктура Big Data

Page 22: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

select

in.wordid as wordid

,in.in('has_senses_e').lemma as lemma

,linktype

,out.wordid as wordid_link

,out.synsetid as synsetid_link

,out.in('has_senses_e').lemma as lemma_link

from has_link_e

where in.wordid = 28127 and in.synsetid = 300006050 and

linktype = 'antonym'

Язык запросов GREMLIN

www.itsmforum.ru

Инфраструктура Big Data

Page 23: Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

WhatsApp, Viber, Telegram: +7-926-5872119

Email: [email protected]

https://www.linkedin.com/in/petrovgobigdata

http://facebook.com/gobigdata.info

http://facebook.com/groups/bigbigdata

www.itsmforum.ru

КОНТАКТЫ

Мои тренинги и бесплатные материалы:http://yurypetrov.com

Петров Юрий ВладимировичТренер, консультант (Big Data и DWH)