Инфраструктура Big data - от источников до быстрых витрин -...

Инфраструктура Big Dataот источников до быстрых витрин

НАЗВАНИЕ ПРЕЗЕНТАЦИИ

Петров

Юрий Владимирович

Data Architect, МТСТренер, консультант

yurypetrov.com

• ценность темы Биг Дата

• где деньги

• востребованы ли специалисты Big Data

на рынке?

Зачем вам Big Data

www.itsmforum.ru

Инфраструктура Big Data

• Бизнес-модели и финансовые модели

• Евангелизм и консалтинг

• Коучинг

• Аппаратная и программная Инфраструктура

• Биржи данных

• Интернет вещей (IoT)

• Глобальный искусственный интеллект

• Локальный искусственный интеллект

• Стартапы на базе Open Data

Big Data и крупный бизнес

www.itsmforum.ru


Big Data это зонтичный термин и он настолько

широк, что бессмысленно придумывать для него

короткое определение.

Ключевая цель – обработка разнородных

данных любого объема с использованием

алгоритмов любой сложности в реальном

времени

Самое понятное определение Big Data

www.itsmforum.ru


• Финтех, банки - транзакции

• Поисковые системы - тренды, рейтинги, аналитика и т.д.

• Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet

inspection)

• DMP/DSP - предпочтения, социальный профиль и активность пользователей

интернет

• IoT - умный дом, носимые девайсы

• Медицина вещей - фитнес-браслеты, неинвазивные сенсоры

• Датчики на пунктах пропуска на автодорогах и прочих объектах

• Метеодатчики

• Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы

• Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах

• Система умный город

• Различные системы искусственного интеллекта

Где нужен анализ данных в реальном времени?

www.itsmforum.ru


Непреодолимые ограничения традиционных

систем хранения и обработки данных давно

привели к пониманию того, что задача анализа

любого объема данных в реальном времени не

будет решена никогда.

Почему пришла Big Data на смену традиционной инфраструктуре

www.itsmforum.ru


• Shared nothing – распределённая вычислительная архитектура, в

которой ни один узел не делит память, процессор или дисковое

пространство с другими узлами кластера

• MPP (Massive Parallel Processing) – параллельная обработка данных на

многих вычислительных узлах

• Различные типы контейнеров с данными, а так же просто файлы, видны

друг другу и доступны для прямых SQL-запросов, операций объединения

и трансформации

• Одинаково эффективная работа как со структурированными так и с

неструктурированными данными

Какие преимущества предоставляет Big Dataархитектура #1

www.itsmforum.ru


• Выполнение сложных вычислений в реальном времени на

любых объемах данных

• Снижение сложности модели БД и ETL-процесса

• Кроссплатформенность и, как следствие, снижение стоимости

внедрения

• Неограниченное линейное масштабирование

• Повышенная отказоустойчивость благодаря встроенным

механизмам репликации, что позволит обеспечить

работоспособность 24x7

Какие преимущества предоставляет Big Dataархитектура #2

www.itsmforum.ru


HDFS - распределенная файловая система

Что объединяет всю экосистему Hadoop? - распределенная файловая

система HDFS. И простые файлы, и контейнеры с данными видны друг другу

и доступны для анализа, операций трансформации-объединения и прочих

операций. Т.е. из интерфейса Hive мы можем написать join, который

объединит книги, которые сохранены в простых текстовых файлах и

метаданные по этим книгам из контейнера AVRO и сформировать

результирующий набор. Это невероятная универсальность и удобство, о

которых до сих пор мечтают заложники реляционных БД.

За счет чего в Big Data архитектуре реализованы все эти преимущества #1

www.itsmforum.ru


Shared nothing

Вычислительный узел в экосистеме Hadoop это независимый полноценный

компьютер. На каждом вычислительном узле расположена своя уникальная

часть данных плюс реплики других вычислительных узлов. Hadoop

старается запустить задачу Map на том узле, где физически находятся

обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким

образом мы доказали соответствие Hadoop требованию Shared nothing,

когда ни один узел не делит память, процессор или дисковое пространство

с другими узлами кластера


www.itsmforum.ru


MPP - YARN и ResourceManager

YARN через ResourceManager может управлять ресурсами кластера и делить

их в определенной пропорции между приложениями. Помимо MapReduce

такими приложениями могут быть Spark, Apache Drill и многие другие.

Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop

избавился от всех bottle neck и детских болезней. Мастер-нода больше не

перегружена метаданными и не является единой точкой отказа.

Промежуточные данные map-reduce джоба больше не приземляются на

диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это

полноценная MPP-система без каких-либо ограничений.


www.itsmforum.ru


Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим

основные и наиболее популярные контейнеры, с помощью которых можно

реализовать 100% стоящих задач. Все контейнеры поддерживают

различные варианты сжатия:

• SequenceFile - список ключ-значение (например ключ: имя файла,

значение: содержимое файла)

• MapFile - сортированный по ключу список ключ-значение

• Avro - многомерное row-oriented хранилище, таблицы которого

описываются json-схемой

• ORCFile (Optimized Record Columnar File) и Parquet - многомерные

column-oriented хранилища, таблицы которых можно описать json-

схемой.

Описание ключевых контейнеров HDFS

www.itsmforum.ru


Нужные нам данные изо всех наших источников мы

собираем в едином хранилище на базе HDFS, которое

называется Data Lake. Данные в Data Lake могут

храниться как as-is так и в контейнерах, которые были

рассмотрены выше. Данные в Data Lake поступают с той

задержкой, которая нам минимально необходима

Data Lake

www.itsmforum.ru


Существует 2 принципиальных подхода к задаче обработки больших

массивов информации — Data Parallelizm и Task Parallelizm.

• В первом случае (Data Parallelizm), одинаковая цепочка вычислений

запускается параллельно на каждом вычислительном узле кластера над

уникальной частью данных. По этому принципу работают Apache Spark и

MapReduce.

• Во втором случае (Task Parallelizm) все наоборот — над одним

фрагментом данных начинает параллельно выполняться несколько

цепочек вычислений: по этому принципу работают Spark Streaming,

Apache Storm и др.

Подходы к обработке массивов данных

www.itsmforum.ru


Поток данных (например с DPI) поступает в брокеры

Apache Kafka, Apache Flume и т.п. Задача брокера

объединить микропакеты за установленный интервал

времени (например за 10 сек) и гарантированно

передать в систему потоковой обработки данных, такую

как Spark Streaming, Apache Storm и др.

Гарантированная доставка пакетов

www.itsmforum.ru


Spark Streaming собирает элементы данных в

упорядоченный неизменяемый RDD (Resilient

Distributed Datasets). Далее над каждым

элементом данных параллельно производятся

цепочки вычислений

Обработка потока

www.itsmforum.ru


Допустим мы вычислили всех абонентов, которые с

вероятностью 80% и более после работы едут в ночные

клубы. Эта информация может быть интересна внешним

компаниям, например ритейлу для проведения

таргетированной рекламной компании. Для быстрой

доставки информации внешним потребителям

используются быстрые витрины ключ-значение, такие

как Redis и AeroSpike.

Быстрые витрины - быстрая отдача информации - Redis и AeroSpike

www.itsmforum.ru


Для внутренних потребителей с целью

дальнейшего анализа те же самые данные о

принадлежности тому или иному сегменту могут

сохраняться в NoSQL витрине.

NoSQL витрина для внутренних потребителей

www.itsmforum.ru


• Отсутствует реляционной поиск

• Scheme-less

• Многомерное табличное пространство, которое описывается JSON-

схемой

• Развитые механизмы шардирования, распределения по ключу,

распределение таблицы только на указанном кластере "Из коробки"

• Shared nothing и MPP архитектура

• Многомерный JSON-документ вместо таблицы

• Возможность хранения в атрибуте физической ссылки на другую

коллекцию атрибутов в формате JSON

Преимущества документо-ориентированных БД над реляционными

www.itsmforum.ru


• Вершина является JSON-документом

• Все вершины связаны между собой ребрами

• Вершины и ребра имеют физические адреса, которые

однозначно указывают на местоположение данных

• Ребра имеют 2 направления и тоже являются JSON-

документом

• Язык запросов GREMLIN

Дополнительные преимущества графовых БД

www.itsmforum.ru


select

in.wordid as wordid

,in.in('has_senses_e').lemma as lemma

,linktype

,out.wordid as wordid_link

,out.synsetid as synsetid_link

,out.in('has_senses_e').lemma as lemma_link

from has_link_e

where in.wordid = 28127 and in.synsetid = 300006050 and

linktype = 'antonym'

Язык запросов GREMLIN

www.itsmforum.ru


WhatsApp, Viber, Telegram: +7-926-5872119

Email: [email protected]

https://www.linkedin.com/in/petrovgobigdata

http://facebook.com/gobigdata.info

http://facebook.com/groups/bigbigdata

www.itsmforum.ru

КОНТАКТЫ

Мои тренинги и бесплатные материалы:http://yurypetrov.com

Петров Юрий ВладимировичТренер, консультант (Big Data и DWH)

https://www.linkedin.com/in/petrovgobigdata

http://facebook.com/gobigdata.info

http://facebook.com/groups/bigbigdata

http://yurypetrov.com/

Инфраструктура Big data - от источников до быстрых витрин -...

Data & Analytics

Transcript of Инфраструктура Big data - от источников до быстрых витрин -...