2015-12-05 Алексей Зиновьев - Когда все данные станут...

Post on 11-Jan-2017

197 views 0 download

Transcript of 2015-12-05 Алексей Зиновьев - Когда все данные станут...

Когда все данные станут большими...

Зиновьев АлексейJava/BigData тренер в EPAM

Контакты

• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm

Каждые 60 секунд в мире …

Данные с мобильных девайсов – золотая жила!

Мы стали хранить и анализировать то, что раньше казалось ерундой

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

• Способ продать клиенту старые тряпки в новой упаковке?

BigData – это..

• Работа с объемом данных, которые не влезает в один Excel – файл?

• Способ продать клиенту старые тряпки в новой упаковке?

• Спасительное средство, когда MySQL для моего сайта тормозит?

BigData – это..• Работа с объемом данных, которые не влезает в

один Excel – файл?• Способ продать клиенту старые тряпки в новой

упаковке?• Спасительное средство, когда MySQL для моего

сайта тормозит?• Совокупность методологий и технологий

построения систем, хранилищ и средств анализа данных с высокой степенью горизонтального масштабирования и «стрессоустойчивостью»?

У меня 1 млн записей в MySQL. Это уже BigData?

 

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?

У вас была SQL БД с медленными запросами?

• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?• А какой прогноз по объему данных на

ближайший год?

А сколько может выдержать наш бэкенд? Надо измерять!

Устали тюнитьOracle? Давайте поставим Cassandra

Типичный EPAM BigData кластер

• 450 машин• Master Nodes (24 ядра, 158 Gb RAM).• Data Nodes (24|32 ядра, 96|128 Gb RAM).• Средняя YARN Queue utilization 85% (по

дням).• 12Pb – емкость хранения данных

Биг дата – это когда что-то невероятно большое, да?

Нет, дело не только в размере

• У нас становится просто больше типов и моделей данных, в том числе скрытых от нас

• Нам нужно так быстро обрабатывать входящие данные, что через парус секунд они станут никому не нужны и могут быть просто удалены

• И да, нам иногда нужно что-то сложнее чем отчет по остаткам на складах

Это просто данные, которые на данный момент сложно …

• Хранить• Обрабатывать• Искать в них что-то• Анализировать• Передавать по сети• Визуализировать

Как считать корректно лайки?

Parallel Computin vs Distributed Computing

• Можно запустить на 1000 ядерной машине• Но тогда нам нужен суперкомпьютер• А можно каждой маленькой машинке

считать, хранить и обрабатывать свою порцию данных отдельно!

• Круто, а кто писать будет всю инфраструктуру?

Разработчик высоконагруженной системы узнал о Hadoop

MapReduce job-ы что-то там делают, а вы идете пить чай?

Придется учить Javvu, а я еще такой молодой

Бизнес торопит разработчика, а разработчик запускает кластер

Дружите с DevOps/сисадминами!

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^

Инфраструктурные задачи

• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^

Если вы умеете извлекать интересные факты из своих данных,

то за вами придут

Machine Learning vs Traditional Programming

Как организован процесс разработки?

Но кто пригодится для такой работы?

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

• Бывший математик как Data Scientist

Специалисты

• Бывший backend – разработчик как личинка Hadoop/Spark девелопера

• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse Specialist

• Бывший математик как Data Scientist• … ну и менеджер, с техническим

бэкгранудом

Морозоустойчивое решение – самое главное, алгоритмы затюним после!

Есть что спросить/рассказать?

• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm