2015-12-05 Алексей Зиновьев - Когда все данные станут...
Transcript of 2015-12-05 Алексей Зиновьев - Когда все данные станут...
Когда все данные станут большими...
Зиновьев АлексейJava/BigData тренер в EPAM
Контакты
• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm
Каждые 60 секунд в мире …
Данные с мобильных девайсов – золотая жила!
Мы стали хранить и анализировать то, что раньше казалось ерундой
BigData – это..
• Работа с объемом данных, которые не влезает в один Excel – файл?
BigData – это..
• Работа с объемом данных, которые не влезает в один Excel – файл?
• Способ продать клиенту старые тряпки в новой упаковке?
BigData – это..
• Работа с объемом данных, которые не влезает в один Excel – файл?
• Способ продать клиенту старые тряпки в новой упаковке?
• Спасительное средство, когда MySQL для моего сайта тормозит?
BigData – это..• Работа с объемом данных, которые не влезает в
один Excel – файл?• Способ продать клиенту старые тряпки в новой
упаковке?• Спасительное средство, когда MySQL для моего
сайта тормозит?• Совокупность методологий и технологий
построения систем, хранилищ и средств анализа данных с высокой степенью горизонтального масштабирования и «стрессоустойчивостью»?
У меня 1 млн записей в MySQL. Это уже BigData?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?
У вас была SQL БД с медленными запросами?
• А не пойти ли вам потюнить?• Зачем тюнить если есть Hadoop и Amazon?• А вы знаете сколько стоит Amazon?• А у вас есть статистика по запросам?• А вы профилировали хоть раз?• А какой прогноз по объему данных на
ближайший год?
А сколько может выдержать наш бэкенд? Надо измерять!
Устали тюнитьOracle? Давайте поставим Cassandra
Типичный EPAM BigData кластер
• 450 машин• Master Nodes (24 ядра, 158 Gb RAM).• Data Nodes (24|32 ядра, 96|128 Gb RAM).• Средняя YARN Queue utilization 85% (по
дням).• 12Pb – емкость хранения данных
Биг дата – это когда что-то невероятно большое, да?
Нет, дело не только в размере
• У нас становится просто больше типов и моделей данных, в том числе скрытых от нас
• Нам нужно так быстро обрабатывать входящие данные, что через парус секунд они станут никому не нужны и могут быть просто удалены
• И да, нам иногда нужно что-то сложнее чем отчет по остаткам на складах
Это просто данные, которые на данный момент сложно …
• Хранить• Обрабатывать• Искать в них что-то• Анализировать• Передавать по сети• Визуализировать
Как считать корректно лайки?
Parallel Computin vs Distributed Computing
• Можно запустить на 1000 ядерной машине• Но тогда нам нужен суперкомпьютер• А можно каждой маленькой машинке
считать, хранить и обрабатывать свою порцию данных отдельно!
• Круто, а кто писать будет всю инфраструктуру?
Разработчик высоконагруженной системы узнал о Hadoop
MapReduce job-ы что-то там делают, а вы идете пить чай?
Придется учить Javvu, а я еще такой молодой
Бизнес торопит разработчика, а разработчик запускает кластер
Дружите с DevOps/сисадминами!
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^
Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем• Непрерывная интеграция всего хозяйства• Плавность смены версий в вашем ToolBox• Батюшка – деплой• Матушка – ошибки в логах• 24*7 выход чего-то из строя• Ну или кредитка для Amazon ^__^
Если вы умеете извлекать интересные факты из своих данных,
то за вами придут
Machine Learning vs Traditional Programming
Как организован процесс разработки?
Но кто пригодится для такой работы?
Специалисты
• Бывший backend – разработчик как личинка Hadoop/Spark девелопера
Специалисты
• Бывший backend – разработчик как личинка Hadoop/Spark девелопера
• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist
Специалисты
• Бывший backend – разработчик как личинка Hadoop/Spark девелопера
• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse Specialist
Специалисты
• Бывший backend – разработчик как личинка Hadoop/Spark девелопера
• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse Specialist
• Бывший математик как Data Scientist
Специалисты
• Бывший backend – разработчик как личинка Hadoop/Spark девелопера
• Бывший сисадмин как личинка DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse Specialist
• Бывший математик как Data Scientist• … ну и менеджер, с техническим
бэкгранудом
Морозоустойчивое решение – самое главное, алгоритмы затюним после!
Есть что спросить/рассказать?
• https://twitter.com/zaleslaw• https://twitter.com/BigDataRussia• http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm