Оценка производительности hadoop кластера.

22
http://retailrocket.ru/Content/Img/promo/logo.png Как измерить слона? Оценка производительности кластера Hadoop Мурашкин Вячеслав [email protected]

description

В презентации описан подход к оценке производительности hadoop кластера. Описаны вероятные узкие места, влияющие на производительность кластера. Приведен пример сравнения производительности двух кластеров на различном железе.

Transcript of Оценка производительности hadoop кластера.

Page 1: Оценка производительности hadoop кластера.

http://retailrocket.ru/Content/Img/promo/logo.png

Как измерить слона?Оценка производительности

кластера Hadoop

Мурашкин Вячеслав[email protected]

Page 2: Оценка производительности hadoop кластера.

RetailRocket сегодня

● 50M хостов в месяц● 40G логов в сутки● 15 машин в кластере● 5 часов ежедневно на регулярные задачи

Page 3: Оценка производительности hadoop кластера.

0. Кластер Hadoop

Page 4: Оценка производительности hadoop кластера.

1 Производительность

Число выполненных задач за единицу времени

Page 5: Оценка производительности hadoop кластера.

● Время выполнения задачи● Воспроизводимость результатов

○ Одни и те же входные данные○ Одни и те же задачи

1.1 Как оцениваем?

Page 6: Оценка производительности hadoop кластера.

github.com/intel-hadoop/HiBench

● Набор типовых задач○ Sort, WordCount, TeraSort, Nutch indexing,

PageRank, Bayesian classification, K-means clustering

● Утилиты для генерации входных данных

1.2 Чем оцениваем?

Page 7: Оценка производительности hadoop кластера.

1.3 Время измерили

А дальше?

Page 8: Оценка производительности hadoop кластера.

2 Поиск узких мест

● Железо (CPU, Disks, Network)● Конфигурация кластера● Оптимизация задачи

Page 9: Оценка производительности hadoop кластера.

2.1 Утилиты

● sysbench (CPU, File IO)● iperf (Network)

Page 10: Оценка производительности hadoop кластера.

2.2 Система мониторинга

Page 11: Оценка производительности hadoop кластера.

● Cloudera Manager● Ganglia● Zabbix

2.2 Система мониторинга

Page 12: Оценка производительности hadoop кластера.

● Число занятых слотов● Объем свободного места в HDFS● Jobtracker Heap Usage

2.3 Метрики hadoop

Page 13: Оценка производительности hadoop кластера.

2.3 Метрики hadoop

Page 14: Оценка производительности hadoop кластера.

● Dsik IO operations● CPU (load, context switches, iowait)● Network traffic● RAM

2.3 Системные метрики

Page 15: Оценка производительности hadoop кластера.

2.3 Системные метрики

Page 16: Оценка производительности hadoop кластера.

3 Устраняем перегрузки

Page 17: Оценка производительности hadoop кластера.

● Оптимизируем число map/reduce слотов○ mapred.tasktracker.map.tasks.maximum○ mapred.tasktracker.reduce.tasks.maximum

3.1 CPU Context switches

Page 18: Оценка производительности hadoop кластера.

● Используем несколько дисков○ mapred.local.dir

3.2 CPU iowait

Page 19: Оценка производительности hadoop кластера.

3.3 CPU load

● Режим работы CPU○ devices/system/cpu/cpu0/cpufreq/scaling_governor○ userspace powersave conservative ondemand

performance

Page 20: Оценка производительности hadoop кластера.

4 Пример из жизни: 2 кластера

● Дистрибутив Cloudera CDH4.1● по 4 машины в кластере● тестируем HiBench Sort 24G/node

Page 21: Оценка производительности hadoop кластера.

4.1 Пример из жизни: 2 кластераA: Intel® Xeon® Processor E3-1245 v2# of Cores 4# of Threads 8# Clock Speed 3.4 GHz# Map/Reduce 4/3# Sort time 13,5 min# Cost 71 $

B: Intel® Xeon® Processor E5-2620 # of Cores 6

# of Threads 12# Clock Speed 2 GHz# Map/Reduce 6/5# Sort time 22,5 min# Cost 230 $

Page 22: Оценка производительности hadoop кластера.

Спасибо!

Мурашкин Вячеслав[email protected]

retailrocket.ru