Wrangler - Stanford Universityneerajay/26-yadwadkar-slides.pdfNeeraja J. Yadwadkar, ! Ganesh...

Wrangler Predictable and Faster Jobs using

Fewer Resources!

Neeraja J. Yadwadkar, ��Ganesh Ananthanarayanan and Randy Katz

Parallel Data Analytics!Job completed

Job queue

Master

Slaves 2

Stragglers!Job completed

Job queue

Master

Slaves 3

Defining Stragglers!

Task Execution Time

Tasks of a job

Impact of Stragglers!Presence of Stragglers in real-world production level traces*:

Workload Stragglers

Facebook 2009 (FB2009)

Facebook 2010 (FB2010)

Cloudera’s Customer b (CC_b)

Cloudera’s Customer e (CC_e)

When replayed using SWIM+ on a 50 node EC2 cluster….

*captured for over 6 months from about 4000 machines in total

Threshold = 1.3 * median

+Chen Y., et al., The Case for Evaluating MapReduce Performance Using Workload Suites, MASCOTS’11 5

Impact of Stragglers!

Dolly, NSDI’13 6

Speculative Execution!

Job queue

Replicating

TS: In progress

Job completed

Existing Approaches

Replicate

Wasted Time in detecting stragglers

Wasted Resources LATE

OSDI’08

Speculative Execution

OSDI’04

Mantri OSDI’10 Dolly

NSDI’13

Wrangler

Design Goals!

1.  Identify stragglers as early as possible

2.  Schedule tasks for improved job finishing times

1.  To avoiding creation of stragglers 2.  To avoid replication

Avoid Wasting

Resources

Avoid Wasting Time in detecting stragglers

Defer potential stragglers!

Job Submitted Map finished Map finished Job finished Job finished

Net Gain

Reduce Deferred

Assignments

Model Builder

Predictive Scheduler

Worker

Master

Worker 1

Workers

Our proposal: Wrangler

“Input” Features

Scheduling Decisions

Selecting “Input” Features!

MapReduce: Dean, et. al, OSDI’04

LATE: Zaharia, et. al, OSDI’08

Mantri: Ananthanarayanan, et. al, OSDI’10

CPU -  cpu_idle -  cpu_system -  cpu_user -  …

Network -  bytes_in -  bytes_out -  …

Memory -  mem_buffers -  mem_cached -  mem_free -  mem_shared -  mem_total -  …

Disk -  swap_free -  swap_total -  disk_free -  disk_total -  …

Other -  Jvm. memHeapUsedM -  Jvm. threadsBlocked -  Jvm. gcTimeMillis -  … -  datanode.blocks_written -  … -  rpc.callQueueLen -  rpc.OpenConnections -  …

Selecting “Input” Features!

Key observation using Subset selection methods

Features of importance vary across nodes and across time!

•  Complex task-to-node interactions •  Complex task-to-task interactions •  Heterogeneous clusters •  Heterogeneous task requirements

Why? 13

Model Builder

Worker

Master

Worker 1

Workers

“Input” Features

Model Builder

Worker

Master

Worker 1

Workers

Utilization Counters

Model Builder

Worker

Master

Worker 1

Workers

Unknown and dynamic causes behind stragglers

A Challenge in Model Building !

Desired: An ability of predicting stragglers without needing domain-specific knowledge

Approach: Classification! Techniques that learn to adapt to changing

causes automatically

Classification for Predicting Stragglers!

{Utilization Counters} Straggler Non-Straggler (~100)

Predict:

Build a model:

{Utilization Counters, Straggler/Non-Straggler} Learning Classifier

Classifier

For every node in a cluster,

Classification Technique: SVM

Non-Stragglers

Stragglers

feature1

Separating Hyper-plane

Classification Accuracy using SVM!

FB2009 FB2010 CC_b CC_e

) Stragglers (True Positive) Non-Stragglers (True Negative)

Is this accuracy good enough?

Worker

Master

Worker 1

Workers

Model Builder

Predictive Scheduler (Naïve)!

Defer scheduling a task on a node that is predicted to create a

straggler

Intuition…. !

Resource Usage

Key: Better load-balancing

1. Improved job completion

2. Reduced resource consumption

Does the Naïve approach improve job completion?!

!4.22% !5.53% !5.39%

11.34%

!5.51%

43.59%

58.87% 62.10%

43.13%

22.46%

!10%0%10%20%30%40%50%60%70%80%90%

avg% 95p% 97p% 99p% 99.9p%

Percen

tage%Red

Predic;on%without%confidence%measure%Predic;on%with%confidence%measure%(p=0.8)%

Baseline: Speculative Execution

Workload: CC_b

Model Builder

Worker

Master

Worker 1

Workers

Confident? Yes

Model Builder

Worker

Master

Worker 1

Workers

Confident? Yes

Only confident predictions influence scheduling decisions

Confidence Measure

Non-Stragglers

Stragglers

feature1

Separating Hyper-plane

Corresponds to P: confidence

threshold 27

Low-confidence zone

p: Confidence Threshold!

•  Value calculated via cross-validation

•  Verified via empirical sensitivity analysis

(refer to paper for details)

Evaluation!

•  Aim I: Does Wrangler Improve Job Completion Times?

•  Aim II: Does Wrangler Reduce Resources Consumed?

Aim 1: Does Wrangler Improve Job Completion Times?!

!4.22% !5.53% !5.39%

11.34%

!5.51%

43.59%

58.87% 62.10%

43.13%

22.46%

!10%0%10%20%30%40%50%60%70%80%90%

avg% 95p% 97p% 99p% 99.9p%

Percen

tage%Red

Predic;on%without%confidence%measure%Predic;on%with%confidence%measure%(p=0.8)%

Workload: CC_b Baseline: Speculative Execution

Confidence measure is the key! 30

Aim II: Does Wrangler Reduce Resources Consumed?!

0 10 20 30 40 50 60 70 80 90

FB2009 FB2010 CC_b CC_e

Percen

tage Red

Total Task-‐Second

Baseline: Speculative Execution 31

Load-Balancing with Wrangler!

Few highly loaded nodes

Workload: FB2010

Sophisticated schedulers exist….why Wrangler?!

•  Difficult to – An9cipate the dynamically changing causes – Deal with over 100 resource u9liza9on counters – Build a generic and unbiased scheduler

Wrangler statistically learns to

predict stragglers without needing domain-specific knowledge

Status and Future Directions!

•  Status: –  Improving accuracy using lesser training data –  Improving job completions further

•  Future Directions: – Generalization to other problems in cluster

computing environments •  Fault Detection •  Resource Allocation

Conclusions!•  ML techniques enable early prediction of tasks

that are likely to straggle. •  Use of confidence measure makes straggler

predictions useful

•  Wrangler: – Enables faster jobs – Uses fewer resources

Contact: neerajay@eecs.berkeley.edu 35

Wrangler - Stanford Universityneerajay/26-yadwadkar-slides.pdfNeeraja J. Yadwadkar, ! Ganesh...

Documents

Transcript of Wrangler - Stanford Universityneerajay/26-yadwadkar-slides.pdfNeeraja J. Yadwadkar, ! Ganesh...

Automatically generated PDF from existing images. · 2018-07-27 · dr. samir k mahajan bandana khataniar iyer vibha ananthanarayanan pratiti singha nairita bhattacharjee dipankar

WORK RECORD - Sree Chitra Tirunal Institute for Medical ...dspace.sctimst.ac.in/jspui/bitstream/123456789/2633/1/6354.pdf · work record name : dr. c. ananthanarayanan course ...

INFaaS: Managed & Model-less Inference ServingINFaaS: Managed & Model-less Inference Serving Francisco Romero* Stanford University Qian Li* Stanford University Neeraja J. Yadwadkar

greentribunal.gov.in · Sun Planet Welfare Association & Ors V/S Sarang Yadwadkar & Ors. Ishak Mohr-nad Patel & Ors. Union of India & Ors. Vinayak Chagan Rathod V/S Frigorifico Allana

Bringing Programmability to Experimental Biology Bill Thies Joint work with Vaishnavi Ananthanarayanan, J.P. Urbanski, Nada Amin, David Craig, Jeremy Gunawardena,

GRASS : Trimming Stragglers in Approximation …...GRASS : Trimming Stragglers in Approximation Analytics Ganesh Ananthanarayanan, Michael Hung, Xiaoqi Ren, Ion Stoica, Adam Wierman,

April 2010 VISHU! Tarangini - xa.yimg.comxa.yimg.com/kq/groups/14060713/174707821/name/... · Sarva Amavasya Monthly Visheshangals: - K V Ananthanarayanan . The Vedas state that for

Blue-Fi: Enhancing Wi-Fi Performance using … Enhancing Wi-Fi Performance using Bluetooth Signals Ganesh Ananthanarayanan UC Berkeley Berkeley, California ganesha@cs.berkeley.edu

PACMan:CoordinatedMemoryCachingforParallelJobs · PACMan:CoordinatedMemoryCachingforParallelJobs Ganesh Ananthanarayanan ×, Ali Ghodsi ×,®,Andrew Wang ×,Dhruba Borthakur ö, Srikanth

Studies in Indian Phyllachoraceae III. - Zobodat - … in Indian Phyllachoraceae III. S. Ananthanarayanan*) (Maharashtra Association for the Cultivation of Science, Poona 4, India).

Clarinet: WAN-Aware Optimization for Analytics Queries...Clarinet: WAN-Aware Optimization for Analytics Queries Raajay Viswanathan, Ganesh Ananthanarayanan, Aditya Akella 1. Overview

· A.K. Das T. Ananthanarayanan K.V. Seshasayee ˆˆ˘ ˙ ˝ ˘ ˆˆ˘ Anil Harish - Chairman R.P. Hinduja A.K. Das ... K.M.Raju General Manager, EAG

CS162 Operating Systems and Systems Programming Final Exam Review May 6, 2013 Haoyuan Li, Neeraja Yadwadkar, Daniel Bruckner cs162.

Visor: Private Video Analytics as a Cloud Serviceiot.stanford.edu/retreat19/sitp19-visor.pdf · Visor: Private Video Analytics as a Cloud Service Rishabh Poddar Ganesh Ananthanarayanan,

Scaling Video Analytics Systems to Large Camera Deployments · Scaling Video Analytics Systems to Large Camera Deployments Samvit Jain†∗, Ganesh Ananthanarayanan†, Junchen Jiang¶†,

Mihail L. Sichitiu, Rudra Dutta Vaidyanathan Ananthanarayanan Ramachandra Kasyap Marmavula North Carolina State University CentMesh Drones Challenge 2014.

Organization Identity Profiles - Raghu Ananthanarayanan · 2019-12-06 · the design elements of the tools themselves, or their psychometric properties, one ... Before taking the

PACMan: Coordinated Memory Caching for Parallel …PACMan: Coordinated Memory Caching for Parallel Jobs Ganesh Ananthanarayanan 1, Ali Ghodsi , Andrew Wang , Dhruba Borthakur2, Srikanth

Multi-Resource Packing for Cluster Schedulerspages.cs.wisc.edu/~akella/papers/tetris.pdfMulti-Resource Packing for Cluster Schedulers Robert Grandl, Ganesh Ananthanarayanan, Srikanth

ANANTHANARAYANAN, A.L. and E. SCHWARTZ …978-3-642-46560-4/1.pdf · References ANANTHANARAYANAN, A.L. and E. SCHWARTZ (1980), "Retractable and exten dible bonds: The Canadian Experience",