Dependecy Driven Analyticscidrdb.org/cidr2017/slides/p59-mavlyutov-cidr17-slides.pdf · Dependency...

Dependency Driven Analyticsa Compass for Uncharted Data Oceans/Jungles

Ruslan Mavlyutov, Carlo Curino, Boris Asipov, Phil Cudre-Mauroux

The production job “JobA” failed… impact? debug? re-run?

1) look in the logs

PBs of daily

2) ask local experts(they know “how” to look)

But don’t bother them too much…

The Problem

Focused analyses of massive, loosely structured, evolving data has prohibitive cognitive and computational costs.

Focused analyses of massive, loosely structured, evolvingdata has prohibitive cognitive and computational costs.

The Problem

Cost of understanding raw data Cost of processing raw data

A better vantage point?

Dependency Driven Analytics (DDA)

• Derive a dependency graph (DG) from raw data

The DG serve as:• Conceptual Map, and

• Sparse Index for the raw data

DDA today DDA vision

• Automation• Language-integration• Real-time• …

DDA: infrastructure logs “incarnation”

• The DG stores: provenance + telemetry

• NODES: jobs / files / machines / tasks / …

• EDGES: job-reads-file, task-runs-on-machine

• PROPERTIES: timestamps / resources usage / …

Raw data (logs)

Query Interface

“JobA’s impact?”

Current implementation

Raw Data

Extraction

Dependency Definition

Storage

Querying

Scope/Cosmos Neo4J

dependencygraph

Schema +extr. rules

Big DataSystem

GraphSystem

Raw Data

Extract “jobs processing hours”

extStart = EXTRACT * FROM "ProcStarted_%Y%m%d.log"

USING EventExtractor("ProcStarted");

startData = SELECT ProcessGuid AS ProcessId,

CurrentTimeStamp.Value AS StartTime,

JobGuid AS JobId

FROM extStart

WHERE ProcessGuid != null AND JobGuid != null AND

CurrentTimeStamp.HasValue;

procH = SELECT endData.JobId,

SUM((End - Start).TotalMs)/1000/3600 AS procHours,

FROM startData INNER JOIN endData ON startData.ProcessId ==

endData.ProcessId AND startData.JobId == endData.JobId

GROUP BY JobId;

OUTPUT (SELECT JobId, procHours FROM procH) TO "processingHours.csv";

Example: “Measure JobA’s impact”

graph.traversal().V()

.has("JobTemplateName","JobA_*")

.local(

emit().repeat(out()).times(100)

.hasLabel("job").dedup()

.values(“procHours").sum()

).mean()

DDA: Initial Experiments

Improvements of up to:

• 7x less LoC*

• 700x less run-time

• > 50,000x less CPU-time

• > 800x less I/O

* Heavy under-representation of hardness of baseline

Not all queries are as easy…

Simple search/browsing

Local or agg. queries on telemetry / provenance

Graph queries on DG (i.e., covering index)

Complex/AdHoc queries (e.g., debugging)

Mix of DG and raw data querying (clumsy today)

UI (keyword search)

Scope/Cosmos Neo4J

DDA: open challenges

• Automatically “map” the raw data

• Real-time log ingestion at scale

• Scale-out graph management • Leverage specialized graph structures

• Integrated language for graph+relational+unstructured

Enterprise Search Internet of ThingsInfrastructure logs

Conclusions

Problem:• Focused analyses of massive, loosely structured, evolving data has

prohibitive costs

DDA solution:• Extract a Dependency Graph (DG) conceptual map + sparse index

• Current impl. leverages existing BigData/Graph tech

Open challenges:• automation / real-time / scalable graph tech / integrated language

Dependecy Driven Analyticscidrdb.org/cidr2017/slides/p59-mavlyutov-cidr17-slides.pdf · Dependency...

Documents

Transcript of Dependecy Driven Analyticscidrdb.org/cidr2017/slides/p59-mavlyutov-cidr17-slides.pdf · Dependency...

Cosette: An Automated Solver for SQLcidrdb.org/cidr2017/slides/p51-chu-cidr17-slides.pdfCosette: An Automated Solver for SQL Shumo Chu Konstantin Weitz Chenglong Wang Alvin Cheung

Domain driven design and model driven development

Processing Java UDFs in a C++ Environment - user.tu-berlin.de · Wildﬁre 3 • HTAP prototype from IBM Research [CIDR2017] • C++ columnar engine • Spark as user-facing front

Customer Driven Products • Quality Driven Products ...

Obstacle Driven Development: Extending Test Driven Development

Model Driven Development / Model Driven Architecture · 2012-07-05 · Model Driven Architecture/Model Driven Development Haizmann, Köster, Neugart, Stein Informationstechnik BA

Self-Driving Database Management Systemscidrdb.org/cidr2017/slides/p42-pavlo-cidr17-slides.pdf · Self-Driving Database Management Systems CIDR 2017 @andy_pavlo . 1920s Cornelius

Volume Driven Value Driven - Resource Center

Personality driven to standards driven management

A Model for Fine-Grained Data Citationcidrdb.org/cidr2017/slides/p19-davidson-cidr17-slides.pdfA Model for Fine-Grained Data Citation Susan B. Davidson, Daniel Deutch, Tova Milo, Gianmaria

Customer-Manager Driven Product-Manager Driven

Powering Technology-Driven, Competitive-Driven, and Consumer-Driven Automotive Innovation

The MyriaBig Data Management and Analytics System and ...cidrdb.org/cidr2017/slides/p37-wang-cidr17-slides.pdfMyria’sData Model and Query Interface • Relational Algebra Compiler

Indexing in Distributed Actor Systems - cidrdb.orgcidrdb.org/cidr2017/slides/p29-bernstein-cidr17-slides.pdf · On activation, actor invokes its constructor to initialize its state

Domain Driven Design và Event Driven Architecture

Database Forensic Analysis with DBCarvercidrdb.org/cidr2017/papers/p128-wagner-cidr17.pdf · tors, alternatively, need forensic tools and techniques that work on poorly-con gured

SnappyData - CIDRcidrdb.org/cidr2017/slides/p28-mozafari-cidr17-slides.pdf · Lambda Architecture is Complex Scalable Store HDFS, MPP DB Data-in-moAon AnalyAcs ApplicaAon STREAMS

Model Driven Engineering + Aspect Oriented Programming ... · Model Driven Engineering + Aspect Oriented Programming = Agile Model Driven Architecture ... Agile Model Driven Architecture

PowerPoint Presentationcidrdb.org/cidr2017/slides/p82-dong-cidr17-slides.pdf · 8636146 (user) likes liked by 6205972929 (Story) 18429207554 (page) admin friend name: Barack Obama

Proﬁt-driven and demand-driven investment growth