Cassandra Hadoop Best Practices by Jeremy Hanna

Hadoop + CassandraBest Practices

Thursday, June 6, 13

Some Background


Some Background

• Hadoop support since early 2010


Some Background


• MapReduce/Pig works with any Hadoop 1.x distribution.


Some Background



• Hive is a neatly integrated piece of DSE


Some Background




• Data locality just like with HDFS


Some Background




• Data locality just like with HDFS

• Cassandra can handle ~200 CFs


Setup


Setup

• Analytics specific datacenter


Setup


• Configure replication (KS/DC specific)


Setup



• Isolated reads at CL.LOCAL_QUORUM


Setup




• Writes will be replicated


Setup




• Writes will be replicated

• Same best practices as with Hadoop alone


Vanilla Hadoop


Vanilla Hadoop

• Co-locate task trackers and data nodes with Cassandra nodes (data locality)


Vanilla Hadoop

• Co-locate task trackers and data nodes with Cassandra nodes (data locality)

• Workload isolation with separate Cassandra datacenter configured


Planning


Planning

• MapReduce over full column family


Planning


• Model data accordingly


Planning



• Add more column families


Planning



• Add more column families

• Can use secondary index, but use caution


Execution


Execution

• Project and select early in your workflow


Execution


• Store common intermediate datasets (in CFS/HDFS)


Execution


• Store common intermediate datasets (in CFS/HDFS)

• Bulk loader output format excels


Use Cases


Use Cases

• Typical Hadoop tasks


Use Cases


• Validate data


Use Cases


• Validate data

• Fix data


Use Cases


• Validate data

• Fix data

• Bootstrap a new column family from existing data


Thank you

• Jeremy Hanna

• @jeromatron (twitter and irc)

• [email protected]

• Ping me if you have any questions


mailto:[email protected]

mailto:[email protected]

Cassandra Hadoop Best Practices by Jeremy Hanna

Technology

Transcript of Cassandra Hadoop Best Practices by Jeremy Hanna