Apache Kafka and stream processing peculiarities [ru]

Apache Kafka and stream processing

peculiarities

Предисловие – Hadoop?

– Storm?

– Onyx?

– Dryad?..

Нет, не слышал

KafkaЛог сообщений:

– Хранимый и надёжный – Распределенный – Масштабируемый – ну и всё самое хорошее

Turning database inside outДоклад Мартина Клеппмана

на Strange Loop’14:https://www.youtube.com/watch?v=fU9hR3kiOK0

App State = Processing(log)

https://www.youtube.com/watch?v=fU9hR3kiOK0

https://www.youtube.com/watch?v=fU9hR3kiOK0

Stream processing

Состояние

Task

process window

Timer

Плюсы – Можно пересчитать заново – Низкая связанность (coupling)

– Легко тестировать

2 недели

Всё вручную – WHERE

– Индексы – JOIN

– Идентификаторы – Агрегация – JOIN!!!

JOIN, Aggregatetweet-idurl

url

url/tidurl

url

sum

А ещё – Разломанный конвеер - не

беда – Обработка шага заново

Хочу!Kafka

Samza – для JVMhttp://wiki.apache.org/samza/PapersAndTalks

Pymza – для Python

http://wiki.apache.org/samza/PapersAndTalks

http://wiki.apache.org/samza/PapersAndTalks

Apache Kafka and stream processing peculiarities [ru]

Software

Transcript of Apache Kafka and stream processing peculiarities [ru]