Apache Kafka and stream processing peculiarities [ru]
-
Upload
vsevolod-solovyov -
Category
Software
-
view
70 -
download
2
Transcript of Apache Kafka and stream processing peculiarities [ru]
Apache Kafka and stream processing
peculiarities
Предисловие – Hadoop?
– Storm?
– Onyx?
– Dryad?..
Нет, не слышал
KafkaЛог сообщений:
– Хранимый и надёжный – Распределенный – Масштабируемый – ну и всё самое хорошее
Turning database inside outДоклад Мартина Клеппмана
на Strange Loop’14:https://www.youtube.com/watch?v=fU9hR3kiOK0
App State = Processing(log)
Stream processing
Состояние
Task
process window
Timer
Плюсы – Можно пересчитать заново – Низкая связанность (coupling)
– Легко тестировать
2 недели
Всё вручную – WHERE
– Индексы – JOIN
– Идентификаторы – Агрегация – JOIN!!!
JOIN, Aggregatetweet-idurl
url
url/tidurl
url
sum
А ещё – Разломанный конвеер - не
беда – Обработка шага заново
Хочу!Kafka
Samza – для JVMhttp://wiki.apache.org/samza/PapersAndTalks
Pymza – для Python