Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集

Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集@matsu_chara 2016/5/31 Apache Kafka Meetup Japan #1 at Yahoo! JAPAN

今日のスライド http://www.slideshare.net/matsu_chara/kafka-part2

part1のスライド http://xuwei-k.github.io/slides/kafka-matsuri/#1

自己紹介

• @matsu_chara

• Ponylang非公式エバンジェリスト活動

• Scala新卒研修用テキスト

話すこと•Kafkaを使ったイベントハブについて

• イベントハブとしてのKafka

• 現在のシステム構成

• Kafkaの設定

•Kafka運用時辛かった事例

• TopicとPartition数増大による性能劣化

• FullGC発生によるPublish失敗

• Raidコントローラエラー発生事件

• 利用用途の違いでKafkaのチューニングはどう変わるのか

• 運用・性能面で困ったことを共有

話すこと

Kafkaを使ったEventHubについて

よくあるKafkaの使われ方• ユーザーアクティビティログ・メトリクスの集約

=> availability重視

• イベントハブ(受け取ったデータをロストしないことが最重要)

=> durabilityを重視

よくあるKafkaの使われ方• ユーザーアクティビティログ・メトリクスの集約

=> availability重視

• イベントハブ(受け取ったデータをロストしないことが最重要)

=> durabilityを重視

イベントハブとしてのKafka• 社内システム連携・メッセージングのための基盤

サービスニコ動/ニコ生とか

Publisher

別システム別サービスなど

Subscriber

イベントハブとしてのKafka• Publisherが直接1:Nで配信するのは大変

• 様々な温かみが生まれた歴史…

• 各種サービスから情報を集約したいチームが出てきた時に対応するコスト

• 性能を各サービスでスケールさせるコスト

イベントハブとしてのKafka• 社内システム連携・メッセージングのための基盤

サービスニコ動/ニコ生など

Publisher

他サービスメール通知など

Subscriber

イベントハブとしてのKafka• Kafkaを中心にしてデータを集約

• Kafkaのスケーラビリティにより、色々なサービスが情報をsubscribe可能になる

• publisherのシステム的な都合にsubscriberが影響されない（密結合を防ぐ）

現在のシステム

• Scala/Play/akka

• 運用開始から半年ちょっと

• Kafka 0.9(クラスタは一つ。まだあまり大きくない)

現在のシステム• HTTPでイベントを受け取りKafkaへpublish

• KafkaからsubscribeしHTTP/AMQPで通知

HTTPAMQP

Protocol Buffers on Kafka

• イベントのシリアライザは

• 社内システム間連携の基盤として、メッセージの互換性を保障・調整する役割も担いたい

• 互換性維持のやりやすさを考慮して採用

• grpcも併せて社内のデータ交換形式の統一をしていきたい

Kafkaの設定• データを失わないことを重視

• Netflixの事例と方向性が異なる

項目名 default値 Netflix 設定値

acks 1 1 all

replication.factor - 2 3

min.insync.replica 1 ? 2

Kafkaの設定

その他の設定はpart1で紹介。

もっとチューニングしたいけど機能追加の兼ね合いがあるので隙を見てやっていきたい

もっと詳細な情報http://xuwei-k.github.io/slides/kafka-matsuri/#34

clouderaの資料http://www.cloudera.com/documentation/kafka/latest/topics/kafka_ha.html

Kafka運用辛かった事例

TopicAndPartition増大による性能劣化

• partitionが増えるとPublish完了までの時間が悪化

• replication factorにも依存

• レプリケーションが主な原因のようなのでnum.replica.fetchers などをチューニングする

topicをたくさん作り、1topicにのみ100万件publishしたときのqps

• グラフはHDDで計測したもの。SSDでも傾向自体は変化なし。

0 2000 4000 6000 8000

010000

TopicAndPartiton

• 現在はイベント頻度が高すぎないものに関してはpartition数を1にして対処（必要に応じて増やす）

• partition数の目安は1brokerあたり（100 * broker台数 * replication factor）程度？(記事参照)

詳細http://www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/

TopicAndPartition増大による性能劣化• Netflixも抑えているが、そちらは可用性に関するチューニング？

• 故障時のオーバーヘッドを減らす

企業目安参考元

confluent2000~4000 partitions/broker10K~ partitions/cluster

http://www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/

Netflix200 broker/cluster 以下10K partition/custer 以下

http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html

FullGC発生によるPublish失敗

• 負荷試験中に発生。

• メッセージサイズによる。（Kafka的には1KB程度が最も性能がでてGCにも優しいらしい）

• Javaパフォーマンスに書いてあるようなことをひたすらやっていく。

clouderaの資料 http://www.cloudera.com/documentation/kafka/latest/topics/kafka_performance.html

実際にやったチューニング http://xuwei-k.github.io/slides/kafka-matsuri/#61

RAIDコントローラエラー発生事件

• 突然Kafkaへのpublishがタイムアウトし始める

• ログを見るとRAIDコントローラが再起動していた

• RAIDコントローラ再起動後のbrokerは正常に動作

• 最近の出来事で調査・対策の方針がまだ立っていない

RAIDコントローラに異常発生

想定

RAIDコントローラに異常発生

in-sync replicaから離脱

想定

残った2台でack

想定

in-sync replicaのまま

現実

in-sync replicaのまま

現実acks=allを待ってタイムアウト

現実

しばらく経った後 RAIDコントローラ

再起動

現実3台でack

しばらく経った後 RAIDコントローラ

再起動

• min.insync.replica=2なので1台落ちてもpublishできるという想定だった。

• しかし「brokerがackを返せない状態」で「クラスタから離脱しなかった」ため、「acks=all」の設定によりpublishできなかったと思われる

• brokerはzookeeperのハートビートには応答するが、ackは返せないという状態になりうる？

• acks=2はkafka 0.9からは出来なくなっている

• RAIDを使わない方針も考えられる？

• RAID以外のエラーでも同じような現象は起きうるのか？

• 自動で離脱しないなら、brokerを停止させる外部機構が必要？

• Netflixのようにcold standbyなクラスタを用意するのはどうなのか、調子の悪いbrokerを停止させるだけでは不十分？

• 再現できていないので仮説ベースな部分あり

• 意見募集

まとめ

• 事例紹介

• 用途の違いを意識したチューニングが必要になる

• Netflixのようなavailabilityを重視

• イベントバスとしてdurabilityを重視

• 運用トラブルが起きる前に、confluent/linkedin/clouderaなどの資料は一通り目を通しておくと後悔が少ない。

• 実際の運用時の環境を想定した負荷試験をしてみる

Kafkaを使った マイクロサービス基盤 part2 ＋運用して起きたトラブル集

Technology

Transcript of Kafkaを使った マイクロサービス基盤 part2 ＋運用して起きたトラブル集

超分散システムを統治せよ！ - UMTP 特定非 ... · マイクロサービス、始める？始めない？ 単純なシステムのマイクロサービス化は、高いコストに帰結

Pivotal Cloud Foundryで 稼働するマイクロサービス · ホワイトペーパー Pivotal Cloud Foundryで 稼働するマイクロサービス Parag Doshi、Jared Ruckle、Peter

〜マイクロサービスを設計するすべての開発者に送る〜 クラウド … · クラウド時代のマイクロサービス設計徹底解説！ ... マイクロサービスアーキテクチャ

トラブル シューティング ガイド - ソフトバンクybb.softbank.jp/support/connect/adsl/pdf/trio_12_trouble.pdfYahoo! BB BBフォン トリオモデム12M トラブル

[Microsoft Tech Summit] Linux/Java にも対応! Azure Service Fabric を使ったマイクロサービス開発

マイクロサービスで、一歩先行くImmutable Infrastructureを目指そう

HEMS におけるトラブルシュートと トラブル未然防止のための事 … · 2019. 1. 24. · 1 hems におけるトラブルシュートと トラブル未然防止のための事例集

Inline SVG - トラブルとその対策

今だけ・・・ 東京都消費生活総合センター あなたにだけ！ 絶対 … · 自分でやってるよ！ トラブルを 避ける ポイント トラブルを 避ける

消費者トラブル事件簿...消費者トラブル事件簿 どこに危険なポイントが潜んでいたか分かりますか？ 答えは裏面へ！危険なポイントがこんなにありました。あなたはいくつ気付きましたか？詳しくは

ビジネスの価値向上をもたらす マイクロサービスと レッドハッ … · Wildfly Swarm Node.js SERVLET JSP REACTIVE MicroProfile JavaScript SPRING BOOT NETFLIX

ネット - ip.mirai.ne.jpg-ikusei/01leaflet.pdf · このようなトラブルや犯罪被害を防止するには？ トラブル事例 スマートフォンの使いすぎで、生活リズムが乱れたままに。

マイクロサービスを支える インフラアーキテクチャ 04 · 2.アーキテクチャの再設計- Twelve-Factor App • クラウドネイティブアプリケーションのためのベストプラクティス集

API Academy:マイクロサービス化へのファーストステップ

問題が発生したため、プロセス「com.google.process.gapps」を … · 1 トラブル対処マニュアル 問題が発生したため、プロセス「com.google.process.gapps」を終了します。

オトナのService Fabric～マイクロサービス編

トラブルの予防 トラブル解決の第一歩 トラブル解 …121ware.com/e-manual/m/nx/ac/201004/tb/v1/mst/853_811064_007_a.… · black 2010-2q-161h vslv トラブル予防

HiPerFect Transfection Reagent プロトコールとトラブル …

ビズリーチの新サービスをScalaで作ってみた 〜マイクロサービスの裏側 #jissenscala

舶用機関のトラブル防止のための 日常・定期点検整 …舶用機関のトラブル防止のための 日常・定期点検整備 一般社団法人 日本舶用機関整備協会

Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集

Transcript of Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集

超分散システムを統治せよ！ - UMTP 特定非 ... · マイクロサービス、始める？始めない？単純なシステムのマイクロサービス化は、高いコストに帰結

Pivotal Cloud Foundryで稼働するマイクロサービス · ホワイトペーパー Pivotal Cloud Foundryで稼働するマイクロサービス Parag Doshi、Jared Ruckle、Peter

〜マイクロサービスを設計するすべての開発者に送る〜クラウド … · クラウド時代のマイクロサービス設計徹底解説！ ... マイクロサービスアーキテクチャ

トラブルシューティングガイド - ソフトバンクybb.softbank.jp/support/connect/adsl/pdf/trio_12_trouble.pdfYahoo! BB BBフォントリオモデム12M トラブル

HEMS におけるトラブルシュートとトラブル未然防止のための事 … · 2019. 1. 24. · 1 hems におけるトラブルシュートとトラブル未然防止のための事例集

今だけ・・・東京都消費生活総合センターあなたにだけ！絶対 … · 自分でやってるよ！トラブルを避けるポイントトラブルを避ける

消費者トラブル事件簿...消費者トラブル事件簿どこに危険なポイントが潜んでいたか分かりますか？答えは裏面へ！危険なポイントがこんなにありました。あなたはいくつ気付きましたか？詳しくは

ビジネスの価値向上をもたらすマイクロサービスとレッドハッ … · Wildfly Swarm Node.js SERVLET JSP REACTIVE MicroProfile JavaScript SPRING BOOT NETFLIX

ネット - ip.mirai.ne.jpg-ikusei/01leaflet.pdf · このようなトラブルや犯罪被害を防止するには？トラブル事例スマートフォンの使いすぎで、生活リズムが乱れたままに。

マイクロサービスを支えるインフラアーキテクチャ 04 · 2.アーキテクチャの再設計- Twelve-Factor App • クラウドネイティブアプリケーションのためのベストプラクティス集

問題が発生したため、プロセス「com.google.process.gapps」を … · 1 トラブル対処マニュアル問題が発生したため、プロセス「com.google.process.gapps」を終了します。

トラブルの予防トラブル解決の第一歩トラブル解 …121ware.com/e-manual/m/nx/ac/201004/tb/v1/mst/853_811064_007_a.… · black 2010-2q-161h vslv トラブル予防

ビズリーチの新サービスをScalaで作ってみた〜マイクロサービスの裏側 #jissenscala

舶用機関のトラブル防止のための日常・定期点検整 …舶用機関のトラブル防止のための日常・定期点検整備一般社団法人日本舶用機関整備協会