VMware ESXi トラブルシューティング
フランちゃんウフフなシステムエンジニア
おおかわ かずひと
IIJ Global Solutions Inc.
アジェンダ
• はじめに
• 自己紹介
• IaaS における自社の立ち位置
• ESXi のトラブルシューティング話
• まとめ
はじめに
Casual Talk という事で軽めです。
といわけでトークメインで。( 後からスライド見る皆さんごめんなさい ♪キャハ )
時間がなくてネタの仕込みはございません。
よろしくお願いします。
自己紹介
• おおかわかずひと @SatchanP ( 相変わらず意識低い系 )
• IIJ Global で SE 初めて半年ちょっと
• 以前はウェブ系のインフラエンジニア ( 前職は Kauli 株式会社 )
• VOYAGE GROUP に買収されたため緊急脱出
• プライベートラリースト
• 二次属性
アイマス : やよい 真美東方 : フランちゃん 咲夜さん艦これ : Верный 響
IaaS における自社の立ち位置
ストレージ
SAN/NW
サーバ
HV
OSSAP/ERP
VMIIJGIO 利用時の担当範囲
オンプレ構築担当範囲
VMware ESXi による ERP 基盤提供が主要件定義、個別設計 (WAN/NW/Server) 、構築、運用など
エンドユーザ / アプリベンダー範囲
ESXi トラブルシューティングの必要性• OSS 当たり前で生きてきて初めてまともな商用にのった
• 金で解決できるバラ色の世界が待っているはずだった
• 現実は甘くなく…
• サポートに確実な問題個所を伝えないと調査に時間がかかる、真面目に調べてくれない、的外れな回答が返ってくる
• サポートからの回答がだけではエンドユーザに説明がつかない場合も
• 結局高いお金払ってるのに、自前で納得いくまで調査するしかない
• 調査結果のエビデンスを得るためにサポートを追いつめる
• Proxy しているだけでは SE の意味がない
トラブルの切り分け方 (NW)各レイヤーごとに分けて切り分けが必要
Virtual Switch
OS/Kernelvmnic
vDS/vSS
アプリケーション
物理 NIC
物理スイッチイーサネット
トラブルの切り分け方 (Storage I/O)
vHBA(vSCSI)
FC, Ethernet Adapter
SAN
StorageSCSI Host
SCSI
便利なツール群
• ESXi ssh
• vSphere Client / Web Client
• IDA Debugger
• 各種 SNMP ツール社内の制度上 Zabbix
( 中の人的は cacti + GrowthForecast + nagios が好き )
便利なツール群 (CLI 編 よく使う人たち )• vmdumper
• memstats
• tcpdump-uwpktcap-uw
• strace
• ethtool
• dmesg
• vProbe
• vsish
• esxcfg-*
• esxtop
• vscsiStats
• vmkping
• vmkbacktrace
vsish が便利!
• Linux の procfs/sysctrl のようなもの
• Linux 使いには親和性が高い
• Vmkernel のパラメータやカウンタの参照、変更が可能
• 軽い 使いやすい わかりやすい
• ノンインタラクティブモードで、シェルから実行して出力だけ得ることも可能 (-e : option)
vsish で NW トラブルの調査 (vDS)esx-top -> n で調査対象のポートを特定する
vsish で NW トラブルの調査 (vDS)仮想スイッチポートのカウンターを確認する
vsish で NW トラブルの調査 (VM Ring Buffer)
vmnic の種類を確認する
vsish で NW トラブルの調査 (VM Ring Buffer)
エラーカウンターを確認する
vsish で NW トラブルの調査 (TCP スタック )
vmkernel の TCP スタックカウンターを見てみる
vsish で NW トラブルの調査 (TCP スタック )
ブラックホールの形跡がないか確認
物理 NIC は ethtool or vsish でも可
esxtop (memory) で NUMA の確認
NUMA Remote | NUMA Local (MB)
esxtop (memory) で NUMA の確認
アカンやつ
フリーズした VM の情報収集NMI を発生させてクラッシュダンプから解析(ダンプさせる設定がゲスト OS側に必要)
ダンプ解析は気合で!
( 時間がなかったから省略… )
その他アプライアンス
• vCenter, RM, SRM等、ほぼ Java + DB(PG, MSSQL)
• Log4J のアレ、ログの量が多く冗長
• 上記以外のログがひっそりある場合も
• 何かあったらとにかくログの回収を光速で行う(2,3日で lotate されてしまうログもある )
• アプライアンスは調子にのって増やさない問題の原因が増えるし、切り分けが面倒ご利用はご計画的に!
まとめ• みんな VMware を使ってサービスしているので、サ
ポートまかせでは差別化できるはずがない
• 商用でも OSS でも手間がかかるのは一緒(だった…)
• 日本の中途半端な SI/SE屋は淘汰されていきそう
• 見せ方は綺麗だけど、 ESXi 自体レガシーの塊になりつつある印象
• そんなわけで SE大変だけど楽しい!
ありがとうございました!
Top Related