VMware ESXi トラブルシューティング

25
VMware ESXi トトトトトトトトトトト フフフフフフフフフフフフフフフフフフフ フフフフ フフフフ IIJ Global Solutions Inc.

Transcript of VMware ESXi トラブルシューティング

Page 1: VMware ESXi トラブルシューティング

VMware ESXi トラブルシューティング

フランちゃんウフフなシステムエンジニア

おおかわ かずひと

IIJ Global Solutions Inc.

Page 2: VMware ESXi トラブルシューティング

アジェンダ

• はじめに

• 自己紹介

• IaaS における自社の立ち位置

• ESXi のトラブルシューティング話

• まとめ

Page 3: VMware ESXi トラブルシューティング

はじめに

Casual Talk という事で軽めです。

といわけでトークメインで。( 後からスライド見る皆さんごめんなさい ♪キャハ )

時間がなくてネタの仕込みはございません。

よろしくお願いします。

Page 4: VMware ESXi トラブルシューティング

自己紹介

• おおかわかずひと @SatchanP ( 相変わらず意識低い系 )

• IIJ Global で SE 初めて半年ちょっと

• 以前はウェブ系のインフラエンジニア ( 前職は Kauli 株式会社 )

• VOYAGE GROUP に買収されたため緊急脱出

• プライベートラリースト

• 二次属性

アイマス : やよい 真美東方 : フランちゃん 咲夜さん艦これ : Верный  響

Page 5: VMware ESXi トラブルシューティング

IaaS における自社の立ち位置

ストレージ

SAN/NW

サーバ

HV

OSSAP/ERP

VMIIJGIO 利用時の担当範囲

オンプレ構築担当範囲

VMware ESXi による ERP 基盤提供が主要件定義、個別設計 (WAN/NW/Server) 、構築、運用など

エンドユーザ / アプリベンダー範囲

Page 6: VMware ESXi トラブルシューティング

ESXi トラブルシューティングの必要性• OSS 当たり前で生きてきて初めてまともな商用にのった

• 金で解決できるバラ色の世界が待っているはずだった

• 現実は甘くなく…

• サポートに確実な問題個所を伝えないと調査に時間がかかる、真面目に調べてくれない、的外れな回答が返ってくる

• サポートからの回答がだけではエンドユーザに説明がつかない場合も

• 結局高いお金払ってるのに、自前で納得いくまで調査するしかない

• 調査結果のエビデンスを得るためにサポートを追いつめる

• Proxy しているだけでは SE の意味がない

Page 7: VMware ESXi トラブルシューティング

トラブルの切り分け方 (NW)各レイヤーごとに分けて切り分けが必要

Virtual Switch

OS/Kernelvmnic

vDS/vSS

アプリケーション

物理 NIC

物理スイッチイーサネット

Page 8: VMware ESXi トラブルシューティング

トラブルの切り分け方 (Storage I/O)

vHBA(vSCSI)

FC, Ethernet Adapter

SAN

StorageSCSI Host

SCSI

Page 9: VMware ESXi トラブルシューティング

便利なツール群

• ESXi ssh

• vSphere Client / Web Client

• IDA Debugger

• 各種 SNMP ツール社内の制度上 Zabbix

( 中の人的は cacti + GrowthForecast + nagios が好き )

Page 10: VMware ESXi トラブルシューティング

便利なツール群 (CLI 編 よく使う人たち )• vmdumper

• memstats

• tcpdump-uwpktcap-uw

• strace

• ethtool

• dmesg

• vProbe

• vsish

• esxcfg-*

• esxtop

• vscsiStats

• vmkping

• vmkbacktrace

Page 11: VMware ESXi トラブルシューティング

vsish が便利!

• Linux の procfs/sysctrl のようなもの

• Linux 使いには親和性が高い

• Vmkernel のパラメータやカウンタの参照、変更が可能

• 軽い 使いやすい わかりやすい

• ノンインタラクティブモードで、シェルから実行して出力だけ得ることも可能 (-e : option)

Page 12: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (vDS)esx-top -> n で調査対象のポートを特定する

Page 13: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (vDS)仮想スイッチポートのカウンターを確認する

Page 14: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (VM Ring Buffer)

vmnic の種類を確認する

Page 15: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (VM Ring Buffer)

エラーカウンターを確認する

Page 16: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (TCP スタック )

vmkernel の TCP スタックカウンターを見てみる

Page 17: VMware ESXi トラブルシューティング

vsish で NW トラブルの調査 (TCP スタック )

ブラックホールの形跡がないか確認

Page 18: VMware ESXi トラブルシューティング

物理 NIC は ethtool or vsish でも可

Page 19: VMware ESXi トラブルシューティング

esxtop (memory) で NUMA の確認

NUMA Remote | NUMA Local (MB)

Page 20: VMware ESXi トラブルシューティング

esxtop (memory) で NUMA の確認

アカンやつ

Page 21: VMware ESXi トラブルシューティング

フリーズした VM の情報収集NMI を発生させてクラッシュダンプから解析(ダンプさせる設定がゲスト OS側に必要)

Page 22: VMware ESXi トラブルシューティング

ダンプ解析は気合で!

( 時間がなかったから省略… )

Page 23: VMware ESXi トラブルシューティング

その他アプライアンス

• vCenter, RM, SRM等、ほぼ Java + DB(PG, MSSQL)

• Log4J のアレ、ログの量が多く冗長

• 上記以外のログがひっそりある場合も

• 何かあったらとにかくログの回収を光速で行う(2,3日で lotate されてしまうログもある )

• アプライアンスは調子にのって増やさない問題の原因が増えるし、切り分けが面倒ご利用はご計画的に!

Page 24: VMware ESXi トラブルシューティング

まとめ• みんな VMware を使ってサービスしているので、サ

ポートまかせでは差別化できるはずがない

• 商用でも OSS でも手間がかかるのは一緒(だった…)

• 日本の中途半端な SI/SE屋は淘汰されていきそう

• 見せ方は綺麗だけど、 ESXi 自体レガシーの塊になりつつある印象

• そんなわけで SE大変だけど楽しい!

Page 25: VMware ESXi トラブルシューティング

ありがとうございました!