Post on 21-Nov-2014
description
守るcybozu.com 運用の裏側
山本泰宇@ymmt2005
今回技術の難しい話は
しません
こんな疑問ありませんか?ファーストサーバーのような事故は
起きる?
ISMS/ISO27001 認証あれば安心?
サービスレベルって何?
トラブル発生時は誰がどう対応するの?
運用とは
システムなどが正常に稼動し続けられるような
状態を維持すること。異常の兆候がないか状態
の監視したり、最新版のソフトウェアに入れ替
える等の保守作業、老朽化した設備の更新、障
害に備えたデータなどの保全、障害時の復旧作
業などが含まれる。 via e-words
運用=商品
• 月 500 円 = Office の値段月 500 円 = Office + 運用の値段
• 「運用の説明」 = 「商品の説明」
• 「運用障害」 = 「商品の不具合」
• 「運用への投資」 = 「商品価値増大」
cybozu.com の「商品の一部」
月 500 円に含まれるもの
サイボウズ Office
1GB のディスクスペース
運用サービス• 障害監視、性能監視、
チューニング、バージョンアップ、 OS ・ミドルウェアの保守、バックアップ、古い機材の更新、 etc.
ここを解説
ここからの内容• 前提としていること原理と原則
• サービスレベル目標
• 自動監視システム等手段
• 平時・緊急時の運用体制体制
• 本当にやっているのか?保証
原理
• 人はミスをする• 機械は壊れる• ソフトウェアにはバグがある
山本の公理
• 俗にいう「ヒヤリ・ハット」• 重大 : 軽微 : ニアミス = 1:29:300
ハインリッヒの法則
原則• 顧客データの保護 > サービス再開 > 原因究明データ優先
• 開発者は運用環境にアクセスできません• 開発用に、別データセンターを運営
開発者を信用しない
• 通常運用は完全自動化• 手動操作履歴はすべてログ保存
オペレーターを信用しない
• 利用する範囲で安定運用ができるか評価• バックアップデータに正常アクセスできることを定期確
認
ソフトウェアを信用しない
• 安定運用に支障があるものは、リリースを拒否• リリース後に発覚したものは即時の改修を要求
社長のいうこと無茶を通さない
略して
頑固一徹
サービスレベル目標項目 目標稼働率 99.9%
応答時間 4秒以内利用開始まで 3分以内復旧時間 単純障害は無停止
( VMホスト障害は 10分)
ログ保存期間 オンラインで1年間
目標なくして運用なし!
目標なくして運用なし!
• 各目標値を測定して、• 自動監視・有人監視体制を構築、• 性能監視してチューニングしています
稼働目標があるから
• 落ちていても気づかない• 性能が低下しても改善しない• 予算・人員もつかない
目標がなければ
監視システム
データセンター
• 外形アクセス監視• バックグランド処理監視• リアルタイムアクセスログ監視• ストレージ監視• プロセス監視• リソース使用率監視• etc.
24 時間有人監視センター
オペレーター
目標→測定→公開
cybozu.com Web サイトで公開していますhttps://www.cybozu.com/jp/service/slo/availability.html
6 月 30日のうるう秒トラブル
Square ストレージシステム
Square の秘密• 独立したバックアップ専用サーバー• 東日本 DC からレプリカの操作は不可
誤操作の防止
• リストア結果が正常か毎日自動チェック
自動ベリファイ
• リストアボリュームで事前にリハーサル
• 分離されているので運用環境に影響なし
リハーサル
オペレーションルール
3カ条
極力自動化
作業しない勇気
自作ツール禁止
作業ミス対策
操作ログの自動保存
臨時バックアップ
事前リハーサル
ISMS/ISO27001
意味するところ• 規則が決まっている• 規則通り作業している
意味しないところ• 運用レベルが高いか否か• 中身を確認することが重要!
効果• 規則を決めてドキュメントにする文化• 規則通り作業する文化
サイボウズ固有の ISMS運用
• ITIL や非機能要求グレードを参考に設定
具体的な目標値
• 手順ミス防止を、自動化でさらに追及
オペレーター「も」信用しない
• セキュリティ問題を全社で一元管理する体制を整備
CSIRT (Computer Security Incident Response Team)
• 稼働率目標・結果やストレージの情報を公開• 各テナント別稼働率なども今後の公開を予定
情報公開
まとめ
cybozu.com 運用チームは頑固一徹
目標なくして運用なし!
認証≠高品質、中身が重要です
Questions?