ちょき☆ぱたん お気に入り紹介 (chokipatan.com)

第1部 本

 IT

【改訂新版】システム障害対応の教科書(木村誠明)

『【改訂新版】システム障害対応の教科書』2024/4/15
木村 誠明 (著)


(感想)
 ITシステム障害対応の現場で必要なさまざまな知識とノウハウ(基本動作、ツール、必要ドキュメントなど)を体系化して、個人・組織のシステム障害対応力を向上させてくれる解説書で、主な内容は次の通りです。
第1章◆システム障害対応を学ぶ意義
 1.1 なぜシステム障害対応は暗黙知だったのか
 1.2 上昇し続けるシステム障害対応の難易度
 1.3 システム障害対応時に起こり得るさまざまな問題
第2章◆システム障害の定義
 2.1 システム障害とは何か
 2.2 システム障害対応の目的と定義
第3章◆システム障害対応の登場人物と役割
 3.1 システム障害対応の登場人物の概要と体制
 3.2 インシデントコマンダーの役割と基本動作
 3.3 作業担当
 3.4 ユーザ担当
 3.5 CIO
第4章◆各プロセスの基本動作~発生から終息まで
 4.1 検知・事象の確認
 4.2 業務影響調査
 4.3 原因調査
 4.4 復旧対応
 4.5 イベントの確認/事後対応
第5章◆障害対応に必要なドキュメント
 5.1 障害対応フロー図
 5.2 オンコールシフト表と連絡先管理表
 5.3 障害レベル管理表
 5.4 障害状況ボード
 5.5 作業タイムチャートシフト表
第6章◆システム障害対応力を高めるツールと環境
 6.1 大規模システム障害のコントロール
 6.2 システム監視ダッシュボード
 6.3 War Roomダッシュボード
 6.4 War Room
 6.5 構成管理データベース(CMDB)
 6.6 システム運用におけるAIの活用
第7章◆組織の障害対応レベル向上と体制作り
 7.1 障害対応レベルの維持・向上
 7.2 障害対応を担う組織や体制
第8章◆システム障害対応力の改善と教育
 8.1 組織の障害対応力の継続的な改善
 8.2 教育と訓練
第9章◆教育と育成の手引き
 9.1 作業担当とインシデントコマンダーに必要な能力
 9.2 障害対応チームの育成の流れ
 9.3 障害対応力スキルチェックシート
第10章◆障害対応訓練の実施
 10.1 訓練手法の種類と適切な選択
 10.2 訓練の実施要領
第11章◆事故を防ぐ手順書の作り方
 11.1 ヒューマンエラーとは
 11.2 ヒューマンエラーを防ぐ手順書の作成
第12章◆エンドユーザ向けの情報発信
 12.1 エンドユーザ向けの情報発信の目的と内容
 12.2 エンドユーザ向けの情報発信の方法
Appendix◆難易度の高いシステム障害ケース
 ケース1 ビジネスロジックアプリケーション障害と「誤データの波及」
 ケース2 インフラ障害における機器の「半死」
 ケース3 大規模インフラ障害と「伝言ゲーム」
 ケース4 キャパシティ障害
 ケース5 災害時のコントロール~3.11のふりかえり
   *
 システム障害対応は未知の領域なだけでなく、同じ障害が二度と起きないことが多いため、教育の基本である反復訓練を行えないという特性から、システム障害対応は「暗黙知」となっていることが多いそうです……確かにその通りですね。
 この本は、障害対応を指揮する「インシデントコマンダー」や、実際に作業にあたる作業担当者が知っておくべき知識を解説するとともに、高い障害対応力を備えた組織作り、チームメンバーの教育と育成、障害対応訓練実施のポイント、事故を防ぐ手順書の作り方、エンドユーザ向け情報発信などについても具体的に解説してくれます。
 例えば「第3章◆システム障害対応の登場人物と役割」では、障害対応の中心となる「インシデントコマンダー」の役割と基本動作について、次のようにまとめてありました。ちょっと長いですが、以下に紹介します。
<インシデントコマンダーの役割と基本動作>
・障害対応方針を決め全体を導き、管理をする
・プロジェクトマネージャーと似ているが、その行動は緊急性があり、未知の領域で、ミスをすると影響が大きい
・(旗振り)報告に対して、見解だけでなく根拠や事実を確認する
・(旗振り)作業を指示したあとに必ず結果を確認する
・(体制構築)インシデントコマンダーと作業担当を同じ人がやってはいけない
・(体制構築)指揮命令系統は一本化する
・(体制構築)組織の上下関係とは切り離して考える
・(体制構築)インシデントコマンダーの役割は規模に応じて分離し、複数人で担う
・(窓口)状況を更新するたびにブロードキャストで発報する
・(窓口)関連チームから情報を受け取った場合、その内容だけでなく、その情報がどこまでどのように伝わっているのかも確認する
・(発生と終息の宣言)終息の宣言を忘れずに行い、中途半端に体制を残したり、勝手に解散したりしない
・(兵站)長丁場が予想されたらシフト、食事、宿泊の手配を検討する
・(情報の整理・更新・記録・共有)障害状況ボードを使って、途中参加した人も含めて関係者が状況を正しく理解できるかを意識する
・(外部向けのレポーティング)顧客が顧客組織内で障害管理するためのインプットとなる。障害情報を5W1Hでわかりやすく伝える必要があり、顧客が重視する情報を伝えることが信頼回復の第一歩)
   *
 このように具体的に教えてくれるので、実践的に役に立つと思います。
 また「第4章◆各プロセスの基本動作~発生から終息まで」では、障害対応のプロセスごとの作業や、必要なツール・ドキュメントについても具体的に解説されていました。
 例えば「コミュニケーションツール(メール、SNS、電話)」、「ホワイトボード(障害状況ボード)」、「障害レベル管理表」、「連絡先管理表(体制図)」、「障害対応フロー図」、「システムモニタリングツール」、「システム状況ダッシュボード」などの他、成功するためのポイントなどについても詳しい解説があります。
 さらに「長丁場になるときは臨時のシフトを組んで管理する」とか、食事や宿泊施設などの「兵站」とか……実際に数多くの障害対応現場の実情を知っている人ならではの、実践的なアドバイスも満載でした。
 また章ごとに簡潔な「まとめ」もあるので、復習しながら読み進めることが出来ます。
『【改訂新版】システム障害対応の教科書』……障害対応時の基本動作と現場マネジメントについての解説書で、とても勉強になりました。ITサービスに関わるすべての人にとって、知っておいて損はない内容だと思います。ぜひ読んでみてください。お勧めです☆
   *   *   *
 なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。

Amazon商品リンク

興味のある方は、ここをクリックしてAmazonで実際の商品をご覧ください。(クリックすると商品ページが開くので、Amazonの商品を検索・購入できます。)


『【改訂新版】システム障害対応の教科書』