インシデント管理とは何ですか?具体的にどのようなプロセスがありますか?

安定稼働しているサービスでも、常にその安定を保ち続けるとは限りません。提供されているサービスは、基本的に24時間問題なく利用できることが前提です。運用側は適切な管理を行い、サービスの安定性を維持する義務があります。こちらでは、サービスをトラブルから迅速に復旧させるプロセスとして重要な「インシデント管理」についてお話します。

インシデント管理とは?

「インシデント」は、「システム上の予期せぬエラー・トラブル」といった意味で用いられています。「インシデント管理」はシステムをインシデントから復帰させ、利用者が問題なく利用できるようにする運用プロセスです。インシデント管理は、原因となるインシデントによって以下の2つに分けられています。

・障害回復要求

例:データが閲覧できない、ログインの際にエラーが表示される

・サービス要求

例:システム利用に必要な情報がわからない、登録している情報を変更したい、パスワードを再発行したい

「インシデント」の定義については多くの規格やガイドラインにその項目が設けられていますが、内容は同じではありません。広義のうえでの「インシデント管理」は、簡単に言えば「ユーザーシステムを問題なく利用できる状態に戻すこと」と認識されています。

インシデント管理における解決までの5つのプロセス

インシデント管理では、解決にいたるまで5つのプロセスが存在します。それぞれのプロセスについてお話しましょう。

1.報告の記録

ユーザーから届けられたインシデントの内容を詳細に記録します。基本的にユーザーが申し出た内容は、すべてログとして残しておきます。

2.分類・優先度設定

寄せられたインシデントの内容を、上述した障害回復要求・サービス要求といった種類、あるいは「インシデントの影響度や影響を及ぼす範囲」によって分類します。これにより、アサインすべき人材が明確になります。また、「優先度」を設定することにより、同時に起きたインシデントに対してどれだけ急いで対応すべきかを明確にします。

3.蓄積されたナレッジによる解決

対応が簡単なインシデントや、典型的なインシデントに関しては、蓄積してきたナレッジで単純解決が可能な場合があります。インシデントを分析した結果ナレッジが適応できると判断されれば、即時解決を試みます。

4.エスカレーション

ナレッジによる単純解決ができなかった場合は、スペシャリストが判断するオーダーメイドの解決策が必要です。この場合は、必要に応じてエスカレーションを行い、専門家に調査・判断を依頼します。この際、エスカレーションを行う基準となるのは、サービスレベルアグリーメント(SLA)です。

5.追跡・ライフサイクル管理

アサインされた担当者は、インシデントのライフサイクル管理を行います。記録を残す内容としては「経過期間」「調査状況」「ユーザーへの報告状況」などです。進捗報告や、エスカレーションの必要性についても担当者が判断します。インシデントが解決されたのちユーザーに報告をし、記録を行えば、一連のインシデント管理はクローズです。

インシデント管理は「解決時間の短縮」が重要

インシデント管理をクローズしてユーザーにシステムを利用できる状態で戻すまでの時間は、当然ながら短ければ短いほど好ましいでしょう。ユーザーにとって重要なのは、問題の原因究明ではなく、システムが迅速に、問題なく使える状態に戻ることです。担当者は「解決時間の短縮」に注力することとなります。インシデント管理をクローズしてユーザーにシステムを利用できる状態で戻すまでの時間は、当然ながら短ければ短いほど好ましいでしょう。ユーザーにとって重要なのは、問題の原因究明ではなく、システムが迅速に、問題なく使える状態に戻ることです。担当者は「解決時間の短縮」に注力することとなります。

解決時間の短縮のためには、インシデント管理をライフサイクルで細分化し、「どの部分で時間がかかっているのか」を把握する取り組みが有効です。すべてのライフサイクルに対して時間短縮を意識すると、無駄なコストが発生します。

また、ユーザーが求めているのは「障害」の復旧ではなく、「インシデントの解決」だということをあらためて認識しておくことも大切です。しばしば混同される「障害」と「インシデント」ですが、厳密には同じではありません。原因が残っている状態でもひとまずインシデントの解決を目指すことが、時間短縮のひとつの鍵です。また、典型的なインシデントに対してナレッジを蓄えておくことも、継続的な解決時間の短縮につながります。

まとめ

インシデント管理のプロセスや、意識すべきポイントがおわかりいただけたはずです。インシデント管理の重要性は、すべてのシステムに当てはまります。対エンドユーザーに企業がリリースしているサービスではなく、何らかの業務目的のために使用されている社内システムも例外ではありません。

同時に、多くの企業にとって、強固なインシデント管理体制を社内に構築するのは簡単ではないようです。そうした企業はその解決策として、社内システムの運用を外部委託しています。社内システムのインシデント管理に問題を感じているのならば、運用全体のアウトソーシングを検討してみてはいかがでしょうか。

この記事の著者

アバター画像
ReSM(リズム)サービス担当者
ReSMサービスはシステム運用の「 {re} design 」をコンセプトに、 「最適な運用」を「最適な価格」でご提供するマネージド・サービス・プロバイダーです。 クラウドの導入支援から安心の運用監視・保守までをトータルでご提案できます。

お問い合わせ

依頼内容に迷っているときは、課題の整理からお手伝いします。
まずはお悩みをご相談ください。

  • システム運用監視・保守サービスReSM(リズム)ご紹介資料

    クラウドの導入から24時間365日のシステム運用監視まで、ITシステムのインフラをトータルでサポートするReSM(リズム)サービスについて詳しく説明します。

  • 4つのポイントで学ぶ「失敗しないベンダー選び」

    運用アウトソーシングを成功させる第一歩は、サービスベンダーの選択です。この資料ではサービスベンダーを選択するポイントを4つ紹介します。

お電話でのお問い合わせも
受け付けています。

03-6914-5215 平日 9:00 - 17:00
03-6914-5215 平日 9:00 - 17:00