2016年5月17日火曜日

システム障害の長期化を防ぐために、これだけは抑えておきたい3つのポイント ~サービスデスク編~

こんにちは山崎です。

 サービスデスク(またはヘルプデスク)にとって、障害発生への対応は、ビジネスへの損失を最小限に抑えるためのリスクマネジメントとして重要な業務の一つです。しかし、多くの企業にとってサービスデスクは、ユーザからの問合せや要望窓口との認識が高く、その業務内容も軽視されがちです。


 サービスデスクが優秀であるあるならば、ビジネス損失を最小限に抑えるとともに、ユーザからの相談窓口としてビジネス遂行上の悩みや相談が寄せられます。その結果、実効性の高い業務改善や改革のための情報が集まりビジネスがドライブしていきます。ビジネス貢献できる組織として信頼が得られます。企業によっては企画できる人材を配置したり、事業部側のメンバーを人材ローテーションで配置している所もあります。



 今回は、サービスデスク業務の中でもインシデント管理にスポットを当て、障害対応で抑えておきたい3つのポイントを紹介します。


     素早い情報収集
 障害発生したら、発生した経緯を詳細に記録します。発生経緯が全てログに出力されていれば調査する側としては簡単なのですが、ログが記録されていないケースが発生します。また、ユーザ側で発生した場合に限っては、時間経過と共に状況を忘れてしまいます。ユーザへのヒアリングは、遠慮せずに可能な限りリアルタイムで詳細ヒアリングするようにしましょう。その記録もリアルタイムでチケット管理システムなどに記録し、情報共有できるようにしましょう。発生日時やエラーの正確な内容、エラー発生直前にどのような操作をしたのか、再現性は、この障害による業務影響は‥等。この初動に失敗すると原因の特定が長期化しがちです。


     的確なエスカレーション
 素早い情報収集と同時に行いたいのが、その障害における業務への影響度を判断することです。専門アナリストか、リーダを配置し障害記録と同時にエスカレーション判断を行わせます。影響度が高い場合には、素早くテクニカルスタッフや開発部門にエスカレーションし緊急体制を整えます。情報収集と同時に行うためには、情報収集するスタッフにはリアルタイムでインシデントチケットの登録を行わせるようにし、専門アナリストか、リーダが登録と同時に状況をモニタリングできるようにします。

 良くありがちな失敗例では、対応者やそのチーム内で障害の切り分けや調査を始めてしまいがちです。特に大きな障害では、現場での判断に任せエスカレーションが遅れその結果、障害が長期化します。どんなに小さな事象であっても、専門アナリストか、リーダのエスカレーション判断を行う仕組みを構築しておくべきです。またエスカレーションの明確なルールを整備しておくことも必要です。


     有事への備え
 障害発生時を想定したマニュアル準備やトレーニングを行うこともインシデント管理業務としては欠かせないプロセスの1つです。

 例えば、過去に発生したことのある障害をケースにして、障害の原因特定に至った経緯をロジックツリー等で表現し、関係者全員で不足や無駄が無かったか、その他の可能性が無かったか、改善すべき点が無いかなどを話し合うことも情報共有やトレーニングの一環として有効です。また、障害が発生した際には、開発部門など他部門と協力して解決に当たらなければならないケースが発生します。そのために、予め障害発生時の体制をドキュメント化し共有しておくことも必要です。



 いかがでしたでしょうか?障害の長期化を防ぐためには、高信頼性のシステム構築も重要ですが、あわせて実施したいのがサービスデスク、インシデント管理プロセスの改善です。参考になれば幸いです。


0 件のコメント:

コメントを投稿