システム運用
お役立ち資料
負のスパイラルから
脱却するには?

クラウドにも障害・停止が!?
クラウド障害にはどう備えたらよいのでしょうか?

多くの企業はクラウドへの移行や構築に注目しがちですが、本来、企業に価値を与えるのは稼働後のシステムです。そのシステムに障害・停止が発生すると、クラウドの場合、自社での対応が難しくなります。
一般のシステムと比較して高い可用性を誇るクラウドですが、障害やシステムダウンを避けて通ることはできません。そこで今回は、盲点となっている「障害・停止」の事例や対策のポイントを解説いたします。

実は、クラウドにもあるこんな障害・停止

「クラウドにシステムダウンはない」「クラウドに障害対策は不要」と思っていませんか?クラウドは高い可用性を備えていますが、100%安全ではありません。現実に次のような障害・停止が発生し、大きなニュースとなりました。

・メガクラウドの障害・停止1:日本の事例

あるメガクラウドで大規模な障害が発生し、クラウド利用に対する不安が一気に広がりました。
サーバ停止の原因は、データセンターの冷却システムの障害にありました。冷却装置が機能しなくなり、データセンターの室温が急上昇し、次々にサーバがダウンしてしまったのです。
「クラウドはダウンしないというのは幻想だったか」と新聞や雑誌などのメディアで報道されました。

・メガクラウドの障害・停止2:米国の事例

米国でも同じようなクラウド障害事例があります。メガクラウドの1つでの障害発生は、クラウド設定ミスに端を発し、その修正に手こずり、結果4時間にわたってクラウドサービスが停止しました。YouTubeの視聴が2.5%減少したと報告されています。

・キャッシュレスサービスの不正利用問題

データセンターのサーバだけではなく、アプリケーション側でも障害が発生するという事例です。キャッシュレスを推進していた大手コンビニのサービスに不正利用が発覚、責任者が会見し謝罪しました。クラウドシステムのサービス停止は圧倒的にアプリケーション側の不具合が原因となっています。

障害対策としてどのようにクラウドを構築したらよいか?

クラウドサービスはSLAを公表しており、サービスのレベルは極めて高い数値となっていますが、これは何もしないで保証を得られることを意味しません。たとえば99.95%のSLAでも、「商業的に合理的な努力をする」と明記されているサービスがあり、構築するシステム自体が高い可用性を備えていなければならないのです。

冗長化するなどの構成にしないと、可用性を得ることはできません。一般的にはWebサーバの冗長化、データベースサーバの冗長化などが考えられますが、オンプレミスと同様の構成を、クラウド上で展開することは困難です。
また、冗長構成にするにしても、許される切り替え時間によって、構成が異なります。さらに、インスタンス(仮想マシン)の冗長か、リージョン(離れたデータセンター)の冗長かによって、コストもまったく異なってきます。

そこで必要になるのが、クラウドとHA構成を知り尽くしたコンサルタントの存在です。彼らはシステムの重要性とコストを測り、クラウドサービスで利用できる機能(HAクラスタソフトなど)を活用し、最適なシステム構成に近づけることができます。

障害・停止対策と対応はシステム全体で整備する

ある大手運送会社では、クラウド上で構築したシステムが突然停止してしまい、オフィス業務を遂行できなくなりました。そこでクラウドサービス業者に問い合わせたのですが、事業者の提供する設備に問題がない限り、取り合ってくれません。クラウド構築ベンダーにも連絡し、ようやく判明したのが通信回線の問題でした。

クラウドシステムはデータセンター内で完結していません。お客様の企業を結ぶ通信回線もありますし、さらには連携している他システムもあります。アプリケーション側といってもOSも絡むため、どこに原因があるのかがわかりません。障害対策は社内全システムを視野に入れて整備する必要があります。

また、障害・停止が発生した場合に必須となるのが、障害・停止発見から復旧までの手順です。これをマニュアル化して定期的に訓練する必要もあります。クラウドサービス側の仕様変更により、作成していたマニュアルのバージョンアップも行わなければなりません。
さらに、クラウドシステムのログの蓄積も重要です。ログを分析することで、障害発生の原因を突きとめることができます。クラウド障害の専門家がログをモニタリングすることで、障害・停止の予兆をつかみ事前に対策することも可能となります。

こうした点に運用の重要性があります。障害対策も含めた運用全般を自社でカバーできない場合は、専門ベンダーにアウトソーシングすることをオススメします。
先ほど例に挙げた大手運送会社では構築から運用までトータルに対応するベンダーに全社システムの運用をアウトソーシングし、障害のリスクが少ない高信頼性のシステムを実現しているようです。

まとめ 総合力のあるクラウド移行・構築・運用ベンダーを味方につける

クラウドサービス事業者がSLAを保証しても、障害が発生した際に補償してくれるのは時間当たりの利用料だけです。障害・停止が発生したことで失ったビジネスチャンスや企業ブランドの信頼性は補償してくれません。
クラウドに限ったことではなく、ITシステム全般に万全ということはないと考えましょう。障害が発生することを前提に対策を用意しておくことが重要です。そのためには、全社システムを横断的に監視し、アドバイスできるパートナーを確保する必要があります。

システム運用担当者さま必見のお役立ち情報

今の運用現場には、多くの悩みを生む「負のスパイラル」があります
「システム運用、負のスパイラルから脱却するには」
システムの維持保守をするだけで手一杯なのに要求は増えるばかり。でもコスト削減で体制は増強できないから改善が進まない。そんな負のスパイラルから抜け出すヒントをまとめた資料です。

【このコラムの著者】
ReSM(リズム)サービス担当

ReSMサービスはシステム運用の「 {re} design 」をコンセプトに、 「最適な運用」を「最適な価格」でご提供するマネージド・サービス・プロバイダーです。 クラウドの導入支援から安心の運用監視・保守までをトータルでご提案できます。
>>ReSMのサービス内容はこちら

関連サービス

{Re} System Management