クラウドとオンプレミス(物理サーバ)では、システム監視に違いはありますか?
オンプレミス(物理サーバ)からクラウド(IaaS)にシステム環境が変わっても、システム監視でチェックする項目には大きな変化はありません。ただし、効果的な監視の方法や監視ツールの使いこなしにおいては、クラウドならではのやり方があります。ここではオンプレミス環境との違いを意識しながら、クラウドの特性をふまえた監視とその課題について考えます。
ハードウェアの故障を意識しなくて良い
システム監視において、クラウドとオンプレミスにおける大きな違いはハードウェアの障害を意識しなくて良いことです。オンプレミスでは、HDDや電源などのハードウェア故障による障害は悩みの種でした。ベンダの手配や現地での交換作業などをともない、多くの手間や時間がかかってしまうからです。
対して、クラウドではハードウェアの保守はクラウドベンダが行い、かつ障害自体もユーザーに影響しないようになっています。つまり、クラウドではハードウェアの監視とその障害対応から解放されることになります。これはクラウドを利用する大きなメリットとなっています。
サーバー監視の項目は基本的に同じ
従来のオンプレミス環境では、一般的な監視ツール(ZabbixやJP1等)を用いてシステムの監視を行っていました。クラウド環境においても、こういった監視ツールを利用してシステムを監視することは変わりません。前述の通り、基本的には監視項目も同じです。
【監視項目例】
死活(ICMP Ping)/リソース(CPU・メモリ・ディスク)/プロセス・TCPポート/SNMP/各種ログ 等
2種類の監視ツールを使い分ける
ただし、クラウドでは上記の一般的な監視ツールに加えて、クラウドサービスが提供している監視ツールを併用するのが効果的です。ここでは、アマゾン ウェブ サービス(AWS – Amazon Web Services)における監視ツール「Cloud Watch」を例に考えます。 こちらを併用する主な理由は2点あります。
① クラウドベンダ提供のツールでしか監視できない項目がある
各クラウドの仕様上、クラウドベンダが提供する監視ツールでしか監視ができない機能があります。AWSでは、トラフィックの入り口となるロードバランサー機能(ELB)についてはCloud Watchでしか監視ができません。一般の監視ツールのみで監視を行っていると、監視対象範囲外での障害となりますので、障害箇所の素早い特定が難しくなります。
② リソース監視が必ずしも実際のパフォーマンスと連動しない
クラウドは巨大なコンピューティングリソースを共有する形で使っています。その影響から、一般的な監視ツールで個別のサーバ(仮想インスタンス)単位にCPU利用率等のリソースを監視しても、必ずしもサービスのパフォーマンスと連動しない場合があります。監視上ではリソース状態に問題は無いのに、実はリソース起因でサービスに影響が出ている、といったことがありえるのです。ここでもCloud Watchでリソースを監視することで、より実際に近いリソース値を得ることができます。
それなら、Cloud Watch等のクラウドベンダが提供する監視ツールですべての監視をすれば良いと思われるかもしれません。しかし、やはり専用の監視ツールに比べると、詳細な監視のカスタマイズに制限があったり、監視ログの保存期間が短かったりと、システム監視全体をカバーとなると難しい側面があります。
ですので、一般的な監視ツールとクラウドベンダが自社クラウドに合わせて提供する監視ツールをうまく使い分け、サービス全体を効果的に監視する設計が必要となります。このあたりが、従来のシステム監視との違いとなっています。
この記事の著者
近い課題のコラムを見る
関連するサービス
お問い合わせ
依頼内容に迷っているときは、課題の整理からお手伝いします。
まずはお悩みをご相談ください。
-
システム運用監視・保守サービスReSM(リズム)ご紹介資料
クラウドの導入から24時間365日のシステム運用監視まで、ITシステムのインフラをトータルでサポートするReSM(リズム)サービスについて詳しく説明します。
-
4つのポイントで学ぶ「失敗しないベンダー選び」
運用アウトソーシングを成功させる第一歩は、サービスベンダーの選択です。この資料ではサービスベンダーを選択するポイントを4つ紹介します。