はじめに

ここでは監視の基本について情報をまとめています。

 

サーバやネットワーク、システムが正常に稼働しているかを監視したいけど何を監視すべきなのか、なぜ監視すべきなのか、どうやって監視するのかと悩まれる方は多いです。そのような方に向けてできるだけわかりやすいコンテンツを作成していきます。

監視とは

監視とは、機器やシステムの状態を観察しチェックし続ける行為です。

 

例えば、機器のステータスを監視することでディスクなど物理的な障害が発生していないか確認することができます。また、システムのパフォーマンス状況を監視することでスペック的に問題がないか、もしくはシステムのチューニングが必要かどうか判断することができます。

 

このことから監視には大きく2つの役割があります。

  • 障害を検知する
  • 傾向を分析する

 

障害の検知は、監視していなければ気づくことはできません。監視することで障害を素早く検知し、原因を特定して対応することができます。障害は発生時だけでなく発生前に検知することも可能です。ディスクは障害予兆を検知できるので予防交換して障害を未然に防ぐことが可能です。

 

傾向の分析は、監視で蓄積したデータを元に状況を確認します。過去と現在のデータを比較し、推移を見ながら傾向を把握します。例えば、機器のスペックが低くてCPUやメモリの利用率が常に100パーセントに近い場合、システムが遅かったり使えないといった問題がでてきます。スペックアップや上位の機種に代替すべきでしょう。場合によってはシステムのチューニングで対応できるかもしれません。

 

また、傾向を把握することで問題に気づける可能性があります。例えば、ある機器のCPU使用率が平均して20パーセント前後なのに設定変更後に70パーセントになったら気になりますよね。この上がり方は正常なのか異常なのか担当者に確認する必要があります。

 

監視は、「正常に動いているか」をチェックすることです。

 

何をもって正常と判断するかは要件によって異なりますが、一般的に 「障害が発生していないこと」 と 「傾向を把握した上で大きな変動がないこと」 の2つです。

 

監視を適切に実施することで安定した状態を維持できるので、しっかり学んでいきましょう。

監視項目

一般的に監視されていることが多い項目をご紹介します。

 

ハードウェア

ハードウェアの監視はSNMPを使うかベンダーが提供しているツールを使います。DellならOpenManage、HPならiLOが有名です。

監視項目 内容 備考
ハードウェア障害 物理的な部品故障の有無を確認します。

HDD/SSD
RAIDカード
ファン
マザーボード
電源ユニットなど

 

OS

OSは様々な情報を取得できますが以下の項目が定番です。

監視項目 内容
CPU使用率 コアごとにuser/systemなどの種類ごとに確認します。
ロードアベレージ 過負荷状態を確認します。
メモリ使用率 used/buffer/cachedやスワップなどを確認します。
ディスクの容量/IO ディスクの容量やI/Oを確認します。
再起動 監視間隔の間に発生した再起動は検知できないので、uptimeを確認します。
サービス サービスの稼働状態を確認します。
プロセス プロセス数を確認します。
ログ イベントログでエラーや警告を確認します。
時刻 時刻がズレていないか確認します。
総プロセス数 異常なプロセス起動がないか確認します。
ゾンビプロセスの残留 異常な残プロセスがないか確認します。

 

ネットワーク

ネットワークはトラフィックを測定することが定番です。その他にもルータだとルーティング情報、Firewallだとブロックした接続、VPNだと接続ユーザー数などを監視します。

監視項目 内容
Ping応答時間 疎通を確認します。
Pingパケットロス パケットロスを確認します。
CPU使用率 ルータやスイッチなど機器のリソースを確認します。
受信パケット数/送信パケット数 トラフィックを確認します。
受信エラーパケット数/送信エラーパケット数 同上
受信時にドロップされたパケット数/送信時にドロップされたパケット数 同上
コリジョン数 コリジョン数を確認します。
TCP接続のステータスごとの接続数 接続数を確認します。

 

RDBMS

監視項目 内容
ワーカ数 ステータスごとのワーカ数を確認します。MySQLならconnectedやrunningなど。
同時接続数 接続ステータスごとの接続数を確認します。MySQLならreading from netやsending dataなど。
転送量 処理した転送量を確認します。
レプリケーション レプリケーションのエラー有無や遅延状況などを確認します。
ロック ロック発生回数やロック開放待ち時間、デッドロック発生回数などを確認します。
トランザクション トランザクション実行数、未確定トランザクション数を確認します。

 

Webサーバ

監視項目 内容
リクエスト数 処理したリクエスト数を確認します。
ワーカ数 ステータスごとのワーカ数を確認します。Apacheなら busy/idle
同時接続数 接続ステータスごとの接続数を確認します。Apacheなら Waiting / Reading request / Sending replyなど。
転送量 処理した転送量を確認します。

 

エンドポイント

エンドポイントに対してActive型の外形監視を行い、接続する側から見た応答内容や応答時間を監視します。

監視項目 内容
レスポンスタイム リクエストを送信してからレスポンスを受信し終えるまでの所要時間を監視します。
レスポンスサイズ レスポンスのデータ量です。小さすぎる場合は異常なレスポンスの可能性があります。
レスポンスのステータスコード レスポンスのステータスコードです。
レスポンスヘッダ Locationが想定した値になっているか確認することがあります。
レスポンスボディ レスポンスボディに含まれる任意の文字列を監視します。
SSL証明書の期限 SSL証明書の期限が切れていないこと、残り期間が十分に残されていることを確認します。

監視ツール

監視ソフトには、大きく分けて商用とOSS(オープンソースソフトウェア)の2つに分類できます。

 

商用ソフトは監視対象の規模によりますが、数百万から数千万のコストがかかります。

 

OSSはライセンスに則り無料で使用することができます。OSSの監視ソフトはバージョンアップを繰り返すことで品質が向上しており、用途を絞り込めば商用と遜色のないレベルに達しています。特にZabbixは海外製のソフトですが、日本語に対応しており高機能で安定して動作することから企業での導入実績が多くあります。

商用の主な監視ソフト

ソフト ベンダー 監視内容 監視サーバの対応OS エージェントの対応OS 監視コンソール
JP1 日立製作所 稼働監視、リソース監視、性能監視、プロセス監視 Windows、Linux、UNIX Windows、Linux、UNIX 専用ソフト、Webブラウザ
Systemwalker 富士通 稼働監視、リソース監視、性能監視、プロセス監視 Windows、Linux、UNIX Windows、Linux、UNIX 専用ソフト
WebSAM NEC 稼働監視、リソース監視、性能監視、プロセス監視 Windows、Linux、UNIX Windows、Linux、UNIX 専用ソフト
Tivoli 日本IBM 稼働監視、リソース監視、性能監視、プロセス監視 Windows、Linux、UNIX Windows、Linux、UNIX 専用ソフト

 

OSSの主な監視ソフト

ソフト ベンダー/コミュニティ 監視内容 エージェントの種類 監視サーバの対応OS エージェントの対応OS 監視コンソール
Zabbix Zabbix SIA 稼働監視、リソース監視、性能監視、プロセス監視 エージェントレス、SNMPエージェント、専用エージェント Linux Windows、Linux、UNIX Webブラウザ
Hinemos NTTデータ 稼働監視、リソース監視、性能監視、プロセス監視 エージェントレス、SNMPエージェント、専用エージェント Linux Windows、Linux、UNIX 専用ソフト、Webブラウザ
Nagios(ナギオス) Ethan Galstad 稼働監視、リソース監視、性能監視、プロセス監視 SNMPエージェント、専用エージェント Linux Windows、Linux、UNIX Webブラウザ
Pandora FMS Pandora FMS 稼働監視、リソース監視、性能監視、プロセス監視 エージェントレス、SNMPエージェント、専用エージェント Linux Windows、Linux、UNIX Webブラウザ
Xymon(サイモン) Xymon 稼働監視、リソース監視、性能監視、プロセス監視 エージェント、専用エージェント Linux Windows、Linux、UNIX Webブラウザ
トップへ戻る