米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 通信・放送機構

発明の名称 情報処理装置の監視装置および監視方法並びにそのプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2003−263342(P2003−263342A)
公開日 平成15年9月19日(2003.9.19)
出願番号 特願2002−62138(P2002−62138)
出願日 平成14年3月7日(2002.3.7)
代理人 【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武 (外2名)
【テーマコード(参考)】
5B042
5B085
【Fターム(参考)】
5B042 GA10 GA12 GA18 JJ01 JJ29 JJ30 MA05 MA07 MA08 MA11 MA14 MC29 
5B085 AC11 AC13 BA06
発明者 植野 広義
要約 課題
システム管理の知識が無くとも監視項目とその閾値の上限及び下限を設定し、情報処理装置の構成や稼動しているサービスの利用状況といった情報処理装置毎に固有の条件に適合した監視項目の選出や閾値の決定が可能となり、また、従来では異常が検知出来なかった、情報処理装置にかかる負荷が低く故障も起きていないような状況下での異常状態を検知することが可能となる情報処理装置の監視装置および監視方法並びにそのプログラムを提供する。

解決手段
監視装置1が情報処理装置2におけるリソース項目の中から、統計手法を用いて監視項目の選出を行い、また、その監視項目が許容する上限及び下限の閾値を統計手法を用いて決定する。そして、情報処理装置2における通常稼動時の監視項目の値が閾値の範囲にあるかどうかの状況に基づいて、情報処理装置2の状態が正常か異常かを判断する。
特許請求の範囲
【請求項1】 監視対象の情報処理装置とネットワークを介して接続された監視装置であって、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集手段と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集手段で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出手段と、前記相関係数算出手段で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出手段と、前記システム性能を表す項目を目的変数、前記監視項目候補選出手段において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出手段と、前記監視項目選出手段において選出した監視項目の前記実測データ収集手段で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定手段と、を備えることを特徴とする監視装置。
【請求項2】 前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の手段と、前記第1の手段において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の手段と、前記監視項目毎に前記第2の手段で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の手段と、を備えることを特徴とする請求項1に記載の監視装置。
【請求項3】 監視対象の情報処理装置とネットワークを介して接続された監視装置における前記情報処理装置の監視方法において、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集過程と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集過程で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出過程と、前記相関係数算出過程で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出過程と、前記システム性能を表す項目を目的変数、前記監視項目候補選出過程において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出過程と、前記監視項目選出過程において選出した監視項目の前記実測データ収集過程で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定過程と、を備えることを特徴とする監視方法。
【請求項4】 前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の過程と、前記第1の過程において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の過程と、前記監視項目毎に前記第2の過程で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の過程と、を備えることを特徴とする請求項3に記載の監視方法。
【請求項5】 監視対象の情報処理装置とネットワークを介して接続された監視装置において実行されるプログラムであって、前記監視装置に、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集処理と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集処理で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出処理と、前記相関係数算出処理で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出処理と、前記システム性能を表す項目を目的変数、前記監視項目候補選出処理において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出処理と、前記監視項目選出処理において選出した監視項目の前記実測データ収集処理で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定処理と、を備えることを特徴とする監視プログラム。
【請求項6】 前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の過程と、前記第1の過程において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の過程と、前記監視項目毎に前記第2の過程で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の過程と、を備えることを特徴とする請求項5に記載の監視プログラム。
発明の詳細な説明
【0001】
【発明の属する技術分野】この発明は、情報処理装置に係り、特に、情報処理装置の監視装置および監視方法並びにそのプログラムに関するものである。
【0002】
【従来の技術】従来、例えばWebサイトを開設する情報処理装置における異常状態の検知方法では、システム管理者が経験に基づいて監視対象となる情報処理装置の監視項目を選択し、監視項目から得られる値に一つの閾値を設け、その値が閾値を超えた場合にシステムが異常であると判断する方法を用いていた。
【0003】
【発明が解決しようとする課題】しかしながら、上述の情報処理装置の異常状態の検知方法では、監視項目の選定や閾値の決定に、システム管理者の豊富な経験や知識が必要となり、また、情報処理装置の構成や稼動しているサービスの利用状況といった情報処理装置毎に固有の条件に適合した監視項目の選定や、各監視項目における値の閾値を決定することが難しかった。さらに、そこで設けた閾値は情報処理装置における能力の限界を示すものであり、ハードウェア障害等の故障や高負荷状態の検知しかできなかった。そこでこの発明は、システム管理者の豊富な経験や知識が必要なく、また、情報処理装置の構成や稼動しているサービスの利用状況といった情報処理装置毎に固有の条件に適合した監視項目選定や、その監視項目で得られる値に基づいた閾値の決定が可能となる機能を備え、さらに、従来では異常が検知出来なかった、情報処理装置にかかる負荷が低く故障も起きていないような状況下での異常状態を検知することが可能となる機能を備えた、情報処理装置の監視装置および監視方法並びにそのプログラムを提供することを目的としている。
【0004】
【課題を解決するための手段】上記目的を達成するために、本発明は、監視対象の情報処理装置とネットワークを介して接続された監視装置であって、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集手段と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集手段で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出手段と、前記相関係数算出手段で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出手段と、前記システム性能を表す項目を目的変数、前記監視項目候補選出手段において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出手段と、前記監視項目選出手段において選出した監視項目の前記実測データ収集手段で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定手段とを備えることを特徴とする監視装置である。
【0005】また、請求項2に記載の発明は、請求項1に記載の監視装置において、前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の手段と、前記第1の手段において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の手段と、前記監視項目毎に前記第2の手段で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の手段とを備えることを特徴とする。
【0006】また、請求項3に記載の発明は、監視対象の情報処理装置とネットワークを介して接続された監視装置における前記情報処理装置の監視方法において、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集過程と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集過程で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出過程と、前記相関係数算出過程で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出過程と、前記システム性能を表す項目を目的変数、前記監視項目候補選出過程において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出過程と、前記監視項目選出過程において選出した監視項目の前記実測データ収集過程で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定過程とを備えることを特徴とする監視方法である。
【0007】また、請求項4に記載の発明は、請求項3に記載の監視方法において、前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の過程と、前記第1の過程において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の過程と、前記監視項目毎に前記第2の過程で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の過程とを備えることを特徴とする。
【0008】また、請求項5に記載の発明は、監視対象の情報処理装置とネットワークを介して接続された監視装置において実行されるプログラムであって、前記監視装置に、前記情報処理装置に段階的な負荷をかける実際の利用状況を想定したワークロードでの負荷試験時に前記情報処理装置内における複数のリソース項目及びシステム性能を表す項目の実測データを収集する実測データ収集処理と、前記負荷試験における前記システム性能を表す項目と前記各リソース項目との相関係数を前記実測データ収集処理で収集した実測データに基づいて算出し、前記システム性能を表す項目との関連の強い複数のリソース項目を選出する相関係数算出処理と、前記相関係数算出処理で選出した複数のリソース項目に対して、異なる複数の分析条件毎にクラスター分析を行って複数のグループにグループ化し、さらに各グループ内のリソース項目から、異なる指標毎にグループを代表するリソース項目を選出し監視項目候補とする監視項目候補選出処理と、前記システム性能を表す項目を目的変数、前記監視項目候補選出処理において選出された前記監視項目候補を説明変数として重回帰分析を行い、結果として得られた複数の重回帰分析結果のうち最も妥当な重回帰分析結果の重回帰分析で用いられた監視項目候補を監視項目として選出する監視項目選出処理と、前記監視項目選出処理において選出した監視項目の前記実測データ収集処理で収集した実測データに基づいて前記負荷試験における負荷度合いに応じた前記監視項目の最大許容値及び最小許容値を閾値として決定する閾値決定処理とを備えることを特徴とする監視プログラムである。
【0009】また、請求項6に記載の発明は、請求項5に記載の監視プログラムにおいて、前記情報処理装置の通常稼動時に前記監視項目毎のデータ値を収集する第1の過程と、前記第1の過程において収集した前記監視項目毎のデータ値と前記負荷数の度合いに応じた前記閾値とを比較し、前記データ値が前記閾値の範囲に収まった場合に、その閾値に対応する前記負荷数の度合いを記憶する第2の過程と、前記監視項目毎に前記第2の過程で記憶した前記負荷数の度合いを比較して、前記監視項目全てに渡って同じ前記負荷数の度合いを記憶していない場合、前記情報処理装置は異常であると判断する第3の過程とを備えることを特徴とする。
【0010】
【発明の実施の形態】以下、本発明の一実施形態による情報処理装置の異常状態の検知方法を図面を参照して説明する。図1は、この発明の一実施形態による情報処理装置の異常状態検知を行う監視装置とその監視対象である情報処理装置の構成を示す図である。この図において符号1は監視装置、2はWebサイトを開設する情報処理装置である。
【0011】次に、監視装置1の詳細な構成について説明する。図2は監視装置1の構成を示すブロック図である。この図において11は監視対象となる情報処理装置2内のリソース項目のデータやシステム性能を表す項目のデータを受取る入出力制御手段である。ここでリソース項目とは図4で示すような内容からなる情報処理装置2内における項目であり、情報処理装置内で発生する特定の状況をデータ値で表す項目である。12は情報処理装置2のリソース項目の実測データを収集する実測データ収集手段である。13は情報処理装置2のレスポンスタイムやスループットなどのシステム性能を表す項目と各リソース項目の相関係数を算出する相関係数算出手段である。ここで相関係数とは対となるデータの関係性を評価する係数で、−1〜+1の間の数値となり、絶対値が0.7以上であるときに対となるデータどうしが強い相関にあるということを示している。相関係数算出手段はまた、得られた相関係数の値から、システム性能を表す項目と弱い相関関係にあるリソース項目を監視対象から除くことを決定する。
【0012】14は相関係数算出手段13において選定した複数のリソース項目をクラスター分析という統計的分析手法を用いて複数のグループにグループ化し、それぞれのグループを代表するリソース項目をまとめて監視項目候補として選出する監視項目候補選出手段である。15は監視項目候補選出手段14において選出した複数の各監視項目候補を説明変数、システム性能を表す項目を目的変数として、統計的分析手法である重回帰分析を実施し、この分析結果に基づいて最終的な監視項目を選出する、監視項目選出手段である。16は監視項目選出手段15によって選出した監視項目に基づいて得られる実測データの最大許容値と最小許容値を算出し、算出した最大許容値と最小許容値を監視項目の閾値と決定する閾値決定手段である。17は閾値決定手段16で得られた監視項目の閾値と、情報処理装置2の実稼動中の各監視項目のデータとに基づいて、情報処理装置2の正常状態もしくは異常状態を判断する異常状態検知手段(上述の第1の手段及び第2の手段及び第3の手段)である。18は情報処理装置2から得られるリソース項目や監視項目のデータを記憶し、監視装置1の各手段で得られるデータを記憶する情報記憶部である。
【0013】次に、上述した監視装置1の動作を図1〜図25を参照して説明する。図3は監視装置1における情報処理装置2の監視方法の手順を示すフローである。図4は監視装置1が情報処理装置2内における監視対象データとして取得するリソース項目の一覧を示す図である。
【0014】まず、情報処理装置2の異常状態検知を行うためには、情報処理装置2の実際の稼動状況を想定した負荷試験を行い、異常状態の判定指標の元となる情報処理装置2内の監視項目を選出する。図3より、負荷試験の際に監視装置1の実測データ収集手段12が情報処理装置2内の全リソース項目の実測データを収集し、その実測データを情報記憶部18で保存する(ステップS1)。情報処理装置2内のリソース項目は図4の一覧の例に示すように複数存在している。この負荷試験においては、情報処理装置2に対して負荷数10から150まで段階的に負荷を上げて試験を行う。負荷数とは、この負荷試験においては情報処理装置2にアクセスする人数を表しており、負荷試験により図4に示す各リソース項目の実測データを得ることができる。図5は負荷試験における各リソース項目の実測データを表示する一覧である。図5の一覧で示す各リソース項目の実測データは情報記憶部18に保存される。
【0015】次に監視装置1の相関係数算出手段13は実測データ収集手段12で得た各リソース項目と、システム性能の項目となる情報処理装置2の負荷試験におけるレスポンスタイムとの相関係数を算出し、絶対値の値が低いリソース項目を、システム性能との関連が弱い項目となるため監視対象から除く(ステップS2)。レスポンスタイムとは、負荷試験において仮想的なユーザーの、情報処理装置2に対する処理要求に対するレスポンスタイムのことである。相関係数の算出は、【数1】

の式によって求める。この式において、xはシステム性能の項目であるレスポンスタイムを表し、yはリソース項目を表しており、レスポンスタイムに対応した各リソース項目の相関係数が相関係数算出手段13によって算出される。図6はレスポンスタイムおよび各リソース項目の相関係数を算出した結果を示す表である。図6において#DIV/0!という表記は、特定のリソース項目の実測データが、負荷数が変化しても一定だったために、相関係数算出でエラーとなった事を示している。
【0016】相関係数算出手段13によって算出した相関係数は一般的に絶対値が0.7以下であった場合、対象となる2つの項目の関連が弱いと判断される。よって、相関係数算出手段13はここで、相関係数の絶対値が0.7以下となったリソース項目を監視対象の候補から除き、残ったリソース項目を監視対象の候補として選出する。図7はレスポンスタイムと各リソース項目との相関係数の算出結果を示す図である。この図において、avm(アクティブな仮想ページ)は相関係数の絶対値が0.7以下であるため、監視対象の候補から除外されることとなる。他の符号aの欄に表示するリソース項目が監視対象の候補となる。ここで図7においては、po(1秒あたりのページアウトされたページ数)とde(予想される短期メモリ不足)の2つのリソース項目は相関係数の算出時にエラーとなったため、除外されている。
【0017】次に、監視装置1の監視項目候補選出手段14はステップS2で選出した監視対象の候補となったリソース項目に対してクラスター分析を実施し、リソース項目の中で関連の強いリソース項目同士をグループ化し、各グループの中からグループを代表するリソース項目を監視項目候補として選出する(ステップS3)。クラスター分析は以下の統計処理で実施される。
1:相関係数の算出に基づいた項目間距離を算出する2:階層的手法による樹形図(トリー)を作成する3:クラスター(グループ)化を行う。
4:各クラスター(グループ)における代表のリソース項目を決定する。
【0018】上述の統計処理で実施されるクラスター分析の結果を図8及び図9に示す。図8はウォード法を用いてクラスター数を3と設定した場合のクラスター分析結果である。図9はウォード法を用いてクラスター数を4と設定した場合のクラスター分析結果である。相関係数の算出に基づいた項目間距離の算出は図8の8a及び図9の9aに示している。そして、この項目間距離の算出により、クラスター分析樹形図(図8の8b及び図9の9b)を作成する。グループ間の距離計算方法はウォード法によって算出する。
【0019】尚、クラスター分析は分析条件として、クラスター数及びグループ間の距離計算方法の2条件を設定して実施されるが、クラスター数を3〜6までの4通りで設定し、また、グループ間の距離計算方法はウォード法、群平均法、最長距離平均法の3通りで設定してクラスター分析を実施する。よって、全部で12通りのクラスター分析結果が得られることとなる。図8及び図9はそのうちの2例を示すものである。図8及び図9で示す各クラスター分析結果において、8c及び9cはクラスター規模表であり、クラスター分析樹形図8b及び9bより、クラスター数を3または4と設定すると、これにより、各クラスターにおける件数とリソース項目の割合を導き出すことができる。また、8d及び9dはクラスター別項目名であり、各クラスターにおけるリソース項目の項目名を表示している。
【0020】次に、12通りのクラスター分析の各結果より、監視項目候補選出手段14は各クラスター中の複数のリソース項目から、クラスターを代表するリソース項目を選出し、各クラスターの代表するリソース項目を全てを監視項目候補とする。ここにおいて、各クラスターにおける監視項目候補の選出は手順の簡略化を図るために「グループ内中央値による選択方法」と「相関係数の絶対値による選択方法」の2通りの選択方法を用いる。よってクラスター分析における12通りの分析結果に基づいて、監視項目候補の選出を上述の2通りの選択方法を用いて選出するので、合計で24通りの監視項目候補のグループが選出されることとなる。ここで、「グループ内中央値による選択方法」とは、グループ(クラスター)内で他項目との相関係数和が最も高いことから、他項目との距離が近く、グループの中央に位置する項目を選択する方法である。また、「相関係数の絶対値による選択方法」とは、グループ(クラスター)内でシステム性能を表す項目との関連が最も強い項目を選択する方法である。
【0021】図10で示す、クラスター数3の場合の代表項目10a及びクラスター数4の場合の代表項目10bは、24通りのクラスター分析結果での代表のリソース項目選出におけるうちの2つの例であり、これは、図8及び図9で示したクラスター分析の結果から「相関係数の絶対値による選択方法」を用いて代表のリソース項目を選出した代表リソース項目を示している。ウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた監視項目候補は図10の10aより、cs及びInPackets及びBufferHitRatioの3つである。またウォード法を用いてクラスター数4でクラスター分析を実施した結果に基づいた監視項目候補は図10の10bより、cs及びInPackets及びpi及びBufferHitRatioの4つである。
【0022】次に、監視装置1の監視項目選出手段15は、監視項目候補選出手段14が選出した各グループ(クラスター)を代表するリソース項目(監視項目候補)を説明変数、システム性能を表す項目であるレスポンスタイムを目的変数として重回帰分析を実施し、この結果より最も妥当性の高い監視項目を選出する(ステップS4)。重回帰分析はステップS3において得られた24通りの結果全てに基づいて実施されるので、重回帰分析の結果も24通りとなり、この24通りの結果の中から情報処理装置2の状態を監視するのに最も妥当性の高い監視項目を選出することとなる。
【0023】重回帰分析は、以下の統計処理により実施を行う。
1:基本統計量の算出2:変数相互の相関行列の算出3:重回帰式を求める4:分散分析表の作成5:理論値・予測値を算出する6:区間推定を行う7:実績値・理論値グラフを作成する上記の処理による重回帰分析結果のうちの2つを図11〜図20に示す。図11〜図15はウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた重回帰分析結果(1)〜(5)である。図16〜図20はウォード法を用いてクラスター数4でクラスター分析を実施した結果に基づいた重回帰分析結果(1)〜(5)である。
【0024】ステップS4において、重回帰分析の結果から最も妥当性の高い監視項目を選出するが、これは重回帰分析結果である重回帰式の検定結果を以下の手順のように比較することにより行う。
(1)説明変数同士の関連が高いために重回帰式が正確でないことを示す多重共線性が発生しているか、していないかを確認し、多重共線性が発生している場合は、該当する説明変数のリソース項目は監視項目に適していないとみなす。
(2)多重共線性が発生していない重回帰式で、重回帰式の分析制度を示す自由度修正済み決定係数の値が最も高い重回帰式の説明変数であるリソース項目が、最もシステムを監視するのに適しているとみなすが、ここで手順を簡略する観点から、自由度修正済み決定係数の値が0.8より小さい場合は、重回帰式の分析制度が悪いとみなし、監視項目に適していないとみなす。
【0025】上記の手順に従って、ステップS4において、ウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた3つの監視項目候補が、重回帰分析結果により、監視項目として適しているかどうかを判断する。上記の監視項目の選出手順(1)及び(2)を用いると、まず、図12における[重回帰式]の「符号チェック」欄にチェック(×印)が付いていないため多重共線性が発生していないことが判る。このことから、図10の10aで示す、ウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた3つの監視項目候補は、監視項目として適していると判断することができる。
【0026】また、ウォード法を用いてクラスター数4でクラスター分析を実施した結果に基づいた4つの監視項目候補が、重回帰分析結果により、監視項目として適しているかどうかを判断する。この場合、同様に、上記の監視項目の選出手順(1)及び(2)を用いると、図17における[重回帰式]の「符号チェック」欄にチェック(×印)が付いているため、多重共線性が発生していることが判るので、監視項目として適していないと判断することができる。
【0027】上述の重回帰分析結果による監視項目の選出は、24通りのクラスター分析結果について全て行われる。そして、複数の監視項目候補グループ(クラスター)が、監視項目として適していると判断された場合、その監視項目候補のグループ(クラスター)における重回帰分析結果の自由度修正済み決定係数の値を比較し、値が最も高い監視項目候補のグループ(クラスター)を監視項目として決定する。自由度修正済み決定係数は、図13及び図18の[精度]に表示している。尚、最終的にこの自由度修正済み決定係数の値が、0.8以下であった場合には精度が低いと判断し監視項目には適さないと判断することとなる。図10の10aで示す、ウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた3つの監視項目候補における重回帰式分析結果は、図11の[精度]の自由度修正済み決定係数の値が0.8以上のため、この点においても監視項目として適していると判断することができる。
【0028】ここで、情報処理装置2の異常状態検知を行うための、異常状態の判定指標の元となる情報処理装置2内の監視項目を決定することができた。よってこの監視項目を用いて情報処理装置2の異常状態検知を行う。図10の10aで示す、ウォード法を用いてクラスター数3でクラスター分析を実施した結果に基づいた3つのリソース項目(cs、InPackets、BufferHitRatio)を監視項目とする。
【0029】次に、監視装置1は情報処理装置2の閾値決定手段17において、ステップS4で選出した各監視項目のステップS1で得られた実測データ値から、偏差値算出の統計手法を用いて監視項目の負荷度合い毎に最大許容値と最小許容値を算出し、算出した最大許容値及び最小許容値を閾値として決定する。またその最大許容値及び最小許容値を閾値として保持するテンプレートを作成する(ステップS5)。閾値となる最大許容値及び最小許容値の算出は以下の数式によって行われる。また最大許容値及び最小許容値を算出する際の信頼度は95%として計算を行う。
【数2】

【数3】

【0030】図21はステップS1で得られた実測データに基づくcs、InPackets及びBufferHitRatioの負荷数の度合い毎における最大許容値と最小許容値の算出結果である。そして、これが最大許容値及び最小許容値の閾値テンプレートとなり、このテンプレートに基づいて監視装置1は各監視項目における異常状態を検知する。また、この閾値テンプレートの情報が閾値決定手段17によって情報記憶部18に書き込まれ保持される。ステップS5における閾値テンプレートの作成により、異常状態検知装置1は情報処理装置2の異常状態を検知可能となる。
【0031】次に、監視装置1は情報処理装置2の通常稼動時の異常状態を検知するため、入出力制御手段11を介して情報処理装置2を監視する。ここで監視装置1の異常状態検知手段18は、情報処理装置2の各監視項目の実測値と、ステップS5において記憶情報部18に保存した閾値テンプレートの情報を比較して、実測値が最大許容値と最小許容値内に収まった場合、その最大許容値と最小許容値に対応する負荷数を許容負荷数とする。そして、閾値テンプレートにおける全ての監視項目において許容負荷数を確認し、全監視項目に渡って重複する許容負荷数が存在する場合は、情報処理装置2は正常であると判断し、全監視項目間に渡って重複許容負荷数がない場合は、情報処理装置2は異常状態であると判断する(ステップS6)。
【0032】図22はステップS6において異常状態検知手段17が情報処理装置2の異常状態を検知する際の処理フローである。まず、異常状態検知手段17が情報処理装置2の監視を始め、情報処理装置2の稼動時における各監視項目の実測値を検出した後、情報記憶部18に記憶する閾値テンプレートにおいて、各監視項目の中で実測値と比較していない監視項目が残っているかどうかを確認する(ステップS7)。
【0033】ここで、異常状態検知手段17は、得られた実測値を閾値テンプレートと比較するのが初回なので、当然、全ての監視項目は実測値と比較されないで残っていることになる。よって、異常状態検知手段17は一つ目の監視項目のcsを閾値テンプレートから取り上げ(ステップS8)、各負荷数に対応した閾値と実測値とで比較してないものが残っているかどうかを確認する(ステップS9)。ステップS7において比較していない監視項目が残っていない場合は、異常様態検知手段17は処理を終了する。また、ステップS9において一つの監視項目において実測値と比較する各負荷数に対応する閾値が残っていない場合、次の監視項目について実測値と閾値とを比較するために、ステップS7に処理が戻ることとなる。
【0034】ステップS9においては、当然、監視項目であるcsの実測値と各負荷数に対応する閾値とを比較するのが初回なので、全ての負荷数における閾値と実測値との比較結果が得られずに残っている。よって異常状態検知手段17は、次に、負荷数10の場合の最大許容値と最小許容値による閾値を確認し、情報処理装置2で得られたcsの実測値がこの範囲内に含まれているかどうかを判断する(ステップS10)。ここで、ステップS10においてcsの実測値が負荷数10における最大許容値と最小許容値の範囲に含まれていない場合、ステップS9の処理に戻り、次の負荷数の最大許容値と最小許容値による閾値の範囲に実測値が含まれていないかどうかを判断することとなる。
【0035】ステップS10においてcsの実測値が最大許容値と最小許容値による閾値の範囲に含まれていた場合、異常状態検知手段17は閾値テンプレートの該当する許容負荷欄をマーキングする(ステップS11)。ここで、各監視項目の各負荷数に対応する閾値テンプレート上の欄を許容負荷欄と呼ぶ。このマーキングは当然、情報として情報記憶部18において保存される。この様にステップS7からステップS11の処理を行うことにより、異常状態検知手段17は、情報記憶部18で記憶する閾値テンプレートにおいて、負荷数に対応する閾値の範囲に、実測値として得られた各監視項目の値が含まれているかどうかを一つずつ確認していく。
【0036】次に、ステップS6において異常状態検知手段17は情報記憶部18に記憶する閾値テンプレートの情報におけるマーキングをチェックする。図23は異常状態検知手段17による閾値テンプレートのマーキングチェック処理フローを示す図である。異常状態検知手段17は、情報記憶部18に記憶する閾値テンプレートの情報から負荷数に対応した各監視項目の閾値を取り上げ、各監視項目の実測値が、その閾値の最大許容値と最小許容値内に収まったことを示すマーキングが許容負荷欄に行なわれたかどうかを判断する(ステップS12)。最初に負荷数10の場合の全監視項目における許容負荷欄にマーキングがされているかどうかを確認する(ステップS13)。ここで負荷数10に対応する許容負荷欄にマーキングがされていないので、異常状態検知手段17は次に、実測値と比較していない負荷数に対応した各監視項目の閾値が残っているかどうかを判断する(ステップS14)。
【0037】ここで、ステップS14において負荷数20に対応する各監視項目の閾値と、各監視項目の実測値を比較していないで残っているので、異常状態検知手段17は次に、負荷数20の場合の全監視項目における閾値を取り上げて(ステップS15)、再びステップS13に戻って、許容負荷欄にマーキングがされているかどうかを確認する。この様に負荷数に対応する閾値の範囲に、実測値として得られた各監視項目の値が含まれているかどうかを一つずつ確認していくが、ステップS13において、ある負荷数に対応する全監視項目の閾値内に全監視項目の実測値が収まり、ある負荷数に対応する全監視項目の許容負荷欄が全てマーキングされている場合、異常状態検知手段17はシステムが正常であると判断する。また、ステップS13において、ある負荷数に対応する全監視項目の閾値内に全監視項目の実測値が収まらず、ある負荷数に対応する全監視項目の許容負荷欄が全てマーキングされている状況がない場合、ステップS14において異常状態検知手段17はシステムが異常であると判断する。
【0038】図24は情報処理装置2が正常時の閾値テンプレート作成結果であるが、ここで、ステップS6において、監視装置1の異常状態検知手段17が情報処理装置2より得た3つの監視項目の実測値を、cs=634、InPackets=1655.9、BufferHitratio=2.6333とすると、図24の閾値テンプレート作成結果の様に、許容負荷欄にマーキングがされることとなる。負荷数70に対応した全監視項目の許容負荷欄にマーキングされていることが確認できるので、この時のシステムは正常であると判断することができる。
【0039】また、図25は情報処理装置2が異常時の閾値テンプレート作成結果であるが、ここで、ステップS6において、監視装置1の異常状態検知手段17が情報処理装置2より得た3つの監視項目の実測値を、cs=634、InPackets=1178、BufferHitratio=2.6333とすると、図19の閾値テンプレート作成結果のように、許容負荷欄にマーキングがされることとなる。各負荷数に対応した全監視項目の許容負荷欄を確認すると、ある負荷数に対応する全監視項目で全て許容負荷欄がマーキングされている状況がないので、この時のシステムは異常であると判断することができる。
【0040】尚、上述の監視装置1のコンピュータにおいて実行されるプログラムは、情報処理装置によって読み取り可能な記憶媒体に記憶して、この記憶媒体に記憶されたプログラムを情報処理装置2に読み込ませ、実行することにより、上述の実施形態の処理を行っても良い。
【0041】
【発明の効果】以上説明したように、この発明によれば、情報処理装置などの異常状態監視対象におけるリソース項目の中から、統計手法を用いて監視項目の選出を行い、また、その監視項目が許容する上限(最大許容値)及び下限(最小許容値)の閾値を統計手法を用いて決定する機能を監視装置に備えたので、システム管理者の知識が無くとも監視項目とその閾値の上限及び下限を設定することが可能となる。また、統計手法による監視項目の選出や閾値の決定により、情報処理装置の構成や稼動しているサービスの利用状況といった情報処理装置毎に固有の条件に適合した監視項目の選出や閾値の決定が可能となり、さらに、従来では異常が検知出来なかった、情報処理装置にかかる負荷が低く故障も起きていないような状況下での異常状態を検知することが可能となる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013