米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> キヤノン株式会社

発明の名称 パターン識別方法及びその装置、そのプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−11572(P2007−11572A)
公開日 平成19年1月18日(2007.1.18)
出願番号 特願2005−189926(P2005−189926)
出願日 平成17年6月29日(2005.6.29)
代理人 【識別番号】100090538
【弁理士】
【氏名又は名称】西山 恵三
発明者 御手洗 裕輔 / 真継 優和 / 森 克彦
要約 課題
入力パターンの変動に対して頑健な識別が可能であり、誤識別が生じる可能性を低減させながら、より処理コストの少ないパターン認識を行う。

解決手段
階層的に特徴を抽出する階層的特徴抽出処理部12により、データ入力部11から入力されたデータのパターン識別を行うパターン認識装置において、注目する特徴抽出層12による特徴抽出を、直前の特徴抽出層12の特徴抽出面13における特徴抽出結果と、直前以外の特徴抽出層12の再利用特徴抽出面13aにおける特徴抽出結果とに基づいて行う。
特許請求の範囲
【請求項1】
入力データの特徴を階層的に抽出して当該入力データのパターンを識別するパターン識別方法において、
第1の階層における特徴を抽出する第1の特徴抽出工程と、
前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて、前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出工程とを有することを特徴とするパターン識別方法。
【請求項2】
前記第1の階層以外の階層は、前記第1の階層より下位の階層であることを特徴とする請求項1に記載のパターン識別方法。
【請求項3】
前記第1の階層以外の階層は、前記第2の階層であることを特徴とする請求項1に記載のパターン識別方法。
【請求項4】
前記第1の階層以外の階層における特徴抽出結果として、前記第2の階層における異なる特徴クラスの特徴抽出結果を用いることを特徴とする請求項3に記載のパターン識別方法。
【請求項5】
前記第2の特徴抽出工程では、階層的な特徴抽出以外の手法により得られた特徴を更に用いることを特徴とする請求項1に記載のパターン識別方法。
【請求項6】
前記入力データがカラー画像であり、前記階層的な特徴抽出以外の手法により得られた特徴は、当該カラー画像より所定の色相、輝度、または彩度の範囲である領域を抽出した結果であることを特徴とする請求項5に記載のパターン識別方法。
【請求項7】
前記所定の色相、輝度、または彩度の範囲は、髪の毛あるいは肌色の色相、輝度、または彩度の範囲であることを特徴とする請求項6に記載のパターン識別方法。
【請求項8】
同階層内の複数の特徴抽出結果を統合する統合工程を有することを特徴とする請求項1に記載のパターン識別方法。
【請求項9】
前記統合工程では、少なくとも1つの前記特徴抽出結果の尤度もしくは特徴検出レベルの統計量を用いて複数の特徴抽出結果を統合することを特徴とする請求項8に記載のパターン識別方法。
【請求項10】
前記統合工程では、所定の特徴に所定の変換を与えて得られる複数の特徴抽出結果を統合することを特徴とする請求項8に記載のパターン識別方法。
【請求項11】
前記第1または第2の特徴抽出工程における特定の特徴クラスの特徴抽出を抑制もしくは促進する工程を有することを特徴とする請求項1に記載のパターン識別方法。
【請求項12】
前記パターンの識別は、前記入力データに含まれる顔画像の有無について行われることを特徴とする請求項1に記載のパターン識別方法。
【請求項13】
前記パターンの識別は、前記入力データに含まれる顔画像の位置について行われることを特徴とする請求項1に記載のパターン識別方法。
【請求項14】
入力データの特徴を階層的に抽出して当該入力データのパターンを識別するパターン識別装置であって、
第1の階層における特徴を抽出する第1の特徴抽出手段と、
前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出手段とを有することを特徴とするパターン識別装置。
【請求項15】
コンピュータに、入力データの特徴を階層的に抽出させて当該入力データのパターンを識別させるパターン識別プログラムであって、
第1の階層における特徴を抽出する第1の特徴抽出工程と、
前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出工程とを有することを特徴とするパターン識別プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、画像認識、音声認識等において、階層的に特徴を抽出していくことにより、入力信号のパターンを識別する方法及びその装置、そのプログラムに関する。
【背景技術】
【0002】
階層的に特徴を抽出していくことにより、入力信号のパターンを識別する技術がある。この方法では、高次の特徴を抽出する際に、その抽出する特徴を構成する、その特徴より低次の特徴を用いて、特徴抽出を行うため、識別パターンの変動に対して頑健な識別が可能であるという特徴がある。しかし、パターンの変動に対する頑健性を高めようとすると、抽出すべき特徴の種類を増やす必要があり、結果として処理コストが増大してしまう。そこで、抽出すべき特徴の種類を増やさないようにすると、誤識別を生じる可能性が高くなる、などの問題があった。
【0003】
上記の問題に対して、各クラスのパターンの特徴ベクトルを、ベクトル成分の分散が大きい順に並べたものを辞書パターンとし、入力パターンから特徴ベクトルを生成する。そして、上位N次元まで辞書パターンとのマッチングを行い、その結果に基づいて、下位次元とのマッチングを行うことで、処理コストを低減させるという、パターン認識方法が提案されている(例えば特許文献1参照)。
【0004】
また、入力データから特徴ベクトルを抽出し、各クラスタの標準ベクトルとの一致度によって、クラスタに分類する。そして、入力パターンが分類されたクラスタ内の、カテゴリ標準ベクトルと特徴ベクトルの一致度によって、カテゴリ分類することで、マッチングの処理コストを低減させるという、パターン認識用辞書作成装置及びパターン認識装置も提案されている(例えば特許文献2参照)。
【特許文献1】特公平7−11819号公報
【特許文献2】特開平10−11543号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、入力パターンの変動に対して頑健な識別が可能であり、誤識別が生じる可能性を低減させながら、より処理コストの少ないパターン認識を行うことが望まれている。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明によれば、入力データの特徴を階層的に抽出して当該入力データのパターンを識別するパターン識別方法に、第1の階層における特徴を抽出する第1の特徴抽出工程と、前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて、前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出工程とを備える。
【0007】
また本発明の他の態様によれば、入力データの特徴を階層的に抽出して当該入力データのパターンを識別するパターン識別装置に、第1の階層における特徴を抽出する第1の特徴抽出手段と、前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出手段とを備える。
【0008】
また本発明の他の態様によれば、コンピュータに、入力データの特徴を階層的に抽出させて当該入力データのパターンを識別させるパターン識別プログラムに、第1の階層における特徴を抽出する第1の特徴抽出工程と、前記第1の階層における特徴抽出結果と前記第1の階層以外の階層における特徴抽出結果とに基づいて、前記第1の階層より1つ上位の第2の階層における特徴を抽出する第2の特徴抽出工程とを備える。
【発明の効果】
【0009】
本発明によれば、入力パターンの変動に対して頑健な識別が可能であり、誤識別が生じる可能性を低減させながら、より処理コストの少ないパターン認識を行うことが可能となる。
【発明を実施するための最良の形態】
【0010】
以下、添付図面を参照しながら、本発明の実施形態を説明する。
【0011】
(第1の実施形態)
本発明の第1の実施形態として、入力データとして2次元画像データを用い、その画像データが、ある特定のカテゴリであるかどうかを識別する方法を示す。
【0012】
本実施形態では、識別カテゴリとして、図4の(i)から(iv)に示すような、顔の中心付近が入力画像のほぼ中央に存在する顔存在画像と、図4の(v)に示すような、それ以外の画像である顔不在画像を想定する。そして、入力された画像データに対し、上記2つのカテゴリのいずれであるかを識別する方法について説明する。
【0013】
本実施形態では、顔の存在する画像かどうかという識別を行うが、これに限るものではなく、その他の画像パターンや、入力データが音声データであるような場合にも適用可能である。また、本実施形態では、説明を簡単にするため、顔という単一のカテゴリについて、そのカテゴリ内であるか否かの識別のみを行うが、このような単一のカテゴリではなく、複数のカテゴリについて識別する場合にも適用可能である。
【0014】
図1にパターン識別装置の基本構成を示す。以下、このパターン識別装置の概要について図1を用いて説明する。
【0015】
図1のデータ入力部11は、パターン識別を行う入力データを入力する。入力されたデータは、基本的に図の左側から右方向へ処理され、低次の特徴から徐々に高次の特徴を抽出していき、最終的な高次特徴を抽出する。
【0016】
特徴抽出層12は、少なくとも1つの特徴抽出面13で構成されている。特徴抽出面13は多数の特徴抽出器で構成され、図中、実線で結合された特徴抽出面の抽出結果を用いて所定の特徴を抽出する。1つの特徴抽出面内の特徴抽出器は同一の構造であり、同一種類の特徴を抽出する。この特徴抽出器は基本的に局所的な特徴を抽出するものであり、1つの特徴抽出面内の多数の特徴抽出器によって入力データに対してトポロジカルに所定の特徴を抽出する。
【0017】
通常の特徴抽出面で抽出された特徴は、直後に位置する特徴抽出層での特徴抽出に用いる特徴であるが、再利用特徴抽出面13aで抽出する特徴は、図1に示すように、直後だけでなく、さらに上位の特徴抽出層での特徴抽出にも用いられる。階層外特徴面13bは、入力データから階層的に抽出する特徴ではなく、例えば入力データ用のセンサ以外のセンサからの情報等を特徴として入力する。
【0018】
13cは同階層内再利用特徴抽出面、13dは同階層内再利用特徴を用いる特徴抽出面であり、特徴抽出面13dにおける特徴抽出では、同階層内再利用特徴抽出面13cで抽出される特徴を用いて特徴抽出を行う。ここでは、先に抽出した同階層内の特徴を利用して特徴抽出を行う構成を示しているが、上位階層での特徴抽出を実行した後に、その抽出結果を用いて下位階層の特徴抽出を行うような構成でも構わない。このような処理の構成により、入力データから徐々に高次の特徴を抽出していき、最終的に所望の特徴抽出を行うことで、入力データのパターン識別を行う。
【0019】
図2は、本実施形態におけるパターン識別装置の機能構成を示したものである。また、図3は、本実施形態における処理の流れを示したものである。以下、本実施形態における処理について、図2及び3を用いて説明する。図2の中の実線の矢印は、実際の信号データの流れを示しており、破線の矢印は、実際の信号データではなく動作指示等の命令信号の流れを示したものである。後述する図8及び図10でも同様の表現とする。
【0020】
まず、ステップS301で、画像入力部21より、識別対象となる画像データを入力する。入力する画像データとして、本実施形態ではグレースケール画像を用いるが、RGBカラー画像などでもかまわない。
【0021】
ステップS302では、初期特徴抽出部22により、入力された画像中の特定方向のエッジなどの初期的な特徴を、少なくとも1つ抽出する。ステップS303では、局所特徴抽出部23により、初期特徴抽出部22で抽出された初期特徴を用いて、特定の長さを持つエッジ線分、エッジ線分の端点等の局所的な特徴を抽出する。ステップS304では、部分特徴抽出部24において、局所特徴抽出部23で抽出された局所特徴を用いて、目、口等の部分特徴を抽出する。
【0022】
ステップS305では、部分特徴分布判定部25により、部分特徴抽出部24で抽出された部分特徴の画像内での分布を分析する。ステップS306では、部分特徴分布判定部25は、その分析結果に応じて、顔抽出部26に対し起動命令を発し、起動する顔抽出モジュールのフラグをオンする。
【0023】
顔抽出部26は、部分特徴抽出部24において抽出された部分特徴を用いて顔の抽出を行う処理部である。顔抽出部26は、特定のサイズや向きに対応した顔抽出を行う複数のモジュールから構成されており、起動命令を受けたモジュールのみ、顔の抽出を行う。ステップS307〜309では、順次、フラグがオンになっている顔抽出モジュールによる顔抽出処理を行い、顔抽出を実行した顔抽出モジュールのフラグをオフにする。フラグがオンになっている顔抽出モジュールがなくなると、顔抽出処理を終了する。
【0024】
ステップS310〜311では、検出結果出力部27において、顔抽出モジュールによる顔の抽出結果を統合して、入力画像が顔存在画像であるのか、顔不在画像であるのかの判別を行い、その結果を出力する。
【0025】
以下で、画像入力部21において入力された画像データに対する、初期特徴抽出部22以降の各処理部での処理について詳細に説明する。
【0026】
初期特徴抽出部22において、入力画像から抽出する初期的な特徴は、上位階層である局所特徴抽出部23において抽出される特徴の構成要素となる特徴であることが望ましい。本実施形態では、単純に縦方向、横方向、右上がり斜め方向、左上がり斜め方向の微分フィルタを用いて、入力画像の各位置でフィルタリング処理を行う。これにより、垂直エッジ、水平エッジ、斜め方向エッジ等の4種の特徴を抽出する。本実施形態では上記のようなフィルタリング処理を行うが、予め用意した初期的な特徴を示すテンプレート画像などを用い、入力画像の各位置でテンプレートマッチングを行うことにより、特徴を抽出するなどしても構わない。
【0027】
ここで抽出された特徴は、その特徴の種類、画像中での位置、抽出すべき特徴の尤度や特徴検出レベルといった情報として保持する。本実施形態では、この段階で入力画像から、図5の(a)から(d)に示すような特徴が抽出される。図5の(a)は垂直エッジの抽出結果を示し、(b)は水平エッジ、(c)は右斜めエッジ、(d)は左斜めエッジの抽出結果である。
【0028】
図5では、それぞれ画像の各位置でフィルタリングを行った結果が0である位置をグレーとし、正の値を高輝度値、負の値を低輝度値としてあらわすようにしてある。つまり、図5の画像内において、輝度値が高く示されている位置が各フィルタの種類に対応した方向のエッジが抽出された位置である。逆に輝度値が低く示されている位置は、各フィルタの種類に対応した方向と逆方向のエッジが存在する位置である。また輝度の中間値であるグレーの部分はエッジが抽出されていない位置を示している。
【0029】
ここでは特徴の抽出に微分フィルタを用いているので、フィルタリングを行った値の絶対値はエッジの急峻さを示す。つまり入力画像において、フィルタの種類に応じた方向に輝度値の変化が大きい位置ほど、高輝度値、もしくは低輝度値として示してある。
【0030】
初期特徴抽出部22において抽出された初期特徴抽出結果を用いて局所特徴抽出部23が抽出する局所的な特徴は、初期特徴抽出部22で抽出される特徴と同様に、その上位階層である部分特徴抽出部24において抽出される特徴の構成要素となる特徴であることが望ましい。
【0031】
本実施形態では、部分特徴抽出部24において目と口を抽出するため、局所特徴抽出部23では、図6の(1−a)から(1−d)内の円で囲われた部分に示すような特徴を抽出する。即ち、目尻、目頭や口の両端等に相当するエッジ線分の端点として左側端点と右側端点との2種類の特徴を抽出する。また、目の上部や口唇上部に相当する特徴と、目の下部や口唇下部に相当する特徴との、2種類の特定の長さを持ったエッジ線分を抽出する。
【0032】
図6の(1−a)から(1−d)は、左側端点(図は左目の目頭)が存在する位置における初期特徴抽出結果である。(1−a)は垂直エッジの抽出結果であり、(1−b)は水平エッジ、(1−c)は右斜めエッジ、(1−d)は左斜めエッジの抽出結果となっている。その他(2−a)から(2−d)は、右端点(図は口の端点)が存在する位置における各初期特徴(順に、垂直、水平、右斜め、左斜めエッジ)抽出結果である。また、3−aから3−dは目の上部や口唇上部(図は右目の上部)が存在する位置における各初期特徴(順に、垂直、水平、右斜め、左斜めエッジ)抽出結果である。(4−a)から(4−d)は、目の下部や口唇下部(図は口唇下部)が存在する位置における各初期特徴(順に、垂直、水平、右斜め、左斜めエッジ)抽出結果である。
【0033】
本実施形態では、各々の特徴の抽出方法として、初期特徴抽出部22で抽出された特徴ごとに特有の2次元マスクを予め用意しておき、図5の(a)から(d)に示したような、それぞれの特徴抽出結果の各位置において、予め用意した抽出予定の特徴に固有の2次元マスクにより、フィルタリング処理(コンボリューション演算)を行う。そして、それぞれの初期特徴抽出結果に対してフィルタリングを行った結果を統合することで、それぞれの特徴の抽出を行う。
【0034】
予め用意しておく固有の2次元マスクは、抽出すべき特徴、ここでは例えば左端点のような特徴において、その特徴が存在する位置における、それぞれの初期特徴抽出結果の分布、すなわち(1−a)から(1−d)に対応している。つまり、初期特徴抽出結果の分布が、抽出すべき特徴が存在する位置周辺に特有の初期特徴抽出結果の分布である場合にフィルタリングを行った値が高いものになるような2次元マスクを設定する。
【0035】
2次元マスクの設定の方法としては、単純に複数のテストパターンを与え、与えたテストパターンが抽出すべき特徴である場合は、フィルタリングを行った結果が高い値になるように2次元マスクの各要素の値を調整し、逆に抽出すべき特徴でない場合は、フィルタリングを行った値が低い値になるように、2次元マスクの各要素の値を調整することにより設定すればよい。またその他の方法として、事前に有する知識を利用して、2次元マスクの各要素の値を設定するようにしても構わない。
【0036】
上記のような処理を行い抽出した特徴は、初期特徴抽出部22と同様に、抽出した特徴の種類、画像中での位置、抽出すべき特徴の尤度や特徴検出レベルといった情報として保持する。本実施形態では、2種類の端点と、2種類の特定の長さを持つエッジ線分の4種類の特徴ごとに、抽出された特徴の位置と、各特徴に固有の2次元マスクを用いて、それぞれの初期特徴に対してフィルタリングを行い、その結果を統合したものを、その特徴の尤度として記録して保持しておく。
【0037】
部分特徴抽出部24での処理も、局所特徴抽出部23での処理と同様であり、下位の層の特徴抽出結果である局所特徴抽出部23において抽出した複数の局所特徴の抽出結果から、部分特徴の抽出を行う。抽出する部分特徴は、これも同様に、上位階層である顔抽出部26において抽出される特徴、つまり実施形態中では顔の構成要素となる特徴であることが望ましい。
【0038】
本実施形態では、前述のように、部分特徴抽出部24では、目、口等の抽出を行う。抽出の処理としては、局所特徴抽出部23での抽出方法と同様であり、特定の2次元マスクを用いたフィルタリングにより特徴を抽出すればよい。または単純に、局所特徴抽出部23における特徴抽出結果の内、ある一定値以上の尤度を持った特徴が、特定の空間配置関係にあるかどうかによって、目、口の抽出を行うなどしてもよい。
【0039】
上記のようにして抽出した目、口に関しても、抽出した特徴の種類、画像中での位置、抽出すべき特徴の尤度や特徴量といった情報として保持する。本実施形態では、目、口ごとに、それぞれに固有の2次元マスクによる局所特徴抽出結果に対するフィルタリングの結果を、画像中の各位置で統合したものを、各部分特徴の各位置での尤度として保持する。
【0040】
部分特徴分布判定部25では、部分特徴抽出部24において抽出された特徴の抽出結果に対して、簡単な分布の分析を行い、その結果に基づいて、顔抽出部26に対し、所定の顔抽出モジュール(複数可)に対して起動命令を与える。
【0041】
ここで行う分析は、初期特徴抽出部22から部分特徴抽出部24までで行ったような処理とは異なり、起動命令を与える所定の顔抽出モジュールごとの必要条件を抽出する。例えば本実施形態では、入力画像の所定の座標付近において、部分特徴抽出部24の処理により目が抽出されているか、もしくは抽出されていないかを判別するという分析や、部分特徴抽出部24の処理による口抽出結果の重心位置が所定の座標付近にあるかどうかを判別する分析、或いは部分特徴抽出部24の処理結果である目の尤度の累計が所定値以上であるかどうかを判別する分析などを行う。
【0042】
ここで行う上記のような分析は、顔抽出部26を構成している、複数の変動に対応した顔抽出を行うモジュールに対応した条件などを、予め設定しておけばよい。ここで変動とは、例えば回転変換やサイズ変換等のアフィン変換や、顔が横を向いたときなどに対応する変換等によって得られる特徴の変化のことである。例えば、時計回り面内回転変動に対応した顔抽出モジュールであれば、口抽出結果の重心位置が、画像中央より左寄り下部の位置に存在し、さらに目抽出結果の重心位置が、口抽出結果の重心位置の、右上部の位置に存在するというような条件を、時計回り面内回転変動に対応した顔抽出モジュールの必要条件の1つとして設定しておく。
【0043】
このような分析をいくつか行い、分析の条件を満たす所定の顔抽出モジュールに対して起動命令を発する。重心の分析、尤度の累計の分析等は、例えば目が存在するだろうと予測される位置等の、所定の範囲内で行うようにしてもよい。また、2つ以上の特徴の、尤度の累計に関する比較などを行ってもよい。このような簡単な必要条件の分析により、特徴抽出を行うモジュールを選択することで、処理コストの低減が可能になり、さらに誤識別の低減も可能になる。
【0044】
顔抽出部26では、部分特徴分布抽出部25から起動命令を受けた所定の顔抽出モジュールのみ、部分特徴抽出部24で抽出された、目、口の抽出結果を用いて、部分特徴抽出部24等と同様な特徴抽出処理を行う。特定の変動に対応したモジュールとしては、例えばサイズによる変動(図4のii)、面内回転による変動(図4のiii)、顔の横振り(図4のiv)、縦振りによる変動等に特化したモジュールを用意しておく。
【0045】
本実施形態では、前記のような変動に対応したモジュールごとに、特定の2次元マスクを予め用意しておき、起動命令を受けたモジュールのみ、前記特定の2次元マスクを用いてフィルタリング処理を行う。2次元マスクの設定は、局所特徴抽出部23で説明したのと同様であり、モジュールごとに対応する変動に特化するように、モジュールに対応した特定の変動を有する顔をテストパターンとして与えることによって設定を行う。
【0046】
この顔抽出では、画像中央付近を中心とする顔を目標とした抽出を行うため、部分特徴抽出部24までの特徴抽出処理とは異なり、フィルタリングを画像の各位置で行う必要はなく、画面内の顔を抽出するための範囲でのみフィルタリングを行えばよい。
【0047】
検出結果出力部27では、起動命令を受け、顔抽出処理を行った、変動に対応したモジュールによるフィルタリングの結果から、最終的な入力画像のカテゴリ分別を行う。ここでは単純に、起動された顔抽出モジュールの出力値が、それぞれのモジュールに応じて設定された閾値を超えているか否かを判定して、少なくとも1つのモジュールの出力値が閾値を超えていた時、入力画像が顔存在画像であると判定し、そうでない場合は、顔不在画像であると判定する。
【0048】
ここでの判定は、この方法に限るものではなく、例えば起動されたモジュールの出力値を統合して、最終的な判定を行うというようにしてもよい。具体的には、変動が相反するようなモジュール間で、お互いの出力を抑制することで、誤識別を低減することができる。例えば、時計回り面内回転変動に対応したモジュールの出力値を、変動としては逆のカテゴリである、反時計回り面内回転変動に対応したモジュールの出力値に所定の重み付けをして減算したものとすることができる。、等というように、変動が相反するようなモジュール間で、お互いの出力を抑制することで、誤識別を低減することができる。
【0049】
また、変動が似通ったモジュール間で、お互いの出力を促進することで、識別のための閾値を高く設定することができ、結果として誤識別が低減できる。例えば、特定のサイズの顔に対応したモジュールの出力値に対し、変動としては類似したカテゴリである前記特定のサイズよりやや大きいサイズの顔に対応したモジュールの出力値に所定の重み付けをして加算することができる。
【0050】
または、上記のような類似したカテゴリの、2つ以上のモジュールの出力値を重み付け加算、もしくは単純に相加平均演算等をすることにより得られる値を、カテゴリ間の中間の変動に対応する仮想的な特徴抽出モジュールの出力値として新たに設定することで、少ない処理コストで、識別漏れのない高精度な識別が可能である。
【0051】
以上、第1の実施形態は、入力データとして2次元画像データを用い、その画像データが、ある特定のカテゴリであるかどうかを識別する方法において、識別カテゴリとして、顔の中心付近が入力画像のほぼ中央に存在する顔存在画像と、それ以外の画像の顔不在画像を想定し、入力された画像データに対し、上記2つのカテゴリのいずれであるかを識別する方法の例として説明した。
【0052】
(第2の実施形態)
第2の実施形態では、上記第1の実施形態の変形として、入力データとして、2次元画像データを用い、画像中のどの位置に顔があるのかを検出する方法を示す。本実施形態においては、画像中の顔を検出するという処理を行うが、第1の実施形態と同様に、これに限るものではなく、その他の画像パターンや、入力データが音声データであるような場合にも適用可能である。また、複数のカテゴリの対象を検出するような場合においても適用可能である。
【0053】
本実施形態では、2次元画像データから、階層的特徴抽出により、変動に対して頑健に特定のパターンを検出する方法として、Convolutional Neural Network(以下CNN)の基本構成に変更を与えて用いる。図7に基本的なCNNの構成を示す。CNNの基本的な処理について、図7を用いて説明をする。図7において、処理の流れは、左端を入力とし、右方向へ処理をされる。
【0054】
図7の71は、入力画像の輝度値等に対応した画素値分布である。また図中、72、74、76、78は、特徴検出層であり、各層内の、L7・21、L7・22、L7・23、L7・24、L7・41、L7・42、L7・43、L7・44、L7・61、L7・62、L7・81は、特徴検出細胞面である。一方、73、75、77は、特徴統合層であり、各層内の、L7・31、L7・32、L7・33、L7・34、L7・51、L7・52、L7・53、L7・54、L7・71、L7・72は、特徴統合細胞面である。
【0055】
CNNでは、特徴検出層と特徴統合層の2つの層をひとつのセットとし、それが階層的に構成されている。特徴検出層内の各特徴検出細胞面は、それぞれある特定の特徴を検出する特徴検出ニューロンを有している。各特徴検出ニューロンは、その特徴検出ニューロンの位置に応じた局所的な範囲で、前段階層の特徴検出結果、つまり特徴検出層74内の特徴検出ニューロンであればL7・31からL7・34までの特徴抽出結果に、特徴検出層72内の特徴検出ニューロンであれば、入力画像である71に、特徴検出細胞面ごとに固有の重み分布で結合されている。
【0056】
この重みは、第1の実施形態において述べた、エッジを抽出するための微分フィルタや、特定の特徴を抽出するための2次元マスクに対応しており、第1の実施形態で述べたように、事前の知識を利用して設定したり、複数のテストパターンを与えて学習により設定したりすればよい。その他誤差逆伝播法による学習や、Hebbの学習則による自己組織化的な学習など、既知のNeural Networkの学習方法を利用して設定しても構わない。
【0057】
各特徴検出ニューロンは、結合先である各特徴細胞面での特徴抽出結果、もしくは特徴検出層72であれば入力画像の輝度値等に対して、所定の重みで重み付け加算を行う。更に、その演算結果の値を双曲線正接関数等の非線形関数で変換したものを、当該特徴検出ニューロンの出力値とするようにして特徴の検出を行う。
【0058】
例えば、L7・21は垂直エッジを検出する細胞面であるとすると、入力画像の輝度値に対し、微分フィルタに対応する重み付け加算をL7・21内の各特徴検出ニューロンが行い、入力画像において垂直エッジが存在する位置で、L7・21内の特徴検出ニューロンで行った演算結果の値が大きくなり、高い出力値を示す、つまり特徴が検出されるというような構成になる。
【0059】
その他の特徴検出細胞面に関しても同様に、各特徴検出細胞面に特定の特徴が検出された位置において、特徴検出ニューロンが高い出力値となるようになっている。出力値の演算に関しては、一般的には上記のように非線形変換を行うが、特にこれに限るものではない。
【0060】
特徴統合層内の各特徴統合細胞面は、それぞれ前段階層である特徴検出層の1つの特徴検出細胞面と結合しており、前段の特徴検出結果に対して局所的な範囲において結合し、特徴検出結果をぼかす(統合)処理を行う、特徴統合ニューロンを有している。各特徴統合ニューロンは、基本的には前述の特徴検出ニューロンと同様の演算を行うが、特定の2次元マスクに対応する重み分布がGaussian FilterやLow−Pass Filterであることが特徴である。
【0061】
このような階層的な特徴検出、特徴統合処理を用いて、初期的な特徴から、徐々に高次の特徴を検出し、最終的に入力のカテゴライズをするというのがCNNのネットワーク構造である。上記のような処理により、入力画像から高次特徴を検出することで、特定の画像検出が可能である。CNNは、階層的な特徴抽出と、特徴統合層のぼかしにより、さまざまなパターンの変動に対して頑健な識別が可能であることが特徴である。
【0062】
本実施形態においては、上記CNNを基本的な階層的特徴抽出の処理構成として説明を行う。図8は、本実施形態における処理部の構成を示したものである。また、図9は、本実施形態における処理の流れを示したものである。以下、本実施形態における処理について、図8及び9を用いて説明する。
【0063】
図8における画像入力部801、初期特徴抽出部802、局所特徴抽出部803、部分特徴抽出部804は、それぞれ第1の実施形態における画像入力部21、初期特徴抽出部22、局所特徴抽出部23、部分特徴抽出部24と同様である。そしてステップS901〜904の処理は、図3におけるステップS301〜304の処理と同様である。
【0064】
本実施形態では、画像入力部801においてRGBカラー画像を用い、RGBカラー画像をグレースケール画像に変換したものを、次の階層である初期特徴抽出部802の入力とする。また、特徴抽出に上記CNNによる処理を用い、各特徴抽出部では、特徴検出層による特徴検出と、特徴統合層による検出された特徴の統合を行う。局所特徴抽出部803、部分特徴抽出部804で抽出する特徴の種類は、第1の実施形態と同様のものである。またその各特徴を検出するための、特徴検出細胞面ごとに固有の重み分布も、第1の実施形態で説明した固有の2次元マスクの設定方法と同様に、入力として複数のテストパターンを与え、学習によって設定したものを用いる。
【0065】
本実施形態では、初期特徴抽出部801で抽出する特徴は予め限定した特徴を用いず、局所特徴抽出部802で検出する特徴を学習する際に、誤差逆伝播法を用いることによって、局所特徴を検出するための各特徴検出細胞面固有の重み分布を学習するとともに、初期特徴を検出する各特徴細胞面固有の重み分布を自動的に設定するようにしている。これにより、初期特徴抽出部801では、局所特徴抽出部802で検出する局所特徴を構成する特徴であって、その局所特徴を検出するのに必要である初期特徴を抽出するように、入力画像71との結合重み分布が自動的に設定することができる。
【0066】
ステップ905では、第1の顔抽出部805により、部分特徴抽出部804において抽出された、目、口の抽出結果に対して、上記の特徴抽出方法と同様の処理を行い、画像内の顔を抽出する。
【0067】
顔候補存在判定部806では、第1の顔抽出部805の出力値が所定の閾値を超えた場合に、そこに顔の候補が存在すると判定し(ステップS906)、顔候補の個数をCountに設定して(ステップS907)、顔候補があると判定された顔候補存在位置の座標を順次出力し、肌色領域抽出部807、及び部分特徴分布判定部808に対して起動命令を発する(ステップS908)。
【0068】
肌色領域抽出部807は、顔候補存在判定部806からの起動命令を受け、顔候補存在位置座標に基づく範囲において、入力画像から肌色の領域を抽出する(ステップS909)。部分特徴分布判定部808は、顔候補存在位置座標に基づく範囲における部分特徴抽出結果の分布を判定し(ステップS910)、上記第1の実施形態と同様に、起動する顔抽出モジュールのフラグをオンする(ステップS911)。
【0069】
本実施形態の部分特徴分布判定部808は、第1の実施形態の部分特徴分布判定部25とは異なり、部分特徴抽出部804での特徴抽出結果だけでなく、肌色領域抽出部807での肌色領域抽出結果も利用して、それらの特徴抽出結果に対して、簡単な分布の分析を行い、複数の変動に対応した顔抽出モジュールから構成される、第2の顔抽出部809に対して起動命令を発する処理部である。ちなみに、本実施形態での1つの顔抽出モジュールは、上記CNNにおける1つの特徴検出細胞面に対応する。
【0070】
第2の顔抽出部809は、上記第1の実施形態と同様に、変動に対応した顔抽出モジュールによる顔抽出を行う。すなわち、順次、フラグがオンになっている顔抽出モジュールによる、顔候補存在位置座標での顔抽出処理を行い、顔抽出を実行した顔抽出モジュールのフラグをオフにする(ステップS911〜914)。
【0071】
本実施形態における顔抽出処理は、第1の実施形態とは異なり、部分特徴抽出部804における処理により抽出された目、口の特徴抽出結果だけでなく、局所特徴抽出部803において抽出した、目の上部や口唇上部に相当する特徴抽出結果、及び肌色領域抽出部807において抽出した肌色領域抽出結果も用いて、特定変動に対応した顔の抽出を行う。
【0072】
検出結果出力部810では、第2の顔抽出部809における顔抽出結果に基づいて、入力画像中のどの位置に顔が存在するかという結果を出力する。すなわち、各モジュールの出力結果を統合し(ステップS914)、その顔候補存在位置における検出結果を出力し(S915)、次の顔候補存在位置における検出へループする(ステップS917〜918)。
【0073】
本実施形態での、第1の顔抽出部805以降の各処理部での詳細な処理について以下に説明する。
【0074】
第1の顔抽出部805で行う顔の抽出処理は、局所特徴抽出部803や部分特徴抽出部804での特徴抽出処理と同様である。ここでの顔抽出は、第1の実施形態における顔抽出部26のように、変動に対応した複数の顔抽出モジュールを持っておらず、1つのモジュールのみで構成されている。また本実施形態では、第1の実施形態とは異なり、画像内のどの位置に顔があるのかを検出するため、画像の中央付近においてのみ顔の抽出を行うのではなく、画像の各位置において顔抽出を行う。
【0075】
ここで抽出処理に用いる、各顔検出ニューロンの部分特徴抽出部804において抽出された部分特徴抽出結果に結合する固有の重み分布は、様々な変動のある顔、つまり図4の(i)から(iv)に示すような様々な変動を有する顔をテストデータとして与えた学習によって設定を行っている。このように学習することで、顔でないものを顔と判定する可能性が高くなる等、精度としては低くなるが、単独のモジュールで様々な変動のある顔を抽出することが可能になる。この処理部では、上記のように学習した重み分布を用い特徴検出を行って、その結果を特徴統合層により統合する。
【0076】
顔候補存在判定部806では、第1の顔抽出部805における顔抽出処理の結果に対して、所定の閾値以上の出力である部分を判定する。そして、判定された位置に顔の候補が存在するとして、その候補が存在する範囲において、肌色部分特徴分布判定部807、及び部分特徴分布判定部808の処理を行うように起動命令を発する。
【0077】
肌色領域抽出部807は、顔候補存在判定部806からの起動命令を受け、顔の候補が存在する範囲付近において、肌色領域の抽出を行う。本実施形態では、肌色領域の抽出を行う領域において、RGBカラー入力画像を、HSV表色系に変換し、特定の色相(H)の範囲の画素のみを肌色領域として抽出するようにする。肌色領域抽出の方法に関しては、これに限るものではなく、一般に知られたその他の方法でも構わない。例えば、彩度(S)や輝度(V)を利用して抽出するようにしてもよい。また、本実施形態では肌色領域を抽出したが、これ以外にも髪の毛の領域等を抽出するなどしてもよい。
【0078】
部分特徴分布判定部808は、第1の実施形態における部分特徴分布判定部25と同様の処理を行う。本実施形態では、肌色領域抽出部807と同様に、顔候補存在判定部806からの起動命令を受け、顔の候補が存在する範囲付近において、所定の特徴抽出結果の分布の分析を行う。そしてその結果に応じて、複数の特定の変動に対応した顔抽出モジュールから構成される、第2の顔抽出部809の所定の顔抽出モジュールを選択し、顔候補存在位置において顔抽出処理を行うように起動命令を与える。
【0079】
部分特徴分布判定部806により分析を行う特徴抽出結果は、部分特徴抽出部804により抽出された目、口の抽出結果、及び肌色領域抽出部807による肌色領域抽出結果である。ここで行う分析は、第1の実施形態において説明したものと同様であり、第2の顔抽出部809を構成する、変動に対応した各モジュールが、顔が存在する場合に満足すべき必要条件を抽出する処理を行う。
【0080】
本実施形態では、第1の実施形態とは異なり、肌色領域抽出結果を用いるので、その結果に対する分析のいくつかを挙げる。いちばん簡単な例としては、抽出された肌色領域の面積を分析するものがある。その他、肌色として抽出された領域の縦横比を分析したり、顔候補が存在すると判定された領域の、上半分の肌色抽出領域の重心位置と、下半分の肌色抽出領域の重心位置の相対位置関係を分析したりしてもよい。
【0081】
例えば1番目に挙げた例は、その面積に応じて、特定のサイズの顔抽出モジュールにおける必要条件の1つになる。また、2番目の例は、顔の横振りや縦振りに対応したモジュール、3番目の例は、顔の面内回転に対応したモジュールにおける必要条件の1つとして設定することができる。また、部分特徴抽出部804により抽出された、部分特徴抽出結果を用い、目が抽出された領域の面積と、肌色領域の面積の比較や、逆に目が抽出されていない領域と肌色領域の面積の比較、さらに目が抽出されていない領域と肌色でない領域の面積の比較といった分析を行ってもよい。
【0082】
上記のような面積等の分析においても、第1の実施形態において述べたように、特定の領域内においてのみ分析をするようにしてもよい。例えば、髪の毛の位置と思われる領域で、肌色ではない領域の面積の分析を行うようにしてもよい。第1の実施形態で行ったような、目、口の抽出結果に関する分析に加え、上記のような分析を追加することで、より精度の高い起動命令を発することが可能になる。
【0083】
第2の顔抽出部809は、第1の実施形態の顔抽出部26と同様の処理部であり、特定の変動に対応した複数の顔抽出モジュールから構成されている。本実施形態では、第1の実施形態とは異なり、部分特徴抽出部804による目、口の抽出結果だけでなく、肌色領域抽出部807による肌色抽出結果、第1の顔抽出部805による、様々な変動のある顔の抽出結果、及び局所特徴抽出部803により抽出された特徴の内、目の上部や口唇上部に相当する特徴抽出結果を用いて、顔候補存在位置において顔抽出を行う。
【0084】
このように、直前の階層の特徴抽出結果だけでなく、同レベルの特徴である、同階層内の特徴抽出結果(ここでは第1の顔抽出結果)や、階層的特徴抽出の枠組みの外部から挿入した特徴抽出結果(ここでは肌色領域抽出結果)、直前の階層以前の階層における特徴抽出結果(ここでは目の上部や口唇上部に相当する特徴抽出結果)、さらに後述の第3の実施形態において説明を行う、後段階層の特徴抽出結果等を、特徴抽出の際に補助的に用いることで、特徴抽出の精度を高めることができる。このようにすることにより、処理コストは増加するが、部分特徴分布判定部808から起動命令を受けたモジュールの、顔候補が存在する位置でのみ、第2の顔抽出部809の特徴抽出処理を行うため、処理コストの増加は最低限で抑えることができる。
【0085】
検出結果出力部810は、第1の実施形態における検出結果出力部27と同様の処理部であり、第2の顔抽出部809を構成する、複数の変動に対応した顔抽出モジュールの内、部分特徴判定部808からの起動命令により特徴抽出処理を行った結果から、画像中のどの位置に顔が存在するのかを判定して、その結果を出力する。ここでも、第1の実施形態で説明したのと同様に、複数のモジュールの出力を統合することで、精度の高い検出が可能になる。
【0086】
以上、第2の実施形態は、入力データとして2次元画像データを用い、その画像内において、ある特定の対象を検出する方法において、顔を検出対象とする例を説明した。
【0087】
(第3の実施形態)
本発明の第3の実施形態は、上記第2の実施形態の変形したものである。本実施形態も、第2の実施形態と同様に、画像中の顔を検出するという処理を行うが、これに限るものではなく、その他の画像パターンや音声データにも適用可能である。また、複数のカテゴリの対象を検出するような場合にも適用可能である。
【0088】
図10は、本実施形態における処理部の構成を示したものである。また、図11は、本実施形態における処理の流れを示したものである。本実施形態の基本的な処理の構成は第2の実施形態において説明したものと同様である、以下、本実施形態における処理について、図10を用いて説明する。
【0089】
図10の画像入力部1001から肌色領域抽出部1007までによる処理(ステップS901〜909)は、第2の実施形態のステップS901〜909とまったく同様のものであるので説明を省略する。
【0090】
部分特徴分布判定部1008も第2の実施形態における部分特徴分布判定部808と同様の処理であるが、特徴抽出結果の分布の分析結果に応じて、第2の顔抽出部1009の、複数の変動に対応した顔抽出モジュールに、顔候補存在位置において顔抽出処理を行うように起動命令を与えるとともに、複数の変動に対応した、部分特徴抽出モジュールから構成される、第2の部分特徴抽出部1004に対しても、起動命令を発する。すなわち、顔候補存在位置座標に基づく範囲における部分特徴抽出結果の分布を判定し(ステップS1110)、及び起動する顔抽出モジュールのフラグをオンする(ステップS1111)。
【0091】
第2の部分特徴抽出部1004は、特定の変動に対応した部分特徴の抽出を行う複数のモジュールから構成されており、部分特徴分布判定部1008からの起動命令を受け、起動命令を受けたモジュールの、顔候補存在位置によって決まる特定の位置でのみ、部分特徴の再抽出を行う。すなわち、フラグがオンになっている顔抽出モジュールに対応した部分特徴抽出モジュールがあれば、顔候補存在位置座標によって定まる位置における部分特徴抽出処理を行う(ステップS1113〜1114)。
【0092】
第2の顔抽出部1009は、第2の実施形態の第2の顔抽出部809とほぼ同様の処理部である。ただし、第2の部分特徴抽出部1004により、ここで起動される顔抽出モジュールに対応した、部分特徴の再抽出が行われた場合は、部分特徴抽出部1004で抽出された特徴を用いて顔抽出を行う。すなわち、フラグがオンになっている顔抽出モジュールにより、顔候補存在位置で顔抽出を行い、顔抽出を実行した顔抽出モジュールのフラグをオフにする(ステップS1115〜1116)。
【0093】
検出結果出力部1010は、第2の実施形態の検出結果出力部810とまったく同様であり、ステップS1117〜1120は、第2の実施形態のステップS915〜918とまったく同様のものであるので説明を省略する。
【0094】
本実施形態における部分特徴分布判定部1008、第2の部分特徴抽出部1004、及び第2の顔抽出部1009での詳細な処理について以下に説明する。
【0095】
部分特徴分布判定部1008は、前述のように、部分特徴の抽出結果の分布を分析する処理に関しては、第2の実施形態と同様である。第2の実施形態では、ここで複数の変動に対応した顔の抽出を行うモジュールに対して起動命令を発したが、さらに起動命令を発した顔抽出モジュールの変動に対応した部分特徴の抽出を行う第2の部分特徴抽出部1004に対しても、起動命令を発する。具体的には、例えば時計回り面内回転変動に対応した顔抽出モジュールを起動するように起動命令を発したとき、同時に、同じ変動である時計回り面内回転変動に対応した部分特徴抽出モジュールに対しても、起動命令を発するというようにする。
【0096】
第2の部分特徴抽出部1004は、複数の変動に対応した部分特徴の抽出を行う複数のモジュールにより構成される。ここでは、部分特徴分布判定部1008からの起動命令を受けた、複数の変動に対応した顔の抽出を行うモジュールに対応した部分特徴抽出モジュールを起動し、顔候補存在判定部1006の結果として得られる顔候補存在位置によって決まる特定の範囲においてのみ、部分特徴の抽出を行う。特徴の抽出方法は、第2の実施形態において説明したものと同様のものである。
【0097】
各部分特徴モジュールは、基本的には第2の顔抽出部1009を構成する、複数の変動に対応した顔抽出モジュールのそれぞれに対応しているが、1対1の対応でなくてもよい。例えば、正面向きの顔抽出モジュールに対応した、部分特徴抽出モジュールは存在しない、などとしてもよい。このようにした場合、正面向きの顔抽出モジュールに対して起動命令が発せられた場合は、第2の部分特徴抽出部1004での処理は行わない、というようにすればよい。
【0098】
さらに、複数種類の顔抽出モジュールに対して、1つの部分特徴抽出モジュールを対応させるというようにしてもよい。例えば、時計回り15度の面内回転変動に対応する顔抽出モジュールと、時計回り30度の面内回転変動に対応する顔抽出モジュールとでは、1つのモジュールで両方の変動を含めた抽出を行う部分特徴抽出モジュールを対応させるようにしたりする。
【0099】
このように、上位の階層レベルの特徴抽出結果出力に基づいて、下位の階層レベルの特徴抽出モジュールの動作を制御するフィードバック機構を導入する。すなわち、第2の顔抽出において起動される、特定の変動に対応する顔抽出モジュールに対応した部分特徴抽出モジュールにより、低次の特徴を再抽出することで、さらに高精度な特徴抽出が可能になる。特徴の再抽出により、処理コストは増加するが、起動命令を受けたモジュールの特定の位置のみで処理を行うため、処理コストの増加は最低限で抑えることができる。
【0100】
本実施形態では、この処理部において口の抽出は行わず、変動に対応した目の抽出のみを行っている。さらに高精度な特徴抽出を求めるのであれば、変動に対応した口の抽出を行ってもよいし、部分特徴抽出部1004で抽出した特徴以外の種類の特徴を抽出するようにしてもよい。
【0101】
さらに、ここでの特徴抽出は、部分特徴抽出部1004とは異なり、局所特徴抽出部1003で抽出された、局所特徴抽出結果に加えて、部分特徴抽出部1004において抽出された目、口等の部分特徴抽出結果、及び第1の顔抽出1005において抽出された、第1の顔抽出結果も利用して、目の抽出を行う。第2の実施形態においても述べたように、同レベルの特徴である同階層内の特徴抽出結果や、上位レベルの特徴である上位階層の特徴抽出結果を補助的に利用することで、さらに精度の高い特徴抽出処理が可能になる。
【0102】
第2の顔抽出部1009は、基本的には、第2の実施形態における、第2の顔抽出部809と同様の処理を行う。第2の実施形態での第2の顔抽出部809との違いは、第2の部分特徴抽出部1004において、起動される顔抽出モジュールに対応する、変動に対応した部分特徴抽出が行われた場合、部分特徴抽出部1004において抽出された部分特徴抽出結果を用いて顔抽出をするのではなく、第2の部分特徴抽出部1004において抽出された変動に対応した部分特徴抽出結果を利用して、顔抽出を行う点にある。
【0103】
本実施形態では、第2の部分特徴抽出部1004においては、目のみの抽出を行っているため、口の抽出結果は、部分特徴抽出部1004での抽出結果を用いる。上記の第2の部分特徴抽出部1004において説明したように、例えば、正面向きの顔抽出モジュールに対応する部分特徴抽出モジュールが存在しないという場合、正面向きの顔抽出モジュールに対して起動命令が発せられた時は、第2の部分特徴抽出部1004における特徴の再抽出は行われない。
【0104】
このような場合は、部分特徴抽出部1004の特徴抽出結果をそのまま用いるというようにすればよい。本実施形態では、起動される顔抽出モジュールに対応する、変動に対応した部分特徴抽出が行われた場合、部分特徴抽出部1004により抽出された目の抽出結果は用いないが、さらなる精度向上のため、この特徴抽出結果も補助的に用いるというようにしてもよい。
【0105】
以上、第3の実施形態は、第2の実施形態の変形として、入力データとして2次元画像データを用い、その画像内において、ある特定の対象を検出する方法において、顔を検出する例として説明した。
【0106】
(第4の実施形態)
本発明の第4の実施形態は、結果統合処理を変更したものである。
【0107】
図13は、本実施形態における結果統合処理の概要を示す図である。特徴抽出面13は、図1に示したものと同様である。特徴抽出器14は図1につき説明した特徴抽出器であり、それぞれの出力(その位置における対応する特徴の尤度)Output(x)を特徴抽出結果として出力する。
【0108】
まず図13の(A)を用いて、結果統合処理の概要を説明する。特徴抽出器14aは被興奮もしくは被抑制特徴抽出器である。特徴抽出器14bは興奮を与え、特徴抽出器14cは抑制を与える。これらの特徴抽出器14は、入力データに対して同位置の異なる特徴を抽出する。
【0109】
ここで、被興奮もしくは被抑制特徴抽出器14aによって抽出される特徴は、興奮を与える特徴抽出器14bで抽出される特徴と類似度が高く、抑制を与える特徴抽出器14cで抽出される特徴とは類似度が低い。このような場合に、被興奮もしくは被抑制特徴抽出器14aの出力Output(q)は、興奮を与える特徴抽出器14bの出力Output(r)に所定重みαを乗じた値が加算され、さらに抑制を与える特徴抽出器14cの出力Output(p)に所定重みβを乗じた値が減算される。このような結果統合処理を行うことで、低処理コストで誤識別が生じる可能性を低減させることが可能になる。
【0110】
次に図13の(B)を用いて、結果統合処理の概要を説明する。仮想的特徴抽出面15は、多数の仮想的特徴抽出器16で構成されている。図13の(B)の特徴抽出器14e、14fは、統合に用いる特徴抽出器であり、仮想的特徴抽出器16aは統合された仮想的特徴抽出器である。ここでは、統合に用いる特徴抽出器14eと14fとで抽出される特徴は、同一種類であるが、変動クラス(例えばサイズ)が異なる。
【0111】
このような場合に、統合された仮想的特徴抽出器16aの出力Output(q)を、各統合に用いる特徴抽出器14eと14fのそれぞれの出力Output(r)、Output(p)の平均値、もしくは所定の重み付け加算値とする。このような結果統合処理を行うことで、低処理コストで入力パターンの変動に対して頑健な識別が可能になる。
【0112】
なお、上述した各実施形態を適宜組み合わせて実施することも可能である。
【0113】
以上の説明した各実施形態によれば、入力パターンの変動に対して頑健な識別が可能であり、誤識別が生じる可能性を低減させながら、より処理コストの少ないパターン認識を行うことが可能となる。
【0114】
<ソフトウエアなどによる他の実施形態>
本発明は、複数の機器(例えばホストコンピュータ、インターフェース機器、リーダ、プリンタ等)から構成されるシステムの一部として適用しても、ひとつの機器(たとえば複写機、ファクシミリ装置)からなるものの一部に適用してもよい。
【0115】
また、本発明は上記実施形態を実現するための装置及び方法及び実施形態で説明した方法を組み合わせて行う方法のみに限定されるものではなく、上記システムまたは装置内のコンピュータ(CPUあるいはMPU)に、上記実施形態を実現するためのソフトウエアのプログラムコードを供給し、このプログラムコードに従って上記システムあるいは装置のコンピュータが上記各種デバイスを動作させることにより上記実施形態を実現する場合も本発明の範疇に含まれる。
【0116】
またこの場合、前記ソフトウエアのプログラムコード自体が上記実施形態の機能を実現することになり、そのプログラムコード自体、及びそのプログラムコードをコンピュータに供給するための手段、具体的には上記プログラムコードを格納した記憶媒体は本発明の範疇に含まれる。
【0117】
この様なプログラムコードを格納する記憶媒体としては、例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0118】
また、上記コンピュータが、供給されたプログラムコードのみに従って各種デバイスを制御することにより、上記実施形態の機能が実現される場合だけではなく、上記プログラムコードがコンピュータ上で稼働しているOS(オペレーティングシステム)、あるいは他のアプリケーションソフト等と共同して上記実施形態が実現される場合にもかかるプログラムコードは本発明の範疇に含まれる。
【0119】
更に、この供給されたプログラムコードが、コンピュータの機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードや機能格納ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって上記実施形態が実現される場合も本発明の範疇に含まれる。
【0120】
図12は、本発明を実現する情報処理装置のブロック構成例を示す図である。同図に示すように、この情報処理装置は、CPU1201、ROM1202、RAM1203、HD(ハードディスク)1204、CD1205、KB(キーボード)1206、CRT1207、カメラ1208、ネットワークのインターフェース(I/F)1209が、バス1210を介して互いに通信可能に接続されて構成されている。
【0121】
CPU1201は、情報処理装置全体の動作制御を司るものであり、HD(ハードディスク)1204等から処理プログラム(ソフトウェアプログラム)を読み出して実行することで、情報処理装置全体を制御する。
【0122】
ROM1202は、プログラムやプログラム内で用いられる各種データ等を記憶する。
【0123】
RAM1203は、CPU1201での各種処理のために、一時的に処理プログラムや処理対象の情報を格納するための作業用エリア等として使用される。
【0124】
HD1204は、大容量記憶装置の一例としての構成要素であり、モデルデータなどの各種データ、あるいは各種処理の実行時にRAM1203等へ転送される処理プログラム等を保存する。
【0125】
CD(CDドライブ)1205は、外部記憶媒体の一例としてのCD(CD−R)に記憶されたデータを読み込み、また、当該CDへデータを書き出す機能を有する。
【0126】
キーボード1206は、情報処理装置に対する各種指示等をユーザが入力するための操作部である。
【0127】
CRT1207は、ユーザへの各種指示情報や、文字情報或いは画像情報等の各種情報の表示を行う。
【0128】
カメラ1208は、識別対象画像を撮像して入力する。
【0129】
インターフェース1209は、ネットワークから情報を取り込んだり、ネットワークへ情報を発信したりするために用いられる。
【図面の簡単な説明】
【0130】
【図1】第1の実施形態にかかるパターン識別装置の基本構成を示す図である。
【図2】第1の実施形態におけるパターン識別装置の機能構成を示す図である。
【図3】第1の実施形態における処理の流れを示すフローチャートである。
【図4】第1の実施形態における、識別カテゴリとしての顔存在画像を示す図である。
【図5】4種類の初期特徴抽出結果を示す図である。
【図6】抽出すべき各局所特徴の存在する位置における、各初期特徴抽出結果を示す図である。
【図7】基本的なConvolutional Neural Networkの構成を示す図である。
【図8】第2の実施形態におけるパターン識別装置の機能構成を示す図である。
【図9】第2の実施形態における処理の流れを示すフローチャートである。
【図10】第3の実施形態におけるパターン識別装置の機能構成を示す図である。
【図11】第3の実施形態における処理の流れを示すフローチャートである。
【図12】本発明を実現するコンピュータのブロック構成を示す図である。
【図13】第4の実施形態における統合処理を説明する図である。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013