Warning: copy(.htaccess): failed to open stream: Permission denied in /home/jp321/public_html/header.php on line 8
画像認識装置、方法およびプログラム - 株式会社東芝
米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 株式会社東芝

発明の名称 画像認識装置、方法およびプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−4767(P2007−4767A)
公開日 平成19年1月11日(2007.1.11)
出願番号 特願2005−268983(P2005−268983)
出願日 平成17年9月15日(2005.9.15)
代理人 【識別番号】100109900
【弁理士】
【氏名又は名称】堀口 浩
発明者 小坂谷 達夫
要約 課題
3次元形状を用いて物体を認識する。

解決手段
対象となる画像を入力する画像入力部12と、入力された画像内から物体を検出する物体検出部14と、検出された物体と予め保持してある3次元形状情報を用いて3次元モデルを生成するモデル生成部16と、3次元顔モデルからパターン画像を生成するパターン生成部18と、生成したパターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを具備する。
特許請求の範囲
【請求項1】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、
前記画像が入力される画像入力手段と、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持手段と、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成手段と、
前記3次元モデルを異なる向きで平面に射影した複数のパターン画像を生成するパターン生成手段と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、
前記物体の特徴量を登録しておく登録辞書保持手段と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、
を有する
ことを特徴とする画像認識装置。
【請求項2】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、
前記画像が入力される画像入力手段と、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持手段と、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成手段と、
前記3次元モデルに対して2次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動手段と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、
前記物体の特徴量を登録しておく登録辞書保持手段と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、
を有する
ことを特徴とする画像認識装置。
【請求項3】
前記モデル生成手段は、
前記入力画像から特徴点を抽出する物体検出手段と、
前記入力画像と前記3次元形状情報から前記3次元モデルのテクスチャを推定するテクスチャ推定手段と、
前記テクスチャと前記3次元形状情報から前記3次元モデルを計算する計算手段と、
を有する
ことを特徴とする請求項1または2記載の画像認識装置。
【請求項4】
前記テクスチャ推定手段は、前記入力画像の特徴点と対応する前記3次元形状情報における特徴点から計算される射影行列により前記3次元モデルのテクスチャを推定する
ことを特徴とする請求項3記載の画像認識装置。
【請求項5】
前記特徴抽出手段は、前記パターン画像から主成分分析を行うことで特徴量を抽出する
ことを特徴とする請求項1または2記載の画像認識装置。
【請求項6】
前記類似度計算手段は、前記抽出された特徴量の一つである部分空間と前記登録された物体の特徴量の一つである部分空間の間の角度を類似度として計算する
ことを特徴とする請求項1または2記載の画像認識装置。
【請求項7】
前記物体検出手段は、前記入力画像から人間の顔における瞳、鼻孔、口端、目尻、目頭、鼻頭、口輪郭、口中点、眉端、顔輪郭、および、顎のうちの少なくとも一つを特徴点として抽出する
ことを特徴とする請求項1または2記載の画像認識装置。
【請求項8】
前記物体検出手段により検出された物体に対して適切な3次元形状情報を、前記登録辞書保持手段に登録された3次元形状情報から選択する
ことを特徴とした請求項3記載の画像認識装置。
【請求項9】
前記パターン生成手段、または、前記テクスチャ摂動手段により生成された前記パターン画像について検証を行うパターン検証手段を有する
ことを特徴とした請求項1または2記載の画像認識装置。
【請求項10】
前記3次元形状保持手段にある3次元形状情報は、
前記物体の3次元形状情報を計測する形状入力手段と、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく参照形状情報保持手段と、
前記入力形状と参照形状情報とを用いて3次元形状情報を正規化する形状正規化手段により求める
ことを特徴とした請求項1〜7または9記載の画像認識装置。
【請求項11】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法において、
前記画像が入力される画像入力ステップと、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持ステップと、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成ステップと、
前記3次元モデルを異なる向きで平面に射影した複数のパターン画像を生成するパターン生成ステップと、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出ステップと、
前記物体の特徴量を登録しておく登録辞書保持ステップと、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算ステップと、
を有する
ことを特徴とする画像認識方法。
【請求項12】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法において、
前記画像が入力される画像入力ステップと、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持ステップと、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成ステップと、
前記3次元モデルに対して2次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動ステップと、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出ステップと、
前記物体の特徴量を登録しておく登録辞書保持ステップと、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算ステップと、
を有する
ことを特徴とする画像認識方法。
【請求項13】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法をコンピュータによって実現するプログラムにおいて、
前記画像が入力される画像入力機能と、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持機能と、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成機能と、
前記3次元モデルを異なる向きで平面に射影した複数のパターン画像を生成するパターン生成機能と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出機能と、
前記物体の特徴量を登録しておく登録辞書保持機能と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算機能と、
を実現する
ことを特徴とする画像認識方法のプログラム。
【請求項14】
3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法をコンピュータによって実現するプログラムにおいて、
前記画像が入力される画像入力機能と、
前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持機能と、
前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成機能と、
前記3次元モデルに対して2次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動機能と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出機能と、
前記物体の特徴量を登録しておく登録辞書保持機能と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算機能と、
を実現する
ことを特徴とする画像認識方法のプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、3次元形状情報を用いて入力された画像から3次元モデルを生成し、認識処理を行う画像認識装置及びその方法に関する。
【背景技術】
【0002】
顔画像を用いた認識は、物理的な鍵やパスワードと違い紛失や忘却の心配がないため、セキュリティの面で非常に有用な技術である。しかしながら、ユーザの立ち位置や体格などの個人差により顔の形状は変化する上、顔の向きも一定ではなく、認識時の照明条件も予め決まっていない。そのため、高精度な認識を行うためには、これらに起因する顔パターンの変動を吸収することが不可欠である。
【0003】
これまで顔画像を用いて個人識別を行う技術としては、例えば非特許文献1の方法などがある。これは動画像を用いることにより顔パターンの変動を抑え、認識を行う方法である。高精度な認識を行うためには動画像から個人の多様な顔パターンを集めることが重要であるが、パターン収集はユーザ自身の顔の動きに依存しているという問題がある。また、入力と辞書の両方に複数枚の画像が必要なため、例えば、写真1枚のみしか認識に利用できない状況ではこの方法は適用できない。
【0004】
特許文献1の方法では、予め顔の3次元形状を撮影するレンジファインダを用いて計測しておき、照合対象の顔向きと同じになるように顔形状を移動・回転させて照合を行う。個人毎に正確な形状を撮影するために、顔の向きや大きさを補正して照合を行うことができるが、形状を撮影するためには特殊な機材が必要となる。また、例えばパスポートや免許証など、既に通常のカメラで撮影されている画像に関しては形状が得られないため、この方法は適用できない。
【0005】
非特許文献2の方法によれば、多数の顔形状を予め撮影しておき、それらの線形結合によって入力画像に最も近い顔のモデルを作成し、認識を行うことができる。画像1枚から顔の形状、向き、大きさ、照明条件を推定することができるが、生成される顔モデルの3次元形状情報は予め撮影した顔形状に依存するため、任意の顔に精度良く適用できるとは限らない。また、多数のパラメータを推定し、識別を行うため処理時間がかかる。
【非特許文献1】山口、福井、「顔向き表情変化にロバストな顔認識システム‘smartface’」, 信学論 (D-II), vol.J84-D-II, No.6,p.1045-1052,2001.
【非特許文献2】V. Blanz and T. Vetter, "A morphable model for the synthesis of 3-D faces," in Proc. SIGGRAPH,1999,pp.187--194.
【特許文献1】特開2002−157595公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上記したように、人物の顔パターンの多様な変動を吸収するためには、多様な顔パターンを何らかの方法で収集もしくは生成して識別を行う方法が有効であるが、従来技術では、複数枚の画像を撮影したり、特殊な機材を必要としたり、適用できる顔が限定されるといった問題があった。
【0007】
本発明は、上記従来技術の問題点を解決するためになされたものであり、3次元形状情報を利用した3次元顔モデル生成によって、任意の枚数の画像から一般的なカメラを用いて任意の顔に適用可能な画像認識装置及びその方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
請求項1に係る発明は、3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、前記画像が入力される画像入力手段と、前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持手段と、前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成手段と、前記3次元モデルを異なる向きで平面に射影した複数のパターン画像を生成するパターン生成手段と、前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、前記物体の特徴量を登録しておく登録辞書保持手段と、前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、を有することを特徴とする画像認識装置である。
【0009】
請求項2に係る発明は、3次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、前記画像が入力される画像入力手段と、前記物体の3次元モデルの原型となる3次元形状情報を記憶しておく3次元形状情報保持手段と、前記入力画像と前記3次元形状情報とを用いて3次元モデルを生成するモデル生成手段と、前記3次元モデルに対して2次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動手段と、前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、前記物体の特徴量を登録しておく登録辞書保持手段と、前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、を有することを特徴とする画像認識装置である。
【発明の効果】
【0010】
本発明によれば、3次元形状情報を利用して3次元モデルを生成することによって、任意の枚数の画像から一般的なカメラを用いて高精度に認識することが可能である。
【発明を実施するための最良の形態】
【0011】
[第1の実施形態]
以下、図1〜図2を参照して本発明に係わる第1の実施形態の画像認識装置10について述べる。
【0012】
[1]画像認識装置10の構成
本実施形態の画像認識装置10は、図1のブロック図に示すように、対象となる人物の顔を入力する画像入力部12と、入力された画像内から人物の顔を検出する物体検出部14と、検出された顔と予め保持してある3次元形状情報を用いて3次元顔モデルを生成するモデル生成部16と、3次元顔モデルから顔パターン画像を生成するパターン生成部18と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを備えている。
【0013】
以下、図1を用いて、画像認識装置10の動作について説明する。
【0014】
[2]画像入力部12
まず、画像入力部12は、処理対象となる顔画像を入力する。画像入力部12を構成する装置の一つの例として、USBカメラやデジタルカメラ等が挙げられる。また、予め撮影、保存された顔画像データを保持している記録装置やビデオテープ、DVD等を用いても良いし、顔写真をスキャンするスキャナでも良い。ネットワーク等を経由して画像を入力しても構わない。
【0015】
画像入力部12より得られた画像は、物体検出部14に逐次送られる。
【0016】
[3]物体検出部14
物体検出部14では、顔特徴点として、画像中の顔部位の座標を検出する。顔特徴点の検出はどのような方法を用いても構わないが、例えば、非特許文献3(福井、山口、「形状抽出とパターン照合の組合せによる顔特徴点抽出」, 信学論(D-II) vol.J80-D-II, No.9, p.2170-2177,1997.)の方法を用いて検出することができる。
【0017】
検出する特徴点は、同一平面状に存在しない4点以上の点であれば、瞳、鼻孔、口端、目尻、目頭、鼻頭、口輪郭、口中点、眉端、顔輪郭、顎のどのような部位でも良い。また、出力する特徴点は複数組あってもかまわない。たとえば、検出された特徴点に対して任意の方向に摂動させた別の特徴点を計算し、出力することができる。このとき、モデル生成とパターン生成の処理を出力した特徴点の組の数だけ行い、特徴抽出部20において統合することで、出力した特徴点の組の数によらず処理を行うことができる。
【0018】
[4]モデル生成部16
モデル生成部16では、予め保持している3次元形状情報を利用して、3次元顔モデルを生成する。
【0019】
この3次元形状情報は、認識対象である人間の顔の3次元モデルの原型となる3次元形状の座標が記憶され、特に瞳、鼻孔、口端などの顔特徴点の各点の座標(xi’,yi’,zi’)が記憶されている。
【0020】
物体検出部14から得られた顔特徴点(xi,yi)と、対応するモデル上の顔特徴点(xi’,yi’,zi’)を用いて、カメラ運動行列Mは(1)式、(2)式及び(3)式により定義される。
【数1】


【0021】
ただし、(A)式は入力画像上での特徴点の重心であり、(B)式は3次元顔モデル上での特徴点の重心である。(3)式の行列Sの一般化逆行列である(C)式の行列を計算することで、(4)式に基づいてカメラ運動行列Mが算出される。
【0022】
次に算出されたカメラ運動行列Mを用いて、入力画像から3次元顔モデルのテクスチャを推定する。3次元モデル上の任意の座標(x’,y’,z’)は、(5)式により対応する入力画像上の座標(s,t)に変換することができる。なお、テクスチャとは、座標毎に貼られる色などの画像情報である。
【数2】


【0023】
従って、3次元モデル上の座標(x’,y’,z’)におけるテクスチャ画像の画素値T(x’,y’,z’)は、入力画像上の画素値I(x,y)を用いて(6)式によって定義される。
【数3】


【0024】
(5)式及び(6)式について、テクスチャ画像上の全ての画素について計算することで、テクスチャ画像を算出することができる。このテクスチャ画像と3次元形状情報を3次元顔モデルとする。
【0025】
[5]パターン生成部18
次に、パターン生成部18では、得られた3次元顔モデルを用いて顔パターン画像を生成する。
【0026】
3次元顔モデルを任意の姿勢にしてコンピュータグラフィックスの技術を用いてレンダリングし、任意の姿勢に対する顔パターン画像を抽出することができる。姿勢をいくつか変えて複数の顔パターン画像を生成する。図2は、3次元モデルの姿勢を変えてパターン画像を生成した場合の概念図である。なお、顔パターン画像とは、顔の3次元モデルを複数の異なる向きで平面に射影した画像である。
【0027】
どのように姿勢を変更しても構わないが、例えば、顔の縦向きや横向きに−5度から+5度の範囲で1度ずつ変更したり、カメラ運動行列からモデルの角度を算出して、そのモデルの角度から相対的に角度を変更したりして顔パターン画像を抽出しても良い。
【0028】
これら角度のパラメータは、レンダリングの結果、顔が見えるような範囲であれば、どのような値を用いても構わない。
【0029】
なお、レンダリング後の顔特徴点の座標は幾何学的に計算できることから、レンダリングした結果から任意の顔特徴点を基準として顔パターン画像を抽出することができる。
【0030】
[6]特徴抽出部20
次に、特徴抽出部20により、識別に必要な特徴を抽出する。
【0031】
パターン生成部18によって複数の顔パターン画像が得られているので、これらを例えば、画素値を要素とする特徴ベクトルとみなして一般的に知られるK−L展開を行い、得られた正規直交ベクトルを入力画像に対応する人物の特徴量とする。
【0032】
人物の登録時には、この特徴量を記録しておく。この特徴ベクトルの要素の選び方や生成方法はどのように行っても良いし、特徴ベクトルに対して微分処理やヒストグラム平坦化などのいかなる画像処理を行っても良いし、特徴量生成方法もこれに限らない。
【0033】
[7]類似度計算部24
次に、類似度計算部24では、予め計算された特徴量と特徴抽出部20で計算された入力に対する特徴量との類似度を計算する。
【0034】
この類似度計算についてはどのような方法を用いても構わないが、例えば、非特許文献1に述べられている相互部分空間法などがある。このような認識方法により顔特徴量同士の類似度を算出することができる。その類似度をある所定の閾値で判定し、人物を同定する。閾値は事前の認識実験などで定めた値でも良いし、人物の特徴量に応じて増減させることもできる。
【0035】
[8]本実施形態の効果
このように、第1の実施形態に係わる画像認識装置10によれば、3次元形状情報を利用して3次元顔モデルを生成することによって、任意の枚数の画像から一般的なカメラを用いて高精度に認識することが可能である。
【0036】
[第2の実施形態]
図3〜図4を参照して本発明に係わる第2の実施形態の画像認識装置10について述べる。
【0037】
[1]画像認識装置10の構成
本実施形態の画像認識装置10は、図3のブロック図に示すように、対象となる人物の顔を入力する画像入力部12と、入力された画像内から人物の顔を検出する物体検出部14と、検出された顔と予め保持してある3次元形状情報を用いて3次元顔モデルを生成するモデル生成部16と、テクスチャから複数の顔パターン画像を生成するテクスチャ摂動部26と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを備えている。
【0038】
なお、画像入力部12、物体検出部14、3次元形状情報、モデル生成部16、特徴抽出部20、登録辞書22、類似度計算部24は第1の実施形態に記載してあるものと同じである。
【0039】
[2]テクスチャ摂動部26
次に、本実施形態の特徴的な部分であるテクスチャ摂動部26について説明する。
【0040】
テクスチャ摂動部26では、モデル生成部16から得られたテクスチャを用いて複数の顔パターン画像を生成する。得られたテクスチャ上での座標と3次元顔モデル上での座標は対応が取れているので、テクスチャにおける顔特徴点の座標は既知である。このテクスチャにおける顔特徴点の座標を用いて顔パターン画像を切り出す。
【0041】
このとき顔特徴点に関しては、物体検出部14から得られた顔特徴点に限らず、モデル生成時に3次元的に全ての座標において対応が取れているため、顔の任意の点を顔特徴点として選び直すこともできる。
【0042】
顔パターン画像の切り出し方法に関しては、両目の間隔が等しくなるように正規化してもよいし、特徴点の重心がパターン画像の中央に来るようにしても良いし、どのような切り出し方でも構わない。
【0043】
また、上下左右など任意の方向にパターン画像を伸縮させても構わない。
【0044】
また、切り出す際の顔特徴点の座標を任意の方向に摂動させることによって、別の顔パターン画像を生成することができる。摂動させる量はどのような範囲でも構わない。
【0045】
また、摂動させる顔特徴点の種類に関しても、1つまたは全ての特徴点を任意に組み合わせることができ、摂動させる方向についても画像に対して垂直や水平だけでなく、任意の方向に摂動させることができる。例えば、顔特徴点として両目を選んだときに、水平、垂直方向にそれぞれ−2〜+2ピクセルの範囲で摂動させると、モデル生成部16から得られたテクスチャから、625枚の顔パターン画像を生成することができる。図4は、テクスチャ画像を2次元的に変形させた場合の概念図である。
【0046】
[3]本実施形態の効果
このように、第2の実施形態に係わる画像認識装置10によれば、生成した3次元顔モデルから、コンピュータグラフィックスの技術に基づいてレンダリングせずに、テクスチャから複数の顔パターン画像を生成することによって、高速に認識することが可能である。
【0047】
[第3の実施形態]
図5を参照して本発明に係わる第3の実施形態の画像認識装置10について述べる。
【0048】
[1]画像認識装置10の構成
本実施形態の画像認識装置10は、図5のブロック図に示すように、対象となる人物の顔を入力する画像入力部12と、入力された画像内から人物の顔を検出する物体検出部14と、予め保持してある3次元形状情報と、物体検出部14からの結果を用いて適切な3次元形状情報を選択する形状選択部28と、形状選択部28から得られる3次元形状情報を用いて3次元顔モデルを生成するモデル生成部16と、3次元顔モデルから顔パターン画像を生成するパターン生成部18と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを備えている。
【0049】
なお、画像入力部12、物体検出部14、3次元形状情報、モデル生成部16、パターン生成部18、特徴抽出部20、登録辞書22、類似度計算部24は第1の実施形態に記載してあるものと同じである。
【0050】
[2]形状選択部28
次に、本実施形態の特徴的な部分である形状選択部28について説明する。
【0051】
形状選択部28では、物体検出部14から得られた特徴点に基づいて、予め保持してある複数の3次元形状情報から適切なものを選択する。
【0052】
物体検出部14から特徴点が得られたときに、それらの特徴点に関する位置関係について、予め3次元形状でも同じ特徴点の距離を測っておき、複数ある3次元形状から最もその距離が近いものを出力する。
【0053】
特徴点や距離計算の尺度はどのように選択しても構わない。例えば、目と鼻の距離を計算しておき、その比が最も近い3次元形状を出力する。
【0054】
また、顔の幾何学的な構造だけでなく、男女や人種などが情報として与えられている場合には、それに基づいて男女別や人種別などの3次元形状を用意して適合する3次元形状を出力することもできる。このとき、パターンマッチング等を利用して、男女や人種などの判断を自動的に行ってもよい。
【0055】
また、出力する3次元形状を1つに絞らず、3次元形状選択の際の閾値を満たす、または全ての3次元形状を出力し、モデル生成などの以降の処理を出力したモデルの分だけ行い、特徴抽出部20において統合しても良い。特徴抽出部20においてはパターン生成部18から複数の画像を統合することができるので、モデルの数や出力されるパターン画像の数によらず、モデル1つのときと全く同様に特徴抽出することができる。
【0056】
[3]本実施形態の効果
このように、第3の実施形態に係わる画像認識装置10によれば、入力された画像に対して適切な3次元形状を選択することで、より高精度に認識を行うことが可能である。
【0057】
[第4の実施形態]
図6を参照して本発明に係わる第4の実施形態の画像認識装置10について述べる。
【0058】
[1]画像認識装置10の構成
本実施形態の画像認識装置10は、図6のブロック図に示すように、対象となる人物の顔を入力する画像入力部12と、入力された画像内から人物の顔を検出する物体検出部14と、検出された顔と予め保持してある3次元形状情報を用いて3次元顔モデルを生成するモデル生成部16と、3次元顔モデルから顔パターン画像を生成するパターン生成部18と、生成した顔パターン画像を用いて物体検出部14から得られた特徴点を検証するパターン画像検証部30と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを備えている。
【0059】
なお、画像入力部12、物体検出部14、3次元形状情報、モデル生成部16、パターン生成部18、特徴抽出部20、登録辞書22、類似度計算部24は第1の実施形態に記載してあるものと同じである。
【0060】
[2]パターン画像検証部30
次に、本実施形態の特徴的な部分であるパターン画像検証部30について説明する。
【0061】
パターン画像検証部30では、モデル生成部16から得られる顔モデルを用いて、特徴抽出部20で得られた顔特徴点が正しいかどうか検証する。
【0062】
(4)式で計算されるカメラ運動行列からモデルの角度を参照角度として推定し、モデル生成部16で得られる3次元顔モデルを参照角度に回転してコンピュータグラフィックスの技術に基づいてレンダリングする。
【0063】
このとき、検出された特徴点が正しい位置からずれて誤って抽出された場合には、レンダリング結果は画像入力部12で入力された画像や標準的な顔パターンとは大きく異なって出力される。このパターン画像の違いを検証し、ある閾値を超えた場合には、特徴点検出が誤りであるとして、再度特徴点検出を行う。パターン画像の違いについては、どのような方法を用いても構わない。例えば、2つのパターン画像の輝度差の絶対値の総和(SAD; Sum of Absolute Difference)などが利用できる。
【0064】
また、レンダリングしたパターン画像の全体について検証しても構わないし、ある注目する特徴点の近傍のみについて検証しても構わないし、特徴点の近傍を複数組み合わせても良い。
【0065】
[3]本実施形態の効果
このように、第4の実施形態に係わる画像認識装置10によれば、生成した3次元顔モデルから、検出された顔特徴点を検証することができ、より高精度に認識を行うことが可能である。
【0066】
[第5の実施形態]
図7および図8を参照して本発明に係わる第5の実施形態の画像認識装置について述べる。
【0067】
[1]画像認識装置10の構成
本実施形態の画像認識装置10は、図7のブロック図に示すように、対象となる人物の顔を入力する画像入力部12と、入力された画像内から人物の顔を検出する物体検出部14と、対象となる人物の顔の3次元形状を入力する形状入力部72と、予め保持してある参照形状情報74を用いて入力された顔形状を正規化する形状正規化部76と、検出された顔と正規化された3次元形状情報78を用いて3次元顔モデルを生成するモデル生成部16と、3次元顔モデルから顔パターン画像を生成するパターン生成部18と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部20と、予め登録してある登録辞書22との類似度を計算する類似度計算部24とを備えている。
【0068】
なお、画像入力部12、物体検出部14、モデル生成部16、パターン生成部18、特徴抽出部20、登録辞書22、類似度計算部24は第1の実施形態に記載してあるものと同じである。
【0069】
[2]形状入力部72
形状入力部72では、レンジファインダなど物体の3次元形状を計測可能な装置により取得された対象となる人物の顔の3次元形状(図8の入力形状82)が入力される。レンジファインダには、3次元形状だけでなく、撮影した物体の画像も同時に取得できるものもあるため、画像入力部12と形状入力部72を同一の機器で構成してもかまわない。また、複数の画像からステレオ法により形状を求めてもかまわないし、認識対象の形状を求める方法についてはこれらに限らない。
【0070】
本実施形態の形状入力部72に入力される形状は、奥行き(z座標値)を画素値とする画像(デプスマップ)であるとする。
【0071】
尚、形状入力部72に、形状を構成する複数の頂点と頂点間の結合関係が記述されたメッシュ構造(例えばVRML(Virtual Reality Modeling Language))が入力されても構わない。この場合、形状入力部72は、任意の座標における奥行きをメッシュ構造の複数の頂点からの線形関数やスプライン関数などで補間することによりデプスマップを求める。
【0072】
[3]形状正規化部76
図8は、入力形状82からの形状正規化における概念図である。形状正規化部76は、形状入力部72で入力された3次元形状である入力形状82を、予め保持されている参照形状情報74を用いて正規化することにより、3次元形状情報78を生成する。
【0073】
まず、形状正規化部76は入力形状82上の特徴点を抽出する。抽出する特徴点の種類は、同一平面状に存在しない4点以上の点であれば、瞳、鼻孔、口端、目尻、目頭、鼻頭、口輪郭、口中点、眉端、顔輪郭、顎のどのような部位でも良い。物体検出部14で抽出する特徴点と同じでも良いし、異なっていても良い。
【0074】
入力画像84と入力形状82との対応が取れている場合には、物体検出部14が入力画像84から検出した特徴点(図8の特徴点85)をそのまま用いることができる。もし、入力画像84と入力形状82の対応が取れていない場合は、例えばパターンマッチングにより入力形状82上の特徴点を抽出する。あるいは、ポインティングデバイスを用いて人間が指定しても構わない。
【0075】
先に述べたように入力形状82は画像とみなすことができる。よって、形状正規化部76は、入力形状82または入力画像84から抽出された特徴点85と、入力形状82と、予め保持してある参照形状情報74とを用いて、前述のモデル生成部16と同じ処理を行うことにより、モデルを生成することができる。
【0076】
生成されたモデルのテクスチャ画像はz座標を輝度値とする画像である。形状正規化部76は、これを正規化された3次元形状である3次元形状情報78に変換する。本実施形態のモデル生成部16は、入力画像84の顔モデルを生成する際には、3次元形状形状78を用いる。
【0077】
なお、参照形状情報74はどのようなものを用いてもかまわない。例えば、第1の実施例で述べた、認識対象である人間の一般的な顔の3次元形状を利用することができる。また、正規化された入力形状の平均から新しい参照形状を作成し、再度入力形状を生成しなおすという繰り返し処理を行うことで、正規化の精度を高めることもできる。
【0078】
[4]本実施形態の効果
このように、第5の実施形態に係わる画像認識装置によれば、参照形状情報74を用いて個人ごとに3次元形状情報を正規化し、この正規化された個人ごとの3次元形状情報78に従って顔モデルを生成することができ、より高精度に認識を行うことが可能である。
【0079】
[変更例]
画像入力部において、レンジファインダなどの3次元形状を計測可能な装置から、奥行きを画素値とする画像(デプスマップ)を入力してもかまわない。その場合、登録辞書もデプスマップから生成した特徴量を用いて類似度の計算を行う。
【0080】
モデル生成部において、(3)式からカメラ運動行列を求める際に、一般化逆行列を求める方法だけでなく、いかなる方法を用いてもかまわない。例えば、ロバスト推定のひとつであるM推定を用いて、以下のようにしてカメラ運動行列を求めることができる。
【数4】


【0081】
カメラ運動行列の推定誤差ε_{M}を(7)式のように定義すると、(8)式に示すように評価基準関数ρ(x)に従って推定誤差を最小にするような<M>を解いて、カメラ運動行列とする。なお「<M>」とは文字「M」の上にチルダ(tilde)を付けた文字である。評価基準関数ρ(x)はどのようなものを用いてもかまわないが、例えば(9)式などが知られている。なお(9)式のσはスケールパラメータである。
【0082】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
【0083】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【0084】
さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0085】
例えば、上記各実施形態では、人間の顔を対象として画像認識を行ったが、これに代えて、他の3次元物体の画像認識に用いても良い。3次元物体としては、例えば、人間の全身、自動車、飛行機、船等の乗り物がある。
【図面の簡単な説明】
【0086】
【図1】本発明の第1の実施形態の構成を示すブロック図である。
【図2】3次元モデルからのパターン画像生成における概念図である。
【図3】本発明の第2の実施形態の構成を示すブロック図である。
【図4】テクスチャ画像からのパターン画像生成における概念図である。
【図5】本発明の第3の実施形態の構成を示すブロック図である。
【図6】本発明の第4の実施形態の構成を示すブロック図である。
【図7】本発明の第5の実施形態の構成を示すブロック図である。
【図8】入力形状からの形状正規化における概念図である。
【符号の説明】
【0087】
10 画像認識装置
12 画像入力部
14 物体検出部
16 モデル生成部
18 パターン生成部
20 特徴抽出部
22 登録辞書
24 類似度計算部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013