米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 文字認識装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−73276
公開日 平成7年(1995)3月17日
出願番号 特願平5−221766
出願日 平成5年(1993)9月7日
代理人 【弁理士】
【氏名又は名称】松田 正道
発明者 小島 良宏 / 香田 敏行 / 丸野 進 / 〆木 泰治 / 山本 浩司 / 丹羽 寿男
要約 目的
認識時間が短縮でき高精度の認識性能を実現すること。

構成
複数の特徴抽出部12が文字ハ゜ターンから各々異なる特徴ヘ゛クトルを求め複数の単一特徴認識部13が各特徴ヘ゛クトルを個別に認識を行い候補文字選択部14が各単一特徴認識部13から得られた全ての類似度を用いて文字ハ゜ターンに対する複数の候補文字カテコ゛リを選択し認識後処理部15が最終的に認識文字カテコ゛リを決定する場合認識部13では大分類部21が文字ハ゜ターンに対する各カテコ゛リ群の群帰属度を複数の細分類部22が各文字カテコ゛リ群内での各文字カテコ゛リの群内類似度を求め群帰属度と群内類似度を用いて文字ハ゜ターンに対する各文字カテコ゛リの類似度を求め選択部14は変換部15が各認識部13からの各文字カテコ゛リの類似度を統合類似度に変換し第1次選択部16が統合類似度と文字ハ゜ターンサイス゛情報等を用いて複数の候補文字を選択し第2次選択部17がこれら候補文字の統合類似度を用いて各文字カテコ゛リの最終類似度を求めて最終的な候補文字カテコ゛リの選択を行なう
特許請求の範囲
【請求項1】 文書画像を入力する画像入力部と、前記画像入力部で入力された文書画像から文字を1文字領域づつ切り出して文字パターンを得る文字切り出し部と、前記文字パターンから各々異なる特徴ベクトルを求める複数の特徴抽出部と、前記文字パターンが各文字カテゴリに属する度合である類似度を前記特徴ベクトル各々から求める複数の単一特徴認識部と、複数の前記単一特徴認識部から得られた各文字カテゴリの類似度を、各同一文字カテゴリ毎に統合し、その結果を利用して認識文字カテゴリを決定する文字選択認識後処理部とを備え、前記単一特徴認識部は、前記特徴ベクトルが類似する文字パターンの集合から成る文字カテゴリ群を代表する群参照用特徴ベクトルが複数個記憶されている群辞書と、前記群参照用特徴ベクトルと前記文字パターンの特徴ベクトルを用いて文字パターンが各文字カテゴリ群に属する度合である群帰属度を計算するファジィ大分類部と、前記文字パターンの特徴ベクトルを用いて前記文字パターンが文字カテゴリ群内に含まれる各文字カテゴリに属する度合である群内類似度を求める複数の細分類部と、前記群帰属度から複数の文字カテゴリ群を選択する群選択部と、前記群選択部から得られる群選択情報に基づいて前記文字パターンの特徴ベクトルを入力する細分類部を選択する細分類部入力信号選択部と、前記群選択部で選択された文字カテゴリ群の群帰属度と前記細分類部で得られた群内類似度を用いて文字パターンに対する各文字カテゴリの類似度を求める単一特徴類似度計算部を備え、前記単一特徴類似度計算部は、前記群選択部で選択された文字カテゴリ群の群帰属度と前記細分類部入力信号選択部から前記文字パターンの特徴ベクトルを入力された前記細分類部から得られる全ての群内類似度を乗算する複数個の乗算器と、各文字カテゴリ毎に前記乗算器の出力値の大きいものを複数個選択し、これらの出力値の総和を求めるカテゴリ類似度計算部を備えることを特徴とする文字認識装置。
【請求項2】 文書画像を入力する画像入力部と、複数のパラメータ値を用いて前記画像入力部で入力された文書画像から文字を1文字領域づつ切り出して文字パターン及び文字パターンのサイズ情報、位置情報を得る文字切り出し部と、前記文字パターンから各々異なる特徴ベクトルを求める複数の特徴抽出部と、前記文字パターンが各文字カテゴリに属する度合である類似度を前記特徴ベクトル各々から求める複数の単一特徴認識部と、複数の前記単一特徴認識部から得られた各文字カテゴリの類似度を用いて前記文字パターンに対する複数の第2次候補文字カテゴリを求める候補文字選択部と、前記文字パターンのサイズ情報、位置情報を用いて前記複数の第2次候補文字カテゴリの中から認識文字カテゴリを決定する認識後処理部を具備し、前記単一特徴認識部は、前記特徴ベクトルが類似する文字パターンの集合から成る文字カテゴリ群を代表する群参照用特徴ベクトルが複数個記憶されている群辞書と、前記群参照用特徴ベクトルと前記文字パターンの特徴ベクトルを用いて文字パターンが各文字カテゴリ群に属する度合である群帰属度を計算するファジィ大分類部と、前記文字パターンの特徴ベクトルを用いて前記文字パターンが文字カテゴリ群内に含まれる各文字カテゴリに属する度合である群内類似度を求める複数の細分類部と、前記群帰属度から複数の文字カテゴリ群を選択する群選択部と、前記群選択部から得られる群選択情報に基づいて前記文字パターンの特徴ベクトルを入力する細分類部を選択する細分類部入力信号選択部と、前記群選択部で選択された文字カテゴリ群の群帰属度と前記細分類部で得られた群内類似度を用いて文字パターンに対する各文字カテゴリの類似度を求める単一特徴類似度計算部を備え、前記単一特徴類似度計算部は、前記群選択部で選択された文字カテゴリ群の群帰属度と前記細分類部入力信号選択部から前記文字パターンの特徴ベクトルを入力された前記細分類部から得られる全ての群内類似度を乗算する複数個の乗算器と、各文字カテゴリ毎に前記乗算器の出力値の大きいものを複数個選択し、これらの出力値の総和を求めるカテゴリ類似度計算部を備え、前記候補文字選択部は、前記特徴ベクトル各々に対応する前記単一特徴認識部から得られた各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化することによって統合類似度に変換する複数の統合類似度変換部と、前記統合類似度と前記文字パターンのサイズ情報、位置情報を用いて全ての文字カテゴリの中から複数の第1次候補文字カテゴリを選択する複数の第1次候補文字選択部と、各々選択された前記第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての前記第1次候補文字カテゴリの最終類似度を求め、この最終類似度の値の大きいものを第2次候補文字カテゴリとして複数個選択する第2次候補文字選択部を備えている、ことを特徴とする文字認識装置。
【請求項3】 認識後処理部は、各文字カテゴリ毎に文字パターンの標準サイズ情報と標準位置情報が記憶されている文字情報記憶部と、後処理対象文字カテゴリ集合が記憶されている後処理対象文字集合記憶部と、候補文字選択部から得られた第2次候補文字カテゴリの第1候補文字カテゴリと前記後処理対象文字集合記憶部に格納されている全ての後処理対象文字カテゴリ集合とを比較し、前記第1候補文字カテゴリが前記後処理対象文字カテゴリ集合である場合には、前記文字情報記憶部から前記後処理対象文字カテゴリ集合に対応する各文字カテゴリの標準サイズ情報と標準位置情報を読み出し、入力された文字パターンのサイズ情報、位置情報と各々比較することによって前記文字カテゴリ集合のいずれかの文字カテゴリを認識文字カテゴリと判定する後処理対象文字集合判定部を備え、前記第1次候補文字選択部は、前記文字情報記憶部に記憶されている文字カテゴリの標準サイズ情報、標準位置情報と入力された文字パターンのサイズ情報、位置情報とを比較することによって複数の第1次候補文字カテゴリを選択することを特徴とする請求項2記載の文字認識装置。
【請求項4】 第1次候補文字選択部は、前記統合類似度変換部から得られる各カテゴリの統合類似度が任意のしきい値より大きいカテゴリを選択したのちに、前記文字情報記憶部に記憶されている文字カテゴリの標準サイズ情報、標準位置情報と入力された文字パターンのサイズ情報、位置情報とを比較することによって複数の第1次候補文字カテゴリを選択することを特徴とする請求項2記載の文字認識装置。
【請求項5】 各第1次候補文字選択部から得られる第1次候補文字カテゴリの数を総和し、その総和が0であるならば、文字切り出し部の各パラメータ値を変化させて文字切り出しを再試行させる文字切り出し制御部を備えたことを特徴とする請求項2、3、または4記載の文字認識装置。
【請求項6】 認識後処理部から得られた認識文字カテゴリと入力された文字パターンの正解文字カテゴリとが異なる場合には正解文字カテゴリを出力する教師信号生成部と、前記正解文字カテゴリと前記認識文字カテゴリとの組合せが後処理対象文字カテゴリ集合と一致した回数である誤認識頻度が各後処理対象文字カテゴリ集合毎に記憶されている誤認識頻度記憶部と、前記正解文字カテゴリと前記認識文字カテゴリとの組合せと後処理対象文字集合記憶部に記憶されている各後処理対象文字カテゴリ集合と比較し、一致した場合には前記誤認識頻度記憶部の対応する後処理対象文字カテゴリ集合の誤認識頻度を更新し、誤認識頻度が任意の許容回数より大きくなった場合には対応する後処理対象文字カテゴリ集合を出力する誤認識頻度更新部と、文字情報記憶部に記憶されている前記誤認識頻度更新部から得られた後処理対象文字カテゴリ集合の標準サイズ情報、標準位置情報を前記文字パターンのサイズ情報、位置情報を用いて修正する文字情報修正部を備えたことを特徴とする請求項3、4、または5記載の文字認識装置。
【請求項7】 候補文字選択部は、単一特徴認識部から得られた各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化する複数の類似度正規化部と、前記類似度正規化部から得られた各文字カテゴリの正規化類似度と前記文字パターンのサイズ情報、位置情報を用いて全ての文字カテゴリの中から複数の第1次候補文字カテゴリを選択する複数の第1次候補文字選択部と、前記第1次候補文字カテゴリの正規化類似度を非線形変換し、それら非線形変換された前記正規化類似度をその総和値で各々除算することによって各文字カテゴリの統合類似度を求める統合類似度計算部と、各々選択された前記第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての前記第1次候補文字カテゴリの最終類似度を求め、この最終類似度の値の大きいものを第2次候補文字カテゴリとして複数個選択する第2次候補文字選択部を備えたことを特徴とする請求項2〜6のいずれか記載の文字認識装置。
【請求項8】 ファジィ大分類部は、入力文字パターンの特徴ベクトルと群辞書に記憶されている全ての群参照用特徴ベクトルとの距離を計算する複数個の距離計算部と、前記距離計算部の出力の逆数を計算する複数個の割算器と、前記割算器の各出力を加算する加算器と、前記加算器の出力と前記距離計算部の出力を乗算する複数個の乗算器と、前記乗算器の出力の逆数を計算する複数個の割算器を備えたことを特徴とする請求項1〜7のいずれか記載の文字認識装置。
【請求項9】 細分類部は、文字パターンの各文字カテゴリの代表値を示す文字カテゴリ参照用特徴ベクトルが複数個記憶されている文字カテゴリ辞書と、前記特徴ベクトルと前記文字カテゴリ辞書に記憶されている全ての文字カテゴリ参照用特徴ベクトルとの距離を計算する複数個の距離計算部と、前記距離計算部の出力の逆数を計算する複数個の割算器と、前記割算器の各出力を加算する加算器と、前記加算器の出力と前記距離計算部の出力を乗算する複数個の乗算器と、前記乗算器の出力の逆数を計算する複数個の割算器を備えたことを特徴とする請求項1〜8のいずれか記載の文字パターン認識装置。
【請求項10】 細分類部は、層構造をもち、各層内相互の結合がなく、上位層にのみ信号が伝搬するようにネットワーク接続された複数の多入力ー出力信号処理部からなり、前記多入力ー出力信号処理部は、複数の重み係数を保持する重み係数記憶部と、複数の入力信号を入力する入力部と、前記重み係数記憶部に貯えられた重み係数で前記入力部からの入力信号を重み付けする乗算手段と、前記乗算手段で重み付けされた複数の入力信号を加え合わせる加算手段と、該加算手段の出力を一定範囲の値に制限するしきい値処理部を備えたことを特徴とする請求項1〜8のいずれか記載の文字認識装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、文書上の手書き及び印刷文字のパターンを認識する文字認識装置に関するものであり、特に、文字パターンに対して、大分類を行ったあとに細分類を行なうというような階層的な認識を行うことによって文字パターンの認識を行う装置に関するものである。
【0002】
【従来の技術】従来の、入力された文字パターンに対して、まず大分類を行って入力文字パターンが属する文字カテゴリ群(ここで、文字カテゴリ群とは、文字パターンの特徴ベクトルが類似する文字パターンの集合を示す。)を選択し、次に選択された文字カテゴリ群において、細分類を行なうことによって文字パターンの認識を行なう文字認識装置の例としては、例えば、電子情報通信学会論文誌D−II Vol.J75-D-II No.3 pp545-553「大規模ニューラルネット”CombNET−II”」に示されている。
【0003】図12はこの従来の文字認識装置の構成図を示すものであり、110はイメージスキャナ等の画像入力部であり、認識対象の文書画像を入力するものである。111は文字切り出し部であり、画像入力部110で入力された文書画像から文字パターンを1文字領域づつ切り出すものである。112は特徴抽出部であり、文字切り出し部110で切り出された文字パターンから文字カテゴリを識別するために用いる特徴ベクトルを抽出するものである。113は大分類部であり、特徴抽出部112で抽出された特徴ベクトルを用いて、前記文字パターンを各文字カテゴリ群に大分類するものである。114は細分類部であり、前記特徴ベクトルを用いて、前記文字パターンを各文字カテゴリ群内で細分類するものである。115は群選択部であり、大分類部113の出力値(以下、適合度と呼ぶ。)から複数個の文字カテゴリ群を選択するものである。116は細分類部入力信号選択部であり、群選択部115で得られる群選択情報に基づいて前記特徴ベクトルを入力する細分類部114を選択するものである。117は識別部であり、群選択部115で選択された文字カテゴリ群の適合度と細分類部114の出力値から前記文字パターンの識別を行なうものである。
【0004】大分類部113において、118は入力部であり、特徴抽出部112で抽出された文字パターンの特徴ベクトルを入力するものである。119は多入力一出力信号処理部であり、文字パターンに対する各文字カテゴリ群の適合度を計算するものである。 細分類部114において、120は入力部であり、細分類部入力信号選択部116から出力された特徴ベクトルを入力するものである。121は多入力一出力信号処理部であり、それに接続されている下層の入力部120、または多入力一出力信号処理部121の出力と、その連結の度合である重み係数とを各々掛け合わせて総和したものをしきい値処理して出力するものである。ここでは、これら複数個の多入力一出力信号処理部121を、層構造にし、各層内相互の結合がない、上位層にのみ信号が伝搬するようにネットワーク接続することによって、前記文字パターンに対する文字カテゴリ群内の各文字カテゴリに類似する度合が求められる。122は最大値選択部であり、最上位層の複数個の前記多入力ー出力信号処理部の出力値の中から最大値を選択するものである。
【0005】識別部117において、123は類似度計算部であり、群選択部115で選択された文字カテゴリ群の適合度と、その文字カテゴリ群に対応する細分類部114の出力値から各文字カテゴリの類似度を計算するものである。124はカテゴリ識別部であり、類似度計算部123から得られた各文字カテゴリの類似度の最大値を求めることによって、入力された文字パターンの文字カテゴリの識別を行なうものである。
【0006】以上のように構成された従来の文字認識装置について、以下その動作を説明する。
【0007】画像入力部110により入力された文書画像から、文字切り出し部111が文字パターンを1文字づつ抽出する。特徴抽出部112は、文字切り出し部111によって切り出された文字パターンに対してn個の特徴データからなる特徴ベクトルX【0008】
【数1】X=(x1,x2,…,xn
を求める。ここで特徴データは濃淡メッシュ法によって求められる。濃淡メッシュ法は、入力された文字パターンをn個の小領域に分割し、各小領域毎に文字部の面積(小領域に含まれる黒画素の数)を小領域の面積によって正規化したものを特徴データとするものである。
【0009】このように特徴抽出部112で抽出された特徴ベクトルXが、次に大分類部113の入力部118に入力される。入力部118は文字パターンの特徴データ数に等しくn個用意されており、各特徴データxiはそれぞれ対応する入力部118に入力される。大分類部113における各多入力一出力信号処理部119は、それに接続されている入力部118の入力xjとその連結の度合である重み係数vij (1≦i≦mr;mrは文字カテゴリ群の数、1≦j≦n)とを乗算したものの総和を計算したあと、これを特徴ベクトルX及び、各多入力一出力信号処理部119の重み係数ベクトルVi【0010】
【数2】Vi=(vi1,vi2,…,vin
のノルム|X|、|Vi|の積で割り算したものを出力する。つまり、図12に示す重み係数ベクトルViをもつ多入力一出力信号処理部119の出力値sim(X,Vi)は、(数3)式のように表わすことができる。
【0011】
【数3】

【0012】なお、重み係数ベクトルViについては、特徴ベクトルXが類似する文字パターンの集合に対して決まった多入力一出力信号処理部119が最大出力を発生するように、予め設計しておく。
【0013】これらの重み係数ベクトルVi は、従来例によると、以下のような手法で設計される。まず第1過程では、重み係数ベクトル設計用の文字パターンの特徴ベクトルXを入力する毎に、最もsim(X,Vi)の大きいVCを求め(このとき、XはVCに最適整合するという。)、VCをXに近づける。また、1つの重み係数ベクトルに最適整合する文字パターンがある一定数以上になった時には、その重み係数ベクトルが担当する領域を2つに分割し、もう一つ重み係数ベクトルを生成する。第2過程では、重み係数ベクトル設計用の全文字パターンに対して、最適整合するViを求め、それが前回と変化したかどうかを調べる。そして、変更があれば、そのViを修正する。このとき、第1過程と同様に、重み係数ベクトルの生成も行なう。以上の操作を重み係数ベクトルの修正、生成がなくなるまで繰り返す。
【0014】このようにして、重み係数ベクトルの設計を行なうことによって、各重み係数ベクトルViは、文字パターンの特徴ベクトル空間を分割し、量子化することができる。つまり、入力された文字パターンは各重み係数ベクトルViによって、その特徴ベクトルが類似する複数の文字パターンの集合、即ち、複数の文字カテゴリ群に分類される。そして、各多入力一出力信号処理部119の出力値は、文字パターンに対する各文字カテゴリ群の適合度として群選択部115に出力される。
【0015】群選択部115では、大分類部113で得られた適合度の大きい順に任意個の文字カテゴリ群を選び、どの文字カテゴリ群が選択されたかを示す群選択情報とそれに対応する適合度を出力する。
【0016】群選択部115から得られる群選択情報に基づいて、細分類入力信号選択部116は、入力された文字パターンの特徴ベクトルXを入力する細分類部114を選択し、Xをこれらの細分類部114へ出力する。
【0017】群選択部115で選択された文字カテゴリ群に対応する各々の細分類部114(即ち、細分類入力信号選択部116から文字パターンの特徴ベクトルXを入力された細分類部114)では、まず、入力部120に、特徴ベクトルXが入力される。入力部120は、文字パターンの特徴データ数に等しくn個用意されており、各特徴データiはそれぞれ対応する入力部120に入力される。細分類部114の各多入力一出力信号処理部121はそれに接続されている下層の入力部120、または多入力一出力信号処理部121の出力とその連結の度合である重み係数とを掛け合わせたものの総和をしきい値関数で変換した後、その値を上層へ出力する。ここで、各細分類部114の最上位層の多入力一出力信号処理部121は、各文字カテゴリ群に含まれる文字パターンの文字カテゴリの数と同じ個数に設定され、最上位層の各多入力一出力信号処理部121は、これらの各文字カテゴリに対応している。最大値選択部122は最上位層の各多入力一出力信号処理部121の出力値の中で最大のものを選び、この多入力一出力信号処理部121に対応する文字カテゴリと、その最大出力値を出力する。
【0018】なお、各多入力一出力信号処理部121の重み係数は、文字カテゴリ群内の各文字カテゴリをもつ文字パターンの特徴ベクトルXに対して、その各文字カテゴリに対応する最上位層の多入力一出力信号処理部121が最大出力を発生するように、予め学習されている。
【0019】具体的には、このような重み係数の学習方法は、誤差逆伝搬法と呼ばれる学習アルゴリズムによって行われる。誤差逆伝搬法については、例えばD. E. ラメルハート(Rumelhart), G. E.ヒントン(Hinton) and R. J. ウイリアムス゛(Williams)による"ラーニンク゛リフ゜リセ゛ンテーションス゛ ハ゛イ ハ゛ックフ゜ロハ゜ケ゛ーティンク゛ エラース゛(Learning Representations by Back-Propagating Errors),"ネイチャー(Nature), vol.323, pp.533-536, Oct. 9, 1986 に示されている。
【0020】以下、誤差逆伝搬法の概略について説明する。
【0021】まず、重み係数学習用の文字パターンの特徴ベクトルXが細分類部114の入力部120に入力される。各多入力一出力信号処理部121は、既に説明したように、各々それに接続されている下層の入力部120、または多入力一出力信号処理部121の出力とその連結の度合である重み係数とを掛け合わせたものの総和をしきい値関数で変換した後、その値を上層へ出力する。ここで、全ての最上位層の多入力一出力信号処理部121の出力ok と望ましい出力tk(これを教師信号と呼ぶ)との誤差Eは(数4)式のように求められる。
【0022】
【数4】E=0.5ΣpΣk(tk−ok2但し、Σp は教師信号の文字パターンの数に関する総和である。学習の目的は、誤差Eを最小にする重み係数の値を決定することであり、各多入力一出力信号処理部間121の重み係数の変更量△wij は(数5)式に基づいて計算される。
【0023】
【数5】△wij = −ε∂E/∂wij但し、εは学習レートと呼ばれる正の定数である。このような(数5)に基づいた重み係数の更新を、学習用文字パターンの特徴ベクトルXが入力されるたびに繰り返すことにより、誤差Eを小さくすることができる。誤差Eが十分小さくなると、出力信号が望ましい値に十分近くなったものとして、学習を終了する。
【0024】このような重み係数の学習方法によって、文字カテゴリ群内の各文字カテゴリをもつ文字パターンに対し、その各文字カテゴリに対応する最上位層の多入力一出力信号処理部121が最大出力を発生するようにすることができる。従って、最上位層の複数個の多入力一出力信号処理部121の中で、最大出力を発生するものを最大値選択部122で選ぶことにより、各文字カテゴリ群内において、即ち、各細分類部において入力された文字パターンの文字カテゴリを識別することができる。 識別部117では、まず、類似度計算部123において、群選択部115で選択された文字カテゴリ群の適合度と、その文字カテゴリ群に対応する細分類部114の出力値から(数6)式を用いて細分類部114で得られた各文字カテゴリの類似度を計算し、これらの類似度をカテゴリ識別部124に出力する。
【0025】
【数6】(類似度)=(適合度)a(出力値)b但し、a,bは実定数とする。
【0026】最後に、カテゴリ識別部124は、類似度計算部123から得られる各文字カテゴリの類似度を比較し、それらの中で最大となる類似度に対応する文字カテゴリを識別結果として出力する。
【0027】
【発明が解決しようとする課題】文字認識では、文字パターンを識別するうえで有効な特徴を特徴ベクトルとして抽出するが、一般に単一の特徴ベクトルだけでは、十分な認識能力を実現することは難しく、複数種類の特徴ベクトルを使用することによって、高い識別機能を実現することができる。つまり、複数種類の特徴を用いることによって、ある一つの特徴ベクトルではあいまいな識別、または誤識別しかできない文字パターンでも、異なる特徴ベクトルでは正確な識別が行える場合があり、このとき正確な識別が行えるほうを重要視することによって識別性能を向上させることができる可能性があるからである。
【0028】しかしながら、多数の文字カテゴリをもつ文字パターンを階層的に認識を行う文字認識装置において、従来例のように、特徴抽出部及び認識部をただ一つしか備えていないような構成では、複数種類の特徴ベクトルを用いる場合、これらを一つにまとめて入力し、認識を行わざるを得ない。この場合、単一の特徴ベクトルのみを使用する時に比べ、ある程度高い識別性能を確かに実現できるが、上記説明のような異なる特徴ベクトルを用いることによって得られる利点を十分有効に活用することはできないという問題がある。つまり、複数種類の特徴ベクトルを一つにまとめて使用する場合、識別性能を高精度化することはできるが、その認識結果を用いて、上記で述べたようなある特徴ベクトルでは誤認識する文字パターンを異なる特徴ベクトルによる識別結果によって正しく認識するということは非常に難しい。
【0029】更に、複数種類の特徴ベクトルを一つにまとめて使用する場合、特徴ベクトルの次元数の増加に伴って、認識に多くの計算時間を必要とするなどの課題も有している。
【0030】本発明はかかる従来の文字認識装置の課題に鑑み、認識装置において複数種類の特徴ベクトルを使用する際に、複数種類の特徴ベクトルを併用する利点を十分有効に活用した高精度の認識が実現でき、更に、認識に要する時間を短くできる文字認識装置を提供することを目的とする。
【0031】
【課題を解決するための手段】請求項1の本発明は、文書画像を入力する画像入力部と、画像入力部で入力された文書画像から文字を1文字領域づつ切り出して文字パターンを得る文字切り出し部と、文字パターンから各々異なる特徴ベクトルを求める複数の特徴抽出部と、文字パターンが各文字カテゴリに属する度合である類似度を特徴ベクトル各々から求める複数の単一特徴認識部と、複数の単一特徴認識部から得られた各文字カテゴリの類似度を、各同一文字カテゴリ毎に統合し、その結果を利用して認識文字カテゴリを決定する文字選択認識後処理部とを備え、単一特徴認識部は、特徴ベクトルが類似する文字パターンの集合から成る文字カテゴリ群を代表する群参照用特徴ベクトルが複数個記憶されている群辞書と、群参照用特徴ベクトルと文字パターンの特徴ベクトルを用いて文字パターンが各文字カテゴリ群に属する度合である群帰属度を計算するファジィ大分類部と、文字パターンの特徴ベクトルを用いて文字パターンが文字カテゴリ群内に含まれる各文字カテゴリに属する度合である群内類似度を求める複数の細分類部と、群帰属度から複数の文字カテゴリ群を選択する群選択部と、群選択部から得られる群選択情報に基づいて文字パターンの特徴ベクトルを入力する細分類部を選択する細分類部入力信号選択部と、群選択部で選択された文字カテゴリ群の群帰属度と細分類部で得られた群内類似度を用いて文字パターンに対する各文字カテゴリの類似度を求める単一特徴類似度計算部を備え、単一特徴類似度計算部は、群選択部で選択された文字カテゴリ群の群帰属度と細分類部入力信号選択部から文字パターンの特徴ベクトルを入力された細分類部から得られる全ての群内類似度を乗算する複数個の乗算器と、各文字カテゴリ毎に乗算器の出力値の大きいものを複数個選択し、これらの出力値の総和を求めるカテゴリ類似度計算部を備える文字認識装置である。
【0032】請求項2の本発明は、文書画像を入力する画像入力部と、複数のパラメータ値を用いて画像入力部で入力された文書画像から文字を1文字領域づつ切り出して文字パターン及び文字パターンのサイズ情報、位置情報を得る文字切り出し部と、文字パターンから各々異なる特徴ベクトルを求める複数の特徴抽出部と、文字パターンが各文字カテゴリに属する度合である類似度を特徴ベクトル各々から求める複数の単一特徴認識部と、複数の単一特徴認識部から得られた各文字カテゴリの類似度を用いて文字パターンに対する複数の第2次候補文字カテゴリを求める候補文字選択部と、文字パターンのサイズ情報、位置情報を用いて複数の第2次候補文字カテゴリの中から認識文字カテゴリを決定する認識後処理部を具備し、単一特徴認識部は、特徴ベクトルが類似する文字パターンの集合から成る文字カテゴリ群を代表する群参照用特徴ベクトルが複数個記憶されている群辞書と、群参照用特徴ベクトルと文字パターンの特徴ベクトルを用いて文字パターンが各文字カテゴリ群に属する度合である群帰属度を計算するファジィ大分類部と、文字パターンの特徴ベクトルを用いて文字パターンが文字カテゴリ群内に含まれる各文字カテゴリに属する度合である群内類似度を求める複数の細分類部と、群帰属度から複数の文字カテゴリ群を選択する群選択部と、群選択部から得られる群選択情報に基づいて文字パターンの特徴ベクトルを入力する細分類部を選択する細分類部入力信号選択部と、群選択部で選択された文字カテゴリ群の群帰属度と細分類部で得られた群内類似度を用いて文字パターンに対する各文字カテゴリの類似度を求める単一特徴類似度計算部を備え、単一特徴類似度計算部は、群選択部で選択された文字カテゴリ群の群帰属度と細分類部入力信号選択部から文字パターンの特徴ベクトルを入力された細分類部から得られる全ての群内類似度を乗算する複数個の乗算器と、各文字カテゴリ毎に乗算器の出力値の大きいものを複数個選択し、これらの出力値の総和を求めるカテゴリ類似度計算部を備え、候補文字選択部は、特徴ベクトル各々に対応する単一特徴認識部から得られた各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化することによって統合類似度に変換する複数の統合類似度変換部と、統合類似度と文字パターンのサイズ情報、位置情報を用いて全ての文字カテゴリの中から複数の第1次候補文字カテゴリを選択する複数の第1次候補文字選択部と、各々選択された第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての第1次候補文字カテゴリの最終類似度を求め、この最終類似度の値の大きいものを第2次候補文字カテゴリとして複数個選択する第2次候補文字選択部を備えた文字認識装置である。
【0033】
【作用】本発明は、構成により、まず、画像入力部で入力された文書画像から、文字切り出し部が文字パターンを1文字領域づつ抽出し、文字パターンを各特徴抽出部に、また文字パターンのサイズ情報、位置情報を候補文字選択部における第1次候補文字選択部と認識後処理部へ出力する。各々の特徴抽出部では、1文字領域づつ切り出された文字パターンから各々異なる特徴ベクトルを抽出し、それぞれ対応する複数の単一特徴認識部に出力する。
【0034】各単一特徴認識部では、まず、特徴ベクトルをファジィ大分類部に入力する。ファジィ大分類部は、群辞書に記憶されている全ての群参照用特徴ベクトルを読みだして、特徴ベクトルに対し、特徴ベクトル空間における各文字カテゴリ群の境界を曖昧に定めた大分類を行ない、文字パターンが各文字カテゴリ群に属する度合である群帰属度を求める。これらの群帰属度を用いて、群選択部は複数の文字カテゴリ群を選択し、群選択情報を細分類部入力信号選択部に、対応する群帰属度を単一特徴類似度計算部に出力する。細分類部入力信号選択部は、特徴ベクトルを群選択情報に対応する細分類部に出力し、各細分類部は、特徴ベクトルを用いて、文字パターンが各文字カテゴリ群内に含まれる各文字カテゴリに類似する度合である群内類似度を計算し、単一特徴類似度計算部に出力する。単一特徴類似度計算部は、群選択部で選択された文字カテゴリ群の群帰属度と細分類部入力信号選択部から特徴ベクトルを入力された細分類部から得られる全ての群内類似度を乗算器で乗算し、これをカテゴリ類似度計算部に出力する。カテゴリ類似度計算部では、各文字カテゴリ毎に乗算器の出力値の大きいものを複数個選択し、これらの出力値の総和を求め、これを文字パターンに対する各文字カテゴリの類似度とする。このように、各々の単一特徴認識部では、対応する各特徴抽出部から入力された各特徴ベクトルから、入力された文字パターンに対する各文字カテゴリの類似度を求め、これを候補文字選択部へ出力する。
【0035】候補文字選択部では、まず各々の統合類似度変換部が、特徴ベクトル各々に対応する単一特徴認識部から得られる各カテゴリの類似度をそれらの類似度の中の最大値で正規化することによって統合類似度に変換する。各第1次候補文字選択部では、対応する統合類似度変換部から得られる統合類似度と文字切り出し部から得られる文字パターンのサイズ情報、位置情報を用いて、全ての文字カテゴリの中から複数の候補文字カテゴリを選択し、これを第1次候補文字カテゴリとする。第2次候補文字選択部は、各々の第1次候補文字選択部から得られる第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての第1次候補文字カテゴリに対する最終類似度を求めたのち、この最終類似度の値の大きいものを複数個選択し、これを第2次候補文字カテゴリとして認識後処理部に出力する。このように、候補文字選択部では、複数の単一特徴認識部から得られる各文字カテゴリの類似度と、文字切り出し部から得られる文字パターンのサイズ情報と位置情報を用いて、複数個の候補文字カテゴリを選択し、これを認識後処理部へ出力する。
【0036】最後に、認識後処理部では、文字切り出し部から得られる文字パターンのサイズ情報と位置情報を用いて、候補文字選択部から得られる複数の第2次候補文字カテゴリの中から最終的な文字カテゴリの決定を行う。
【0037】以上により、本文字認識装置は、複数種類の特徴ベクトルを各々別個の単一特徴認識部で識別処理を行って各特徴ベクトルに対する各文字カテゴリの類似度を求めたのちに、候補文字選択部がこれら全ての類似度を用いて各単一特徴認識部から得られる識別結果を統合し、入力された文字パターンの認識を行う。よって、ある特徴ベクトルでは誤認識する文字パターンでも異なる特徴ベクトルによる識別結果によって正しく認識するということができるようになり、高精度の認識を実現することができる。また、従来法では、複数種類の特徴ベクトルの使用によって、認識に要する時間が増加するが、本文字認識装置では、各単一特徴認識部が各々並列に識別処理を行うので、認識に要する時間を従来例に比べ、短くすることができる。
【0038】
【実施例】以下、本発明の実施例について図面を参照して説明する。
(実施例1)図1は本発明の第1の実施例における文字認識装置のブロック図を示すものである。
【0039】図1において、10はイメージスキャナ等の画像入力部であり、認識対象の文書画像を入力するものである。11は文字切り出し部であり、複数のパラメータ値を用いて画像入力部10で入力された文書画像から文字パターンを1文字領域づつ切り出すと共に文字パターンのサイズ情報、位置情報を抽出するものである。12は特徴抽出部であり、文字切り出し部11で切り出された文字パターンから文字カテゴリを識別するために用いる特徴ベクトルを抽出するものである。但し、複数の各特徴抽出部12はそれぞれ異なる特徴ベクトルを抽出する。13は単一特徴認識部であり、特徴抽出部12と同じ個数用意されており、各々対応する特徴ベクトルを入力して文字パターンが各文字カテゴリに属する度合である類似度を求めるものである。14は候補文字選択部であり、各々の単一特徴認識部13から得られる文字パターンの各特徴ベクトルに対する各文字カテゴリの類似度を用いて、文字パターンに対する複数の候補文字カテゴリを求めるものである。15は認識後処理部であり、文字切り出し部から得られる文字パターンのサイズ情報と位置情報を用いて、候補文字選択部14から得られる複数の候補文字カテゴリの中から最終的な文字カテゴリの決定を行うものである。
【0040】候補文字選択部14において、16は統合類似度変換部であり、単一特徴認識部13と同じ個数用意されており、各々対応する単一特徴認識部13から得られた各文字カテゴリの類似度を統合類似度に変換するものである。17は第1次候補文字選択部であり、統合類似度変換部16同様、単一特徴認識部13と同じ個数用意されており、各々対応する統合類似度変換部16から得られた統合類似度と文字切り出し部11から得られる文字パターンのサイズ情報、位置情報と、後述する文字情報記憶部50に記憶されている各文字カテゴリの標準サイズ情報と標準位置情報を用いて、全ての文字カテゴリの中から複数の候補文字カテゴリ(これを第1次候補文字カテゴリと呼ぶ。)を選択するものである。18は第2次候補文字選択部であり、各第1次候補文字選択部17から得られる第1次候補文字カテゴリの統合類似度を用いて、全ての第1次候補文字カテゴリの中から複数個の候補カテゴリ(これを第2次候補カテゴリと呼ぶ)を選択して、認識後処理部15に出力するものである。また、図1では、第2次候補文字選択部18の構成が具体的に示されており、ここで181は加算器であり、複数の第1次候補文字選択部17から得られる第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、各文字カテゴリの最終類似度を求めるものである。182は最終候補文字選択部であり、各文字カテゴリの最終類似度の中から複数の第2次候補文字カテゴリを選択するものである。
【0041】認識後処理部15において、50は文字情報記憶部であり、各文字カテゴリ毎に文字パターンの標準サイズ情報と標準位置情報が記憶されているものである。51は後処理対象文字集合記憶部であり、認識後処理が必要な文字カテゴリの組合せ(後処理対象文字カテゴリ集合)が記憶されているものである。52は後処理対象文字集合判定部であり、候補文字選択部14から得られた第2次候補文字カテゴリの第1候補文字カテゴリが後処理対象文字カテゴリ集合である場合には、文字情報記憶部50に格納された後処理対象文字カテゴリ集合に対応する各文字カテゴリの標準サイズ情報、標準位置情報と入力された文字パターンのサイズ情報、位置情報とを用いて、前記後処理対象文字カテゴリ集合のいずれかの文字カテゴリを認識文字カテゴリと判定するものである。
【0042】図2は、単一特徴認識部13の構成を具体的に示すブロック図である。図2において、20は群辞書であり、特徴ベクトルが類似する文字パターンの集合から成る文字カテゴリ群を代表する群参照用特徴ベクトルが複数個記憶されているものである。21はファジィ大分類部であり、群辞書20に記憶されている群参照用特徴ベクトルと特徴抽出部12から得られる特徴ベクトルを用いて、文字切り出し部11から抽出された文字パターンが各文字カテゴリ群に属する度合である群帰属度を計算するものである。22は細分類部であり、前記特徴ベクトルを用いて前記文字パターンが文字カテゴリ群内に含まれる各文字カテゴリに属する度合である群内類似度を計算するものである。23は群選択部であり、群帰属度から複数の文字カテゴリ群を選択するものである。24は細分類部入力信号選択部であり、群選択部23から得られる群選択情報に基づいて前記文字パターンの特徴ベクトルを入力する細分類部22を選択するものである。25は単一特徴類似度計算部であり、群選択部23で選択された文字カテゴリ群の群帰属度と細分類部22で得られた群内類似度から前記文字パターンに対する各文字カテゴリの類似度を求めるものである。
【0043】単一特徴類似度計算部25において、26は乗算器であり、群選択部23で選択された文字カテゴリ群の群帰属度と細分類部入力信号選択部24から前記文字パターンの特徴ベクトルを入力された細分類部22から得られる群内類似度を乗算するものである。27はカテゴリ類似度計算部であり、各文字カテゴリ毎に乗算器26の出力値の大きいものを複数個選択し、これらの出力値の総和を求めるものである。
【0044】図3は、ファジィ大分類部21の構成を具体的に示すブロック図である。図3において、30は、入力部であり、特徴抽出部12から得られる特徴ベクトルを入力するものである。31は距離計算部であり、群辞書20の全ての群参照用特徴ベクトルと前記特徴ベクトルとの距離を計算するものである。32は割算器であり、距離計算部31の出力の逆数を計算するものである。33は加算器であり、各々の割算器32の出力の総和を求めるものである。34は乗算器であり、加算器33の出力と距離計算部31の出力を乗算するものである。35は割算器であり、乗算器34の出力の逆数を計算するものである。
【0045】図4は、細分類部22の第1の実施例の構成を具体的に示すブロック図である。図4において、40は入力部であり、細分類部入力信号選択部24から出力される文字パターンの特徴ベクトルを入力するものである。41は文字カテゴリ辞書であり、文字パターンの各文字カテゴリの代表値を示す文字カテゴリ参照用特徴ベクトルが複数個記憶されているものである。42は距離計算部であり、文字カテゴリ辞書41の全ての文字カテゴリ参照用特徴ベクトルと前記特徴ベクトルとの距離を計算するものである。43は割算器であり、距離計算部42の出力の逆数を計算するものである。44は加算器であり、各々の割算器43の出力の総和を求めるものである。45は乗算器であり、加算器44の出力と距離計算部42の出力を乗算するものである。46は割算器であり、乗算器45の出力の逆数を計算するものである。以上のように構成された文字認識装置について、以下その動作を説明する。
【0046】画像入力部10で入力された文書画像から、複数のパラメータを用いて文字切り出し部11が図5に示すように、文字パターンを1文字領域づつ抽出し、文字パターンを各特徴抽出部12に、また、抽出された文字パターンのサイズ情報(文字パターンの幅a、高さb)、位置情報hを候補文字選択部14における第1次候補文字選択部17と認識後処理部15へ出力する。ここで、文字切り出し部11におけるパラメータの具体例としては、文字領域の標準サイズ、ピッチ、隣接する文字領域のスペース長等があり、例えば、日本語文書では、文字領域の標準サイズは全角漢字の文字サイズに設定される。
【0047】複数個用意された各特徴抽出部12では、文字切り出し部11から抽出された文字パターンから各々異なる特徴ベクトルXk(k=1〜NF:NFは特徴ベクトルの種類の数)を抽出する。ここで、各特徴ベクトルXkはnk個の特徴データからなり【0048】
【数7】Xk=(xk1,xk2,…,xknk
のように表わされる。
【0049】なお、複数の異なる文字パターンの特徴ベクトルの例としては、以下に示すようなものがあるが、下記以外の特徴ベクトルでも別に構わない。
(a)従来例で既に説明した文字パターンの画像情報を例えば8×8分割し、各領域内の黒画素の度数を要素とする64次元の濃淡特徴メッシュ特徴(b)文字パターンの画像情報を例えば4×4分割し、各小領域内における文字輪郭点の方向要素(水平、垂直、右斜め、左斜めの4方向)の出現度数を要素とする64次元の輪郭方向密度特徴(c)文字パターンの画像情報を例えば4×4分割し、一方の外接枠から他方の外接枠に向かって最初の文字部に出会うまでの文字部でない領域の面積を計数する。この操作を4つの外接枠に対して行って求められる16次元の第1次ペリフェラル特徴と、同様に、最初の文字部の出会いは計数を続け、2度目の文字部に出会うまでの面積を計数して求められる16次元の第2次ペリフェラル特徴を併せた32次元のペリフェラル特徴(d)文字パターンの画像情報を水平、及び垂直方向に走査し、文字部を横切る回数を特徴量とするストローク密度特徴各特徴抽出部12で特徴抽出された文字パターンの各特徴ベクトルXkは、対応する単一特徴認識部13に入力される。複数個用意された単一特徴認識部13は、それぞれ独立に以下に示すような識別処理を行い、各特徴ベクトルXkに対する各文字カテゴリの類似度を求める。なお、以下の単一特徴認識部13の動作説明で用いられる特徴ベクトルXkは、ある特徴抽出法によって得られた特徴ベクトルとし、以下、Xk、nkは簡単のためX、nと記述する。
【0050】以下、単一特徴認識部13の具体的な動作を説明する。
【0051】単一特徴認識部13では、まず特徴ベクトルXはファジィ大分類部21に入力される。ファジィ大分類部21では、入力部30に特徴ベクトルXが入力され、mr個の距離計算部31へXが出力される。各々の距離計算部31は、群辞書20に記憶されている各文字カテゴリ群を代表する群参照用特徴ベクトルVi (1≦i≦mr;mrは群参照用特徴ベクトルの数、即ち、文字カテゴリ群の数)を読みだし、(数8)式に示すXとVi の距離di を計算し、各々対応する割算器32、及び乗算器34へ出力する。
【0052】
【数8】di=‖X−Vi2/(f-1) (1≦i≦mr
但し、fはf>1を満たす実数とする。各々の割算器32は、距離diの逆数を計算し、その出力を加算器33へ出力する。加算器33は、全ての割算器32の出力の総和を計算し、その出力をmr個の乗算器34へ出力する。各々の乗算器34では、対応する距離計算部31と加算器33の出力を乗算し、その出力を対応する割算器35に入力する。各々の割算器35では、対応する乗算器34の出力の逆数を計算する。最終的にファジィ大分類部21では、この各割算器35の出力が入力された文字パターンの特徴ベクトルXに対する各文字カテゴリ群の群帰属度μi(1≦i≦mr)として、群選択部23に出力される。つまり、各文字カテゴリ群の群帰属度μi(1≦i≦mr)は、(数9)式のように表わすことができる。
【0053】
【数9】

【0054】なお、群辞書20に記憶されている各文字カテゴリ群を代表する群参照用特徴ベクトルは、予め、従来のクラスタリング手法、例えば、電子情報通信学会編 長尾真著「文字パターン情報処理」(コロナ社)に示されているK平均アルゴリズム、及びIsodataアルゴリズムや、Y.リンテ゛(Linde), A.フ゛ソ゛ー(Buzo), and R.M.ク゛レイ(Gray)による"アン アルコ゛リス゛ム フォ ヘ゛クトル クァンタイセ゛ーション(An Algorithm for Vector Quantizer design),"アイ・イー・イー・イー・トランサ゛クション オン コミュニケーション ホ゛リュームー28 84頁から95頁 1980年1月(IEEE Trans. Commun.,COM-28, 1, pp.84-95, Jan.1980) に示されているLBGアルゴリズムを用いて設計される。
【0055】以下、K平均アルゴリズムを用いて群辞書20を設計する方法について簡単に説明する。
(1)認識対象物の群辞書設計用の文字パターンの集合から、mr個(但し、mrは予め定められた文字カテゴリ群の数)の文字パターンを適当に選び、これらの特徴ベクトルをmr個の群参照用特徴ベクトルVi(1≦i≦mr)とする。
(2)全ての群辞書設計用の文字パターンの特徴ベクトルXについて、それぞれ、(数10)式に示される距離di【0056】
【数10】di=‖X−Vi‖を最小にするViを求める。このとき、Xは文字カテゴリ群Si(1≦i≦mr)に属するものとする。
(3) 各Siに属する文字パターンの特徴ベクトルXの平均値を求め、これをVi’とする。
(4) Vi’=Viが全てのiについて成立すれば、このときの群参照用特徴ベクトルViを群辞書20に記憶する。そうでなければ、Vi’を新たな群参照用文字パターン信号Viとして、(2)に戻る。
【0057】このようにして、群参照用特徴ベクトルを設計することによって、全ての文字パターンはいくつかのその特徴ベクトルが類似する文字パターンの部分集合(文字カテゴリ群)に分割することができる。なお、Isodataアルゴリズム及び、LBGアルゴリズムもこのK平均アルゴリズムと基本的にはほぼ同じ手法である。
【0058】群選択部23では、ファジィ大分類部21で得られた群帰属度の大きい順に複数個の文字カテゴリ群を選び、どの文字カテゴリ群が選択されたかを示す群選択情報を細分類入力信号選択部24へ、また、それに対応する群帰属度を単一特徴類似度計算部25へ出力する。なお、文字カテゴリ群の選択方法としては、あるしきい値以上の群帰属度をもつカテゴリ群を選択するとしてもよい。
【0059】群選択部23から得られる群選択情報に基づいて、細分類入力信号選択部24は、入力された文字パターンの特徴ベクトルXを入力する細分類部22を選択し、特徴ベクトルXをこれらの細分類部22へ出力する。
【0060】群選択部23で選択された文字カテゴリ群に対応する各々の細分類部22(即ち、細分類入力信号選択部24から特徴ベクトルを入力された細分類部22)では、まず、入力部40に文字パターンの特徴ベクトルXが入力され、mc個の距離計算部42へXが出力される。各々の距離計算部42は、文字カテゴリ辞書41に記憶されている各文字カテゴリの代表値を示す文字カテゴリ参照用特徴ベクトルWi (1≦i≦mc;mcは文字カテゴリ参照用特徴ベクトルの数)を読みだし、(数11)式に示すXとWiの距離di を計算し、各々対応する割算器43、及び乗算器45へ出力する。
【0061】
【数11】
i=‖X−Wi2/(f-1) (1≦i≦mc
但し、fはf>1を満たす実数とする。各々の割算器43は、距離diの逆数を計算し、その出力を加算器44へ出力する。加算器44は、全ての割算器43の出力の総和を計算し、その出力をmc個の乗算器45へ出力する。各々の乗算器45では、対応する距離計算部42と加算器44の出力を乗算し、その出力を対応する割算器46に入力する。各々の割算器46では、対応する乗算器45の出力の逆数を計算する。最終的に、細分類部22では、この各割算器46の出力が文字パターンの特徴ベクトルXに対する各文字カテゴリの群内類似度νi(1≦i≦mc)として、単一特徴類似度計算部25に出力される。つまり、各細分類部22における各文字カテゴリの群内類似度νi(1≦i≦mc)は、(数12)式のように表わすことができる。
【0062】
【数12】

【0063】なお、文字カテゴリ辞書41に記憶されている各文字カテゴリの代表値を示す文字カテゴリ参照用特徴ベクトルは、文字カテゴリ群内の各文字カテゴリをもつ文字パターンに対して、その各文字カテゴリに対応する距離計算部42の出力が他の距離計算部42の出力に比べて最小出力を発生するように、予め設計されている。
【0064】これらの文字カテゴリ参照用特徴ベクトルの設計方法は、例えば、学習ベクトル量子化法(LVQ)と呼ばれる学習アルゴリズムによって行われる。学習ベクトル量子化法については、例えば、T.コホネン(Kohonen)による"ラーンニンク゛ ヘ゛クトル クァンタイセ゛イション フォ ハ゜ターン レコク゛ニション(Learning Vector Quantization for Pattern Recognition)",ヘルシンキ工科大学(Helsinki University of Technology),レホ゜ート TKK-F-A601,1986年11月(Report TKK-F-A601(1986.11)に示されている。
【0065】以下、学習ベクトル量子化法について簡単に説明する。
【0066】まず、mc個の文字カテゴリをもつ文字カテゴリ参照用特徴ベクトルWiが用意される。このWiの初期値としては、各文字カテゴリ群に含まれる文字パターン集合からなる文字カテゴリ辞書の設計用の文字パターンから、各文字カテゴリ毎に任意に選択された文字パターンの特徴ベクトル及び、群辞書20の設計の際に説明したK平均アルゴリズム等の従来のクラスタリング法によって得られる参照用特徴ベクトルが用いられる。次に、文字カテゴリ辞書の設計用の文字パターンから任意の1個のカテゴリCXをもつ文字パターンの特徴ベクトルXが選択され、このXについて順次、以下のステップが繰り返される。
(1) Xに最も近い文字カテゴリ参照用特徴ベクトルWCを選択する。但し、このWCの文字カテゴリをCCとする。
(2) もし、CX=CCなら、WCはXの方向に近づける。一方、CX≠CCなら、WCはXから遠ざけられる。また、WC以外の文字カテゴリ参照用特徴ベクトルは更新されない。
【0067】Xが提示されたときの上記の文字カテゴリ参照用特徴ベクトルの更新は、予め用意された全ての文字カテゴリ辞書の設計用の文字パターンに対して繰り返し行なわれる。
【0068】このようにして、文字カテゴリ辞書41の文字カテゴリ参照用特徴ベクトルを設計することにより、文字カテゴリ群内の各文字カテゴリをもつ文字パターンの特徴ベクトルに対して、常にその各文字カテゴリをもつ文字カテゴリ参照用特徴ベクトルが最も近い距離に位置するようになる。従って、全ての距離計算部42の中で、最小出力を発生する距離計算部42を選ぶことによって、各文字カテゴリ群内において、入力された文字パターンの文字カテゴリを認識することができる。
【0069】単一特徴類似度計算部25では、まず、乗算器26が、群選択部23で選択された文字カテゴリ群の群帰属度と、その文字カテゴリ群に対応する各々の細分類部22(即ち、細分類入力信号選択部24から特徴ベクトルを入力された細分類部22)から得られる全ての群内類似度を乗算し、それらの出力をカテゴリ類似度計算部27に出力する。つまり、乗算器26は、(群参照用特徴ベクトルの数×各細分類部における文字カテゴリ参照用特徴ベクトルの数の総和)個用意されており、群選択部23で選択されたあるカテゴリ群pの群帰属度μp(1≦p≦mr;mrは文字カテゴリ群の数)とその文字カテゴリ群pに対応する細分類部22から得られたある文字カテゴリqの群内類似度νpq(1≦q≦mc;mCは文字パターンデータの文字カテゴリ数)が入力される。つまり、乗算器26の出力値ξpqは、【0070】
【数13】ξpq=μp・νpqと表わされる。
【0071】カテゴリ類似度計算部27では、全ての乗算器26の出力値を、各文字カテゴリ毎にまとめて分類し、その出力値の大きいものを複数個選択する。そして、各文字カテゴリ毎に、これらの選択された出力値の総和を求め、これを単一特徴認識部13に入力された文字パターンの特徴ベクトルに対する各文字カテゴリの類似度ri(1≦i≦NC;NCは文字カテゴリの数)として候補文字選択部14に出力する。なお、乗算器26の出力値を各カテゴリ毎に複数個選択する方法としては、乗算器26の出力値があるしきい値以上のものを選択するとしてもよい。
【0072】以上説明したように、単一特徴認識部13は、ある特徴抽出部12から得られた文字パターンの特徴ベクトルに対し、大分類を行ったあと細分類を行い最後にそれらの出力を統合する階層的な識別を行なうことによって、ある特徴データに対する文字パターンの各文字カテゴリの類似度を求める。
【0073】候補文字選択部14では、まず、各々の統合類似度変換部16が、それぞれ対応する単一特徴認識部13から入力文字パターンの各特徴ベクトルに対する各文字カテゴリの類似度を入力し、この類似度を各文字カテゴリ毎に統合類似度に変換する。具体的には、(数14)式に示すように、対応する単一特徴認識部13から得られる各文字カテゴリの類似度rki(1≦k≦NF:NFは特徴ベクトルの種類の数、1≦i≦NC;NCは文字カテゴリの数)をこれらの類似度の中の最大値rkmaxで割ることによって正規化を行い、これを統合類似度tki(但し、0≦tki≦1、1≦i≦NC;NCは文字カテゴリの数)として、各々対応する第1次候補文字選択部17へ出力する。
【0074】
【数14】tki=rki/rkmax各第1次候補文字選択部17では、文字切り出し部11で得られた文字パターンのサイズ情報(文字パターンの幅a、高さb)、位置情報hと文字情報記憶部50に記憶されている全ての文字カテゴリの標準サイズ情報(標準文字パターンの幅Ai、高さBi)、標準位置情報Hi(1≦i≦NC;NCは文字カテゴリの数)とを比較して複数個の候補文字カテゴリ(第1次候補文字カテゴリ)を選択し、これを第2次候補文字選択部18に出力する。例えば、具体的な候補文字カテゴリの選択方法としては、(数15)、(数16)、(数17)式に示すような文字幅評価関数F(a)、文字高さ評価関数F(b)、文字位置評価関数F(h)を【0075】
【数15】F(a)=|a−Ai|【0076】
【数16】F(b)=|b−Bi|【0077】
【数17】F(h)=|h−Hi|を定めて、それぞれの関数Fの値があるしきい値より小さいものを候補カテゴリとして選択すればよい。なお、評価関数としては、文字幅と文字高さの比、つまり、文字形状情報a/bと標準文字形状情報Ai/Biとを用いた(数18)式に示されるような文字形状評価関数に用いてもよい。
【0078】
【数18】F(a/b)=|(a/b)−(Ai/Bi)|なお、第1次候補文字選択部17における第1次候補文字カテゴリの選択方法としては、文字パターンのサイズ情報s、位置情報hのみを用いて候補文字カテゴリを選択するだけではなく、対応する統合類似度変換部16から得られる各文字カテゴリの統合類似度があるしきい値以上である文字カテゴリをまず複数個選択したのち、前述したような、文字パターンのサイズ情報s、位置情報hと文字情報記憶部50に記憶されている全ての文字カテゴリの標準サイズ情報(Ai、Bi)、標準位置情報Hiとを比較して第1次候補文字カテゴリを選択してもよい。
【0079】第2次候補文字選択部18では、まず加算器181が、複数個ある第1次候補文字選択部17から得られる全ての第1次候補文字カテゴリの統合類似度tkiを(数19)式に示すように、同一カテゴリ毎に加算して、最終類似度ui(但し、1≦i≦NC;NCはカテゴリの数)を求める。
【0080】
【数19】

【0081】最終候補文字選択部182は、この最終類似度uiを比較して、これら最終類似度の値の大きいものを複数個選択し、これを第2次候補文字カテゴリとして認識後処理部15へ出力する。
【0082】以上説明したように、候補文字選択部14は、各単一特徴認識部13において入力された文字パターンの各特徴ベクトルを認識処理することによって得られた識別結果、つまり類似度を統合して複数の候補文字カテゴリを選択するものである。ここで、統合類似度変換部16は、第2次候補文字選択部18において、各特徴ベクトルに関する識別結果をうまく統合できるような統合類似度に単一特徴認識部12から得られた類似度を変換するものである。具体的に説明すると、第2次候補文字選択部18が最終的に確信度の高い候補文字カテゴリを選択するうえで、最も重要な値は各単一特徴認識部13から得られる各文字カテゴリの類似度の最大値及びその近傍の値、つまり、各単一特徴認識部13で得られる第1、2、…、候補文字カテゴリの類似度の値である。しかし、各単一特徴認識部13から得られる最大類似度は、単一特徴認識部13における各細分類部の出力ユニット数の総和に影響をうける(具体的には、細分類部の出力ユニット数の総和が大きいものほど、最大類似度が小さくなる傾向をもつ。)ので、各単一特徴認識部13から得られる類似度をそのまま第1次候補文字選択部17に出力すると、常に、平均的に最大類似度が大きい単一特徴認識部13からの識別結果が優先される。よって、このままでは、複数種類の特徴ベクトルを用いる利点、つまり、ある特徴ベクトルで誤認識する文字パターンを異なる特徴ベクトルによる識別結果によって正しく認識するということが難しい。しかし、統合類似度変換部16において、各単一特徴認識部13から得られる各文字カテゴリの類似度をその最大類似度で正規化することにより、各々の単一特徴認識部13の最大類似度は常に1となる。よって、候補文字選択部14における最終的な候補文字カテゴリの選択において、各単一特徴認識部13の識別結果を同等に寄与させることができるようになり、常にある単一特徴認識部13からの識別結果が優先されるようなことはなくなり、信頼度の高い候補文字カテゴリを求めることができる。
【0083】また、特徴抽出部12で得られる特徴ベクトルは、正規化された文字パターンから特徴ベクトルが抽出されるため、このままでは、”I”,”1”,”−”等の縦長、横長の文字パターンの形状を特徴とする文字カテゴリの正確な識別は行えない。しかし、第1次候補文字選択部17において、文字サイズ情報、位置情報を有効に利用することによって、本実施例では、これらの文字カテゴリの識別を正確に行うことができる。
【0084】最後に、候補文字選択部14で得られた複数の第2次候補文字カテゴリは、認識後処理部15に入力され、文字切り出し部11で得られた文字パターンのサイズ情報、位置情報を用いて、最終的な認識文字カテゴリの決定が行われる。具体的には、後処理対象文字集合判定部52において、次のような処理が行われる。
【0085】まず、後処理文字対記憶部51に記憶されている全ての後処理対象文字カテゴリ集合を読みだし、第2次候補文字カテゴリの第1候補文字カテゴリとを比較する。このとき、第1候補文字カテゴリが後処理対象文字カテゴリ集合である場合には、文字情報記憶部50に記憶されている第1候補文字カテゴリとそれと同じ後処理対象文字カテゴリ集合に含まれる各後処理対象文字カテゴリの文字サイズ情報、位置情報を読みだし、文字切り出し部11で得られた文字パターンのサイズ情報(文字パターンの幅a、高さb)、位置情報hとそれぞれ比較し、入力された文字パターンのサイズ情報、位置情報とより類似している文字カテゴリを認識文字カテゴリと決定し出力する。認識文字カテゴリを決定する具体的な方法としては、(数15)〜(数18)式に既に示された評価関数を用いて、その値が小さい文字カテゴリを認識文字カテゴリと決定する等がある。なお、後処理対象文字カテゴリ集合とは、”X,x”、”つ、っ”等類似大小文字のことを示す。例えば、いま、第2次候補文字カテゴリの第1候補文字が”X”であるとする。文字情報記憶部50に記憶されている標準文字幅、標準文字高さ、標準位置情報を文字カテゴリ”X”では、順に(0.6, 0.9, 0.5)であり、”x”では(0.5, 0.6, 0.3)であるとする。そして、このとき、文字切り出し部11から得られる文字パターンの文字幅、文字高さ、位置情報が(0.52, 0.7, 0.32)であるとすると、例えば、評価関数として、式(15)+式(16)+式(17)(F(a,b,h)=F(a)+F(b)+F(h))を用いれば、”X”に対しては、Fの値は0.46、また、”x”に対しては0.14となり、最終的な認識文字カテゴリは”x”となる。
【0086】このように、認識後処理部15では、特徴ベクトルだけでは正確な識別が行うことが困難な類似大小文字の識別を、文字サイズ情報、位置情報を有効に利用することによって、これらの文字カテゴリの識別を正確に行う。
【0087】以上が本実施例の文字認識装置の動作説明である。
【0088】ここで、実験的に得られた本実施例の文字認識の結果を示す。認識対象となる文字パターンデータはマルチフォント(明朝体、ゴシック体等)の3390字種(記号、英数字、ひらがな、カタカナ、ギリシャ文字、JIS第1水準漢字)の文字とした。特徴抽出する特徴ベクトルは64次元の輪郭方向密度特徴と32次元の背景密度特徴とする。輪郭方向密度は、局所領域内の文字ストロークの方向、及び複雑さを示す特徴量であり、背景密度特徴は文字の背景の複雑度を示す特徴量である。なお、詳細な特徴抽出の方法は、脇、藤原、竹之内、横江、清水による「文書清書システム(3)−文字認識アルゴリズムとそのハードウエア−」、昭和61年度電子通信学会総合全国大会、1512、6-154に示されている。
【0089】各特徴ベクトルに対応する単一特徴認識部13における群辞書20及び、各細分類部22の文字カテゴリ辞書41、認識後処理部15における文字情報記憶部50は、8フォント27120文字で設計を行った。ここで、各単一特徴認識部13におけるファジィ大分類部21は、文字カテゴリ群数(群参照用特徴ベクトルの数)を7とした。また、各細分類部22の文字カテゴリ参照用特徴ベクトルの数は輪郭方向密度特徴に対応する文字カテゴリ辞書41では、1070,949,957,562,1029,920,996の総数6483個とし、また、背景密度特徴に対応する文字カテゴリ辞書41では、1122,902,633,1287,751,1090,984の総数6769個とした。
【0090】認識に際して、各単一特徴認識部におけるファジィ大分類部21の(数8)式におけるfは1.2、また細分類部22の(数11)式におけるfは1.3とした。また、群選択部23で選択する文字カテゴリ群の数は7で、即ち、全ての細分類部22に各特徴ベクトルを入力した。また、カテゴリ類似度計算部27において、各文字カテゴリ毎に選ぶ乗算器26の出力値の個数は4とした。
【0091】また、比較のために、前記2つの特徴ベクトルを1つにまとめて、96次元の特徴ベクトルとし、これを認識する単一特徴認識部13も設計した。設計に用いた学習用の文字パターンは同じものを使用し、文字カテゴリ群数は7、文字カテゴリ辞書41における文字カテゴリ参照用特徴ベクトルの数は、905,590,1255,382,933,1272,1083の総数6420個とした。なお、認識に際して、各パラメータは同じ値を用いた。
【0092】評価用の文字パターンとして、各辞書の設計に用いたデータと異なる8フォント27120文字を用いた。
【0093】実験の結果、本実施例では、98.33%の認識率が得られた。また、比較のために行った、2つの特徴ベクトルを1つにまとめて認識を行う文字認識装置の認識率は97.98%であった。つまり、本実施例のように、複数の特徴ベクトルを個別に識別し、その識別結果を統合して認識を行うほうが、複数の特徴ベクトルを1つにまとめて認識処理を行うものより、認識率が向上することがわかる。
【0094】このように、本実施例によれば、複数種類の特徴ベクトルを各々別個の単一特徴認識部13で識別処理して各特徴ベクトルに対する各文字カテゴリの類似度を求めたのち、候補文字選択部14がこれら全ての類似度を用いて各単一特徴認識部13から得られる識別結果を統合して、最終的な文字パターンの認識を行う。従って、従来例のように複数種類の特徴ベクトルを1つにまとめて用いる場合には困難であった「ある特徴ベクトルでは誤認識する文字パターンを異なる特徴ベクトルによる識別結果から正しく認識する」ということが容易にできるようになり、高精度の認識を実現することができる。
【0095】また、従来法では、複数種類の特徴ベクトルの使用によって、認識に要する時間が増加するが、本実施例では、各単一特徴認識部が各々並列に識別処理を行うので、認識に要する時間を従来例に比べ、短くすることができる。
【0096】なお、本実施例の単一特徴認識部13において、細分類部22は図4に示すような構成ではなく、以下に示すような構成にしてもよい。
【0097】図6は細分類部22の第2の実施例の構成を具体的に示すブロック図である。60は入力部であり、細分類部入力信号選択部24から出力される文字パターンの特徴ベクトルを入力するものである。61は多入力一出力信号処理部であり、それに接続されている下層の入力部60、または多入力一出力信号処理部61の出力と、その連結の度合である重み係数とを各々掛け合わせて総和したものをしきい値処理して出力するものである。ここでは、これら複数個の多入力一出力信号処理部を層構造にし、各層内相互の結合がなく、上位層にのみ信号が伝搬するようにネットワーク接続することによって、入力された文字パターンの特徴ベクトルに対する文字カテゴリ群内の各文字カテゴリに類似する度合である群内類似度が求められる。
【0098】図7は、前記多入力一出力信号処理部61の構成を具体的に示すブロック図である。図7において、62は入力部であり、入力信号を入力するものである。63は重み係数記憶部であり、入力部62からの複数の入力信号を重み付ける重み係数を記憶するものである。64は乗算器であり、重み係数記憶部63の重み係数と入力部62からの入力信号を乗算するものである。65は加算器であり、全ての乗算器64の出力値を総和するものである。66はしきい値処理部であり、加算器65の出力値を一定範囲の値に制限するものである。
【0099】以上のように構成された細分類部22の第2の実施例について、以下その動作を説明する。
【0100】第1の実施例同様に、群選択部23で選択された文字カテゴリ群に対応する各々の細分類部22(即ち、細分類入力信号選択部24から特徴ベクトルを入力された細分類部22)では、まず、入力部60に文字パターンの特徴ベクトルXが入力される。入力部60は、文字パターンの特徴データ数に等しくn個用意されており、各特徴データxiはそれぞれ対応する入力部60に入力される。細分類部22の各多入力一出力信号処理部61は、図6に示すようにそれに接続されている下層の入力部60、または多入力一出力信号処理部61の出力と重み係数記憶部63に記憶されているその接続の度合である重み係数wijとを乗算器64により掛け合わせ、各々の乗算器64の出力の総和を加算器65で計算した後、しきい値処理部66で変換し、その出力値を上層へ出力する。つまり、図7に示すある層のi番目の多入力一出力信号処理部61の出力値Iiは、入力部62への入力値をIj 、それに接続されている入力とその接続の度合である重み係数をwij(i番目の多入力一出力信号処理部とj番目の入力との結合重み)とすれば、(数20)式のように表わせる。
【0101】
【数20】

【0102】なお、しきい値処理部66の入出力特性を図8に示す。例えば、出力を(0,1)の範囲に制限するしきい値処理部66の入出力特性は(数21)式のように表現できる。
【0103】
【数21】f(a) = 1 / (1 + exp(-a+θ))但し、aはしきい値処理部66の入力である。なお、しきい値処理部66の入出力特性としては上記以外のしきい値関数でもよい。
【0104】最上位層の多入力一出力信号処理部61は、各文字カテゴリ群に含まれる文字パターンの文字カテゴリの数と同じ個数に設定され、最上位層の各多入力一出力信号処理部61は、これらの各文字カテゴリに対応している。つまり、最上位層の各多入力一出力信号処理部61の出力が、文字パターンの特徴ベクトルXに対する文字カテゴリ群内の各文字カテゴリに類似する度合である群内類似度νi(1≦i≦mc;mcは文字カテゴリ参照用特徴ベクトルの数)として、単一特徴類似度計算部25に出力される。
【0105】なお、各多入力一出力信号処理部61の重み係数は、文字カテゴリ群内の各文字カテゴリをもつ文字パターンに対して、その各文字カテゴリに対応する最上位層の多入力一出力信号処理部61が最大出力を発生するように、予め設計しておく。これより、各細分類部22において、文字パターンの文字カテゴリを認識することができる。なお、これらの重み係数の設計方法は、誤差逆伝搬法と呼ばれる学習アルゴリズムによって行われる。誤差逆伝搬法については、例えば、D. E. ラメルハート(Rumelhart), G. E.ヒントン(Hinton) and R. J. ウイリアムス゛(Williams)による"ラーニンク゛ リフ゜リセ゛ンテーションス゛ ハ゛イ ハ゛ックフ゜ロハ゜ケ゛ーティンク゛ エラース゛(Learning Representations byBack-Propagating Errors),"ネイチャー(Nature), vol.323, pp.533-536, Oct. 9, 1986 に示されており、その概略は既に従来例において説明したとおりである。
【0106】また、図9は本発明の第1の実施例における候補文字選択部14の第2の実施例の構成を具体的に示すブロック図である。図9において、70は類似度正規化部であり、単一特徴認識部13と同じ個数用意されており、各々対応する単一特徴認識部13から得られた各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化するものである。71は第1次候補文字選択部であり、類似度正規化部70同様、単一特徴認識部13と同じ個数用意されており、各々対応する類似度正規化部70から得られた正規化類似度と文字切り出し部11から得られる文字パターンのサイズ情報、位置情報と、文字情報記憶部50に記憶されている各文字カテゴリの標準サイズ情報と標準位置情報を用いて、全ての文字カテゴリの中から複数の候補文字カテゴリ(これを第1次候補文字カテゴリと呼ぶ。)を選択するものである。72は統合類似度計算部であり、類似度正規化部70同様、単一特徴認識部13と同じ個数用意されており、各第1次候補文字カテゴリの正規化類似度を非線形変換し、それら非線形変換された正規化類似度をその総和値で各々除算することによって各第1次候補文字カテゴリの統合類似度を求めるものである。17は第2次候補文字選択部であり、第1の実施例同様の構成で、各統合類似度計算部72から得られる第1次候補文字カテゴリの統合類似度を用いて、全ての第1次候補文字カテゴリの中から複数個の候補カテゴリ(これを第2次候補カテゴリと呼ぶ)を選択して、認識後処理部15に出力するものである。
【0107】以上のように構成された候補文字選択部14の第2の実施例について、以下その動作を説明する。
【0108】まず、各々の類似度正規化部70が(数22)式に示すように、それぞれ対応する単一特徴認識部13から得られる各文字カテゴリの類似度rki(1≦k≦NF:NFは特徴ベクトルの種類の数、1≦i≦NC;NCは文字カテゴリの数)をこれらの類似度の中の最大値rkmaxで割ることによって正規化を行い、これを正規化類似度ski(但し、0≦ski≦1、1≦i≦NC;NCは文字カテゴリの数)として、各々対応する第1次候補文字選択部71へ出力する。
【0109】
【数22】ski=rki/rkmax各第1次候補文字選択部71では、各文字カテゴリの統合類似度の代わりに正規化類似度を用いるだけで、基本的には候補文字選択部14の第1の実施例と同様の動作を行い、複数個の候補文字カテゴリ(第1次候補文字カテゴリ)を選択して、これを統合類似度計算部72に出力する。
【0110】各統合類似度計算部72では、各第1次候補文字選択部71から得られた各第1次候補文字カテゴリの正規化類似度ski(但し、0≦ski≦1、1≦i≦MC;MCは第1次候補文字カテゴリの数)を非線形変換し、それら非線形変換された各第1次候補文字カテゴリの正規化類似度をそれらの総和値で各々正規化(割算)し、これを統合類似度tki(但し、1≦i≦MC)として、第2次候補文字選択部18に出力する。つまり、統合類似度tkiは、非線形関数をf(X)とすると(数23)式のように表わすことができる。
【0111】
【数23】

【0112】なお、非線形関数f(x)は、0≦x≦1において、0≦f(x)≦1、f(0)=0、f(1)=1を満たす単調増加関数である。例えば、例として(数24)式のような関数がある。但し、0≦a≦1である。
【0113】
【数24】f(x) = xa第2次候補文字選択部18は、第1の実施例と同様の動作を行って、各統合類似度計算部71から得られる全ての第1次候補文字カテゴリの統合類似度を用いて、全ての第1次候補文字カテゴリの中から複数個の第2次候補文字カテゴリを選択して、認識後処理部15に出力する。
【0114】さて、各単一特徴認識部13において、誤認識するときの各文字カテゴリの類似度をよく観察すると、(1) 最大類似度の大きさはあまり誤認識には関係がないこと(2) 最大類似度と2番目に大きい類似度の差が小さいときに誤認識が多いということがわかる。そこで、本実施例では、各単一特徴認識部13から得られる類似度を最大類似度で正規化したあと、最大類似度と2番目に大きい類似度の差を強調する処理、つまり、最大類似度と2番目に大きい類似度の差が小さい場合には、よりその差を小さくし、さらにその類似度の大きさ自体を小さくすることにより、誤認識を生じている可能性のある単一特徴認識部13から得られる識別結果の信頼度(類似度)を下げる処理を行っている。故に、第2次候補文字選択部18で最終的な候補文字カテゴリを選択するときには、他の単一特徴認識部13の識別結果が重要視されるようになり、その結果、信頼度の高い候補文字カテゴリを求めることができる。
【0115】ここで、候補文字選択部14の第2の実施例を用いた文字認識装置において、実験的に得られた認識結果を示す。実験は、第1の実施例の場合と同じように行った。但し、統合類似度計算部72において、用いた非線形関数は(数24)式に示したものであり、a=0.5とした。
【0116】実験の結果、この実施例では、98.38%の認識率が得られ、第1の実施例に比べ、0.05%認識率が向上した。
【0117】このようにこの実施例によれば、各単一特徴認識部13から得られる類似度に上記で述べたような変換を行うことで、ある特徴ベクトルでは誤認識する文字パターンを異なる特徴ベクトルによる識別結果から正しく認識するということが、第1の実施例以上によりよく行うことができ、より高精度の認識を行うことができる。
(実施例2)図10は、本発明の第2の実施例における文字認識装置のブロック図を示すものである。図10において、10〜18は図1に示した第1の実施例における文字認識装置と同一のものである。80は文字切り出し制御部であり、各々の第1次候補文字選択部17から得られる第1次候補文字カテゴリの数によって、文字切り出し部11の動作を制御するものである。即ち、第2の実施例は、前述の文字認識装置の第1の実施例に、文字切り出し制御部80を付加したものである。
【0118】以上のように構成された文字認識装置について、以下その動作を説明する。なお、本実施例では、文字切り出し制御部80を除いて、基本的に、他の構成要素は第1の実施例と同じ動作を行って文字認識処理をするので、ここでは、それらの動作については簡単に説明を行う。
【0119】第1の実施例同様、まず、画像入力部10で入力された文書画像から、複数のパラメータを用いて文字切り出し部11が図5に示すように、文字パターンを1文字領域づつ抽出し、文字パターンを各特徴抽出部12に、また、抽出された文字パターンのサイズ情報、位置情報を候補文字選択部14における第1次候補文字選択部17と認識後処理部15へ出力する。各々の特徴抽出部12では、文字切り出し部11から抽出された文字パターンから各々異なる特徴ベクトルXk(k=1〜NF:NFは特徴ベクトルの種類の数)を抽出し、それぞれ対応する単一特徴認識部13へに出力する。複数個用意された各単一特徴認識部13は、それぞれ独立に、第1の実施例と同様の識別処理を行い、各特徴ベクトルXkに対する各文字カテゴリの類似度を求め、これを候補文字選択部14に出力する。候補文字選択部14では、まず、各々の統合類似度変換部16が、特徴ベクトル各々に対応する単一特徴認識部13から得られる各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化することによって統合類似度に変換する。各第1次候補文字選択部17では、文字切り出し部11で得られた文字パターンのサイズ情報、位置情報と文字情報記憶部50に記憶されている全ての文字カテゴリの標準サイズ情報、標準位置情報とを比較して複数個の第1次候補文字カテゴリを選択し、これを第2次候補文字選択部18に出力する。なお、第1の実施例でも示したように、第1次候補文字選択部17における第1次候補文字カテゴリの選択方法は、文字パターンのサイズ情報、位置情報のみを用いて候補文字カテゴリを選択するだけではなく、対応する統合類似度変換部16から得られる各文字カテゴリの統合類似度があるしきい値以上である文字カテゴリをまず複数個選択したのち、前述したような、文字パターンのサイズ情報、位置情報と文字情報記憶部50に記憶されている全ての文字カテゴリの標準サイズ情報、標準位置情報とを比較して第1次候補文字カテゴリを選択する方法を用いてもよい。
【0120】ここで、文字切り出し制御部80は、各々の第1次候補文字選択部17から得られる第1次候補文字カテゴリの数を総和し、その総和が0であれば、即ち、選択される第1次候補文字カテゴリが全くない場合には、文字切り出し部11において文字パターンを1文字領域づつ抽出する際に用いる複数のパラメータ(既に、第1の実施例で説明したように、文字領域の標準サイズ、ピッチ、隣接する文字領域のスペース長等)を変化させて、再度、文字切り出し部11に文字領域の抽出を行なわせ、再度抽出した文字パターンを各単一特徴認識部13に再入力する。
【0121】一方、第2次候補文字選択部18は、各々の第1次候補文字選択部17から得られる第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての第1次候補文字カテゴリに対する最終類似度を求めたのち、この最終類似度の値の大きいものを複数個選択し、これを第2次候補文字カテゴリとして認識後処理部15へ出力する。
【0122】最後に、認識後処理部15では、文字切り出し部11から得られる文字パターンのサイズ情報と位置情報を用いて、候補文字選択部から得られる複数の第2次候補文字カテゴリの中から最終的な文字カテゴリの決定を行う。
【0123】一般に、全角文字で書かれた日本語文書において、半角英数字、及び”い”等の分離しやすい文字が連続している場合、文字パターンは誤って切り出されることが多く、このような場合、従来例では、文字パターンを正しく認識することは困難であった。しかし、本実施例によれば、第1候補文字選択部17で、文字切り出し部11で抽出された文字パターンのサイズ情報、位置情報と各文字カテゴリの標準的なサイズ情報、位置情報を比較することによって、複数の第1次候補文字カテゴリの選択を行うので、もし、入力された文字パターンが各文字カテゴリの標準サイズ、位置情報とある程度以上異なる場合には、候補文字カテゴリが0となる。このとき、文字切り出し制御部80が、文字切り出し部11において文字パターンの切り出し誤りが生じたと判断し、文字切り出し部11において文字パターンの切り出しを行う際に用いる複数のパラメータを微小変化させて、文字パターンの再切り出しを行う。そして、再度認識処理を行うので、前述したような切り出し誤りが生じ易い文字列に対しても、正確な文字の切り出しが可能であり、高精度な認識を実現することができる。
(実施例3)図11は、本発明の第3の実施例における文字認識装置のブロック図を示すものである。図11において、10〜18は図1に示した第1の実施例における文字認識装置と同一のものである。90は教師信号生成部であり、認識後処理部15から得られた認識文字カテゴリと文字切り出し部11で抽出された文字パターンの正解文字カテゴリを用いて教師信号を生成するものである。91は誤認識頻度記憶部であり、教師信号(正解文字カテゴリ)と認識文字カテゴリとの組合せが後処理対象文字集合記憶部51に記憶されている後処理対象文字カテゴリ集合と一致した回数である誤認識頻度が後処理対象文字カテゴリ集合毎に記憶されているものである。92は誤認識頻度更新部であり、正解文字カテゴリと認識文字カテゴリとの組合せと後処理対象文字集合記憶部91に記憶されている各後処理対象文字カテゴリ集合とを比較することによって誤認識頻度記憶部に記憶されている各後処理対象文字カテゴリ集合の誤認識頻度を更新し、なおかつ、誤認識頻度が任意の許容回数より大きくなった場合には対応する後処理対象文字カテゴリ集合を出力するものである。93は文字情報修正部であり、文字情報記憶部50に記憶されている誤認識頻度更新部92から得られる後処理対象文字カテゴリ集合の標準サイズ情報、標準位置情報を入力文字パターンのサイズ情報、位置情報を用いて修正するものである。
【0124】以上のように構成された文字認識装置について、以下その動作を説明する。なお、本実施例では、教師信号出力部90、誤認識頻度記憶部91、誤認識頻度更新部92及び文字情報修正部93を除いて、基本的に、他の構成要素は第1の実施例と同じ動作を行って文字認識処理をするので、ここでは、それらの動作については簡単に説明を行う。
【0125】第1の実施例同様、まず、画像入力部10で入力された文書画像から、複数のパラメータを用いて文字切り出し部11が図5に示すように、文字パターンを1文字領域づつ抽出し、文字パターンを各特徴抽出部12に、また、抽出された文字パターンのサイズ情報、位置情報を候補文字選択部14における第1次候補文字選択部17と認識後処理部15へ出力する。各々の特徴抽出部12では、文字切り出し部11から抽出された文字パターンから各々異なる特徴ベクトルXk(k=1〜NF:NFは特徴ベクトルの種類の数)を抽出し、それぞれ対応する単一特徴認識部13へに出力する。複数個用意された各単一特徴認識部13は、それぞれ独立に、第1の実施例と同様の識別処理を行い、各特徴ベクトルXkに対する各文字カテゴリの類似度を求め、これを候補文字選択部14に出力する。候補文字選択部14では、まず、各々の統合類似度変換部16が、特徴ベクトル各々に対応する単一特徴認識部13から得られる各文字カテゴリの類似度をそれらの類似度の中の最大値で正規化することによって統合類似度に変換する。各第1次候補文字選択部17では、文字切り出し部11で得られた文字パターンのサイズ情報、位置情報と文字情報記憶部50に記憶されている全ての文字カテゴリの標準サイズ情報、標準位置情報とを比較して複数個の第1次候補文字カテゴリを選択し、これを第2次候補文字選択部18に出力する。第2次候補文字選択部18は、各々の第1次候補文字選択部17から得られる第1次候補文字カテゴリの統合類似度を同一カテゴリ毎に加算することによって、全ての第1次候補文字カテゴリに対する最終類似度を求めたのち、この最終類似度の値の大きいものを複数個選択し、これを第2次候補文字カテゴリとして認識後処理部15へ出力する。認識後処理部15では、文字切り出し部11から得られる文字パターンのサイズ情報と位置情報を用いて、候補文字選択部14から得られる複数の第2次候補文字カテゴリの中から最終的な認識文字カテゴリの決定を行う。
【0126】ここで、教師信号生成部90は、認識後処理部15から得られた認識文字カテゴリと文字切り出し部11で抽出された文字パターンの正解文字カテゴリとを比較し、互いに異なる場合には、この正解文字カテゴリを教師信号として誤認識頻度更新部92に出力する。誤認識頻度更新部92では、後処理対象文字集合記憶部51に記憶されている全ての後処理対象文字カテゴリ集合を読みだし、教師信号(正解文字カテゴリ)と認識文字カテゴリとの組合せを順番に比較する。もし教師信号(正解文字カテゴリ)と認識文字カテゴリとの組合せがある後処理対象文字カテゴリ集合と一致した場合には、誤認識頻度記憶部91に記憶されている前記組合せに対応する後処理対象文字カテゴリ集合の誤認識頻度を1つ増やす。このとき、もし、この後処理対象文字カテゴリ集合の誤認識頻度が任意の許容回数より大きくなった場合にはこの後処理対象文字カテゴリ集合を文字情報修正部93へ出力する。そして、文字情報修正部93では、後処理対象文字カテゴリ集合が入力されると、文字情報記憶部50に記憶されているこの後処理文字カテゴリ対の各標準サイズ情報、標準位置情報を実際に文字切り出し部11で抽出された文字パターンのサイズ情報、位置情報に基づいて修正する。修正方法を具体的に示すと、いま後処理文字カテゴリ対(C1、C2)(例えば、”X”、”x”)において、文字情報記憶部50に記憶されている文字カテゴリC1の標準文字パターン幅をA1、標準文字高さをB1、標準位置情報をH1とし、また、文字カテゴリC2の標準文字パターン幅をA2、標準文字高さをB2、標準位置情報をH2とする。ここで、C1をC2に誤認識する頻度がある回数を越えると、対応する各文字カテゴリの文字情報(A1、B1、H1)及び(A2、B2、H2)を既に入力された文字パターンの各文字カテゴリの文字情報(a1、b1、h1)及び(a2、b2、h2)に基づいて例えば、(数25)式のように修正する。
【0127】
【数25】A1 = A1 + α(A1−a1
1 = B1 + β(B1−b1
1 = H1 + γ(H1−h1
2 = A2 + α(A2−a2
2 = B2 + β(B2−b2
2 = H2 + γ(H2−h2
但し、α、β、γは任意の実数なお、ここで各文字カテゴリC1、C2において、文字情報の修正基準となる(a1、b1、h1)及び(a2、b2、h2)は、既に入力された文字パターンの文字情報の平均値とする。
【0128】このように、本実施例によれば、認識後処理部15で”X”、”x”等の類似大小文字の識別を行う際に用いる文字情報記憶部50に記憶されている各文字カテゴリの標準文字サイズ情報、位置情報を実際に入力された文字パターンのサイズ情報、位置情報に基づいて修正することが可能である。即ち、文書画像の認識処理をリアルタイムで行うことによって、類似大小文字のサイズ情報、位置情報を学習していくので、認識後処理部15における類似大小文字の識別を適応的に向上させることができ、最終的に高精度な認識性能を実現できる。
【0129】また、請求項1の本発明の文字選択認識後処理部とは、上記実施例では候補文字選択部14及び認識後処理部15に相当する。
【0130】
【発明の効果】以上述べたところから明らかなように、本発明によれば、複数種類の文字パターンの特徴ベクトルを各々別個の単一特徴認識部で識別処理して文字パターンの各特徴ベクトルに対する各文字カテゴリの類似度を求めたのち、候補文字選択部がこれら全ての類似度を用いて各単一特徴認識部から得られる識別結果を統合し、最終的な入力文字パターンの認識を行う。従って、従来例のように複数種類の文字パターンの特徴ベクトルを1つにまとめて用いる場合には困難であった「ある特徴ベクトルでは誤認識する文字パターンを異なる特徴ベクトルによる識別結果から正しく認識する」ということが容易にできるようになり、高精度の文字認識を実現することができる。
【0131】また、従来法では、複数種類の文字パターンの特徴ベクトルの使用によって、認識に要する時間が増加するが、本実施例では、各単一特徴認識部が各々並列に識別処理を行うので、認識に要する時間を従来例に比べ、短くすることができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013