米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 英文字認識装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−28944
公開日 平成7年(1995)1月31日
出願番号 特願平5−30987
出願日 平成5年(1993)2月19日
代理人 【弁理士】
【氏名又は名称】蔵合 正博
発明者 信 岡 道 明
要約 目的
同形あるいは類似形の大文字小文字の誤認識を防ぎ、高精度な認識結果を得る。

構成
単語領域切り出し部5で求められた単語領域をもとに認識結果格納部9に格納されている認識結果と予め英単語の綴りを記憶している単語辞書11との照合により、認識の対象としている画像が文章か文字の羅列かを判定する文章判定部13と、予め大文字小文字の同形文字類似形文字を記憶している同形類似形辞書14をもとに大文字小文字の訂正を行なう大文字小文字訂正部15とを備えている。
特許請求の範囲
【請求項1】 認識対象文書を入力する画像入力部と、前記画像入力部から出力された文書画像を蓄える画像データ格納部と、前記画像格納部に格納されている画像データ中の黒画素の連なりをもとに文字に外接する矩形を求める外接矩形検出部と、前記外接矩形検出部で求められた外接矩形をもとに文字領域を求める文字領域切り出し部と、前記文字領域切り出し部で求められた文字領域の水平方向の間隔をもとに単語領域を求める単語領域切り出し部と、前記文字領域検出部で求められた文字領域内の黒画素の分布を図形特徴として抽出する図形特徴抽出部と、抽出した図形特徴と予め全ての認識対象文字の図形特徴を記憶している認識辞書との比較により認識結果を求める文字認識処理部と、予め全ての認識対象文字の図形特徴を記憶している認識辞書と、前記文字認識処理部で求められた認識結果を格納する認識結果格納部と、前記単語領域切り出し部で求められた単語領域をもとに前記認識結果格納部に格納されている認識結果と予め英単語の綴りを記憶している単語辞書との照合により認識の対象としている画像が文章か文字の羅列かを判定する文章判定部と、予め英単語の綴りを記憶している単語辞書と、前記文章判定部において文章と判定された場合、予め同形文字および類似形文字を記憶している同形類似形辞書をもとに大文字および小文字の訂正を行なう大文字小文字訂正部と、前記文章判定部において文章と判定された場合、前記単語領域切り出し部で求められた単語領域をもとに、前記認識結果格納部に格納されている認識結果と前記単語辞書との照合により誤認識した文字の訂正を行なう後処理部と、前記認識結果格納部に格納されている認識結果を出力する認識結果出力部とを備えた英文字認識装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、英文字の文字認識を行なう英文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置を電子計算機等の入力装置として利用する要求が高まっており、安定な認識結果を効率的に得ることができる文字入力装置が電子計算機等のシステムの性能向上に不可欠となっている。
【0003】以下、従来の英文字認識装置について説明する。図8は従来の文字認識装置の機能構成を示すブロック図である。図8において、1は認識対象文書を2値画像として入力する画像入力部、2は画像入力部1で入力した文書画像を記憶する画像データ格納部、3は画像データ格納部2で記憶した文書画像中の黒画素の連なりをもとに文字に外接する矩形を求める外接矩形検出部、4は外接矩形検出部3で求められた外接矩形もとに文字領域を求める文字領域切り出し部、5は文字領域切り出し部4で求められた文字領域の水平方向の間隔をもとに単語領域を求める単語領域切り出し部、6は文字領域切り出し部4で求められた文字領域内の画像の黒画素の分布を図形特徴として抽出する図形特徴抽出部、7は図形特徴抽出部6で求められた図形特徴と、予め用意されている全ての認識対象文字の図形特徴とを比較し、類似する特徴を有する文字を認識結果として求める文字認識部、8は認識対象となる全ての文字の図形特徴を記憶している認識辞書、9は文字認識部7で求められた認識結果を蓄える認識結果格納部、10は求められた認識結果を単語照合により訂正する後処理部、11は英単語の綴りを記憶している単語辞書部、12は認識結果格納部9に格納されている認識結果を出力する認識結果出力部である。
【0004】以上のように構成された文字認識装置について、以下、その動作を説明する。まず、画像入力部1で認識対象文書を2値画像として入力し、画像データ格納部2に蓄える。次に、画像データ格納部2に格納された文書画像中の文字に外接する矩形を黒画素の連なりをもとに外接矩形検出部3で求め、この矩形の大きさ、矩形間の距離をもとに文字領域を文字領域切り出し部4で求める。求められた文字領域の水平方向の間隔をもとに単語領域を単語領域切り出し部5で求める。また、文字領域内の画像の黒画素の分布を図形特徴として図形特徴抽出部6で抽出し、抽出された図形特徴を文字認識部7に送り、認識辞書8として予め用意されている全ての認識対象文字の図形特徴と比較し、類似する特徴を有する文字を認識結果とし、認識結果格納部9に蓄える。次に後処理部10において単語領域切り出し部5で求められた単語領域をもとに認識結果格納部9に記憶されている認識結果と単語辞書11として予め用意される英単語の綴りと照合を行ない、認識確度の低い文字が誤読された場合、それを正しい認識結果に訂正し、認識結果出力部12で文書の認識結果を出力する。このようにして、文書画像中の全ての文字が認識されることとなる。
【0005】
【発明が解決しようとする課題】しかしながら、上記従来の英文字認識装置では、大文字、小文字が同じ形をしている文字(以下、同形文字と呼ぶ。)および類似した形をしている文字(以下、類似文字と呼ぶ。)を誤認識することがたびたび発生していたが、単語照合による方法のみではこれらの誤認識の訂正を行なうことができないという問題点を有していた。
【0006】本発明は、上記問題点を解決するものであり、高精度の認識結果を得ることのできる英文字認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するために、本発明の英文字認識装置は、従来の英文字認識装置に、単語領域切り出し部で求められた単語領域をもとに認識結果格納部に格納されている認識結果と予め英単語の綴りを記憶している単語辞書との照合により、認識の対象としている画像が文章か文字の羅列かを判定する文章判定部と、予め大文字および小文字の同形文字および類似形文字を記憶している同形類似形辞書をもとに大文字および小文字の訂正を行なう大文字小文字訂正部とを備えたものである。
【0008】
【作用】本発明は、上記構成によって、文字認識を行なった後、単語照合により文章であるか否かを判断し、文章である場合、同形あるいは類似形の大文字、小文字の訂正を行なった後、後処理を行なうことにより、高精度な認識結果を得ることができる。
【0009】
【実施例】以下、本発明の一実施例について、図面を参照しながら説明する。図1は本発明の一実施例における英文字認識装置の機能ブロック図である。図1において、1は画像入力部、2は画像データ格納部、3は外接矩形検出部、4は文字領域切り出し部、5は単語領域切り出し部、6は図形特徴抽出部、7は文字認識部、8は認識辞書、9は認識結果格納部、10は後処理部、11は単語辞書、12は認識結果出力部であり、これらは図8に示した従来例と同様なものなので、同一の番号を付して説明を省略する。
【0010】13は単語領域切り出し部5で求められた単語領域をもとに認識結果格納部9に格納されている認識結果と予め英単語の綴りを記憶している単語辞書11との照合により、認識の対象としている画像が文章か文字の羅列かを判定する文章判定部、14は予め大文字、小文字の同形文字、類似形文字を記憶している同形類似形辞書、15は同形類似形辞書14をもとに大文字、小文字の訂正を行なう大文字小文字訂正部である。
【0011】図2は本発明の一実施例における英文字認識装置の装置ブロック図である。図2において、16は認識対象文書を2値画像として読み込むスキャナ、17は全体の制御を行なう中央処理装置(以下、CPUと略称する。)、18はCPUが全体の制御を行なうための制御プログラム、19は全ての認識対象文字の図形特徴を記憶している認識辞書、20は単語の綴りを記憶している単語辞書、21は大文字、小文字の同形文字、類似文字を記憶している同形類似形辞書、22はこれら制御プログラム18、認識辞書19、単語辞書20、同形類似形辞書を記憶するリードオンリーメモリ、23はスキャナ16により読み込まれた文書画像、24は画像中の文字領域、25は単語領域、26は認識結果、27はこれら文書画像23、文字領域24、単語領域25、認識結果26を記憶するためのランダムアクセスメモリ、28はCPU17に対して外部から開始・終了等の指令を与えるためのキーボード、29は認識結果を出力するための出力装置、30は各部装置16から29を互いに結ぶ内部バスである。
【0012】以上のように構成された文字認識装置について、以下その動作を図3に示す全体のフローチャートを用いて説明する。まず認識対象文書の2値画像を画像入力部1により入力し、画像データ格納部2に蓄え(ステップ31)、その画像中にて、8近傍で連結している黒画素の集まりを1つの文字パターンとして、その文字パターンに外接する矩形を外接矩形検出部3により求め、内部データとして蓄える(ステップ32)。次に、抽出された外接矩形領域を文字領域切り出し部4に送り、微少矩形が存在しかつその矩形の垂直方向のすぐ近くに矩形が存在する場合、i,j等の分離文字とみなし、それらを結合して文字領域とし、その他の場合は外接矩形を文字領域とする(ステップ33)。次に、求められた文字領域を単語領域切り出し部5に送り、隣接する文字領域の水平方向の間隔が広い場合を単語の区切りとみなし単語領域を求める(ステップ34)。次に、求められた文字領域内の画像を画像データ格納部2から取り出し、画像中の黒画素の分布を図形特徴として抽出する(ステップ35)。次に、抽出された図形特徴を文字認識部7に送り、予め全ての認識対象文字の図形特徴を記憶している認識辞書8との比較により、類似した特徴を有する文字を認識結果として認識結果格納部12に蓄える(ステップ36)。次に、入力された画像が文章であるか否かを判定する(ステップ37)。
【0013】以下、図4のフローチャートを用いて文章判定処理について説明する。まず文書中の単語数を数えるカウンタ(以下、単語数カウンタと呼ぶ。)と、単語照合により一致した単語数を数えるカウンタ(以下、一致カウンタと呼ぶ。)と、単語照合により単語である可能性が高い単語数を数えるカウンタ(以下、候補カウンタと呼ぶ。)の値を0にする(ステップ41)。次に単語数カウンタを1増加させ(ステップ42)、認識候補第1位の文字列を用いて大文字小文字の区別なく単語辞書11と照合を行なう(ステップ43)。もし一致すれば(ステップ44)、一致カウンタを1増加させる(ステップ45)。一致カウンタの値が2以上になれば(ステップ46)、入力画像は文章であると判断し(ステップ47)、判定処理を終了する。
【0014】ステップ44において、単語照合が一致していなければ、単語の長さが5以上でかつ一致していない文字数が2文字以内の単語が存在するかどうか判定する(ステップ48)。もし、単語の長さが5以上でかつ一致していない文字数が2文字以内の単語が存在する場合、あるいはステップ46で一致カウンタの値が2未満すなわち1の場合、候補カウンタの値を1増加させる(ステップ49)。以上の処理をステップ46で一致カウンタの値が2以上になるまで全単語について行なう(ステップ50)。
【0015】全単語の処理が終了してもステップ46で一致カウンタの値が2以上にならない場合、候補数÷単語数の値が0.8以上かどうかを判定する(ステップ50A)。0.8以上の場合は文章と判断し(ステップ47)、0.8未満であれば文字の羅列と判断し(ステップ50B)、判定処理を終了する。
【0016】以上の文章判定処理で入力画像が文章と判断された場合、図3のステップ38で認識結果格納部9に蓄えられている結果認識を大文字小文字訂正部15に送り、大文字小文字の訂正処理を行なう。
【0017】以下、図5のフローチャートを用いて大文字小文字訂正処理について説明する。まず、図6に示すような同形類似形辞書14を用いて単語内に同形文字、類似形文字以外の認識確度が高い文字(以下、確定文字と呼ぶ。)が存在するかどうかを探索する(ステップ54)。もし存在した場合、その文字が単語列の先頭以外に存在するかどうかを判定する(ステップ52)。もし先頭以外に存在した場合、その文字が大文字であれば(ステップ53)、単語内の全ての同形文字、類似形文字を大文字に置き換え(ステップ54)、その文字が大文字でなければ単語内の先頭以外の全ての同形文字、類似形文字を小文字に置き換える(ステップ57)。ステップ51において、単語内に同形文字、類似形文字以外の確定文字が存在しない場合またはステップ52で確定文字が単語列の先頭に存在した場合、単語内に同形文字、類似形文字以外の文字が存在しないかどうかを探索する(ステップ55)。もし、同形文字、類似文字以外の文字が存在した場合、それらの文字が大文字の数が多いか小文字の数が多いかを判定する(ステップ56)。もし、小文字の数が多ければ、ステップ57で単語内の先頭以外の全ての同形文字、類似文字を小文字に置き換える。もし、大文字の数が多ければ、ステップ54で単語内の全ての同形文字、類似文字を大文字に置き換える。
【0018】次に、認識結果格納部に蓄えられている認識結果は、図3のステップ39で後処理部10に送られ、単語領域切り出し部5で求められた単語領域をもとに、認識結果格納部9に格納されている認識結果と単語辞書11とを照合して綴りに関して誤認識した文字の訂正を行ない、その結果を認識結果格納部9に格納する。次いでステップ40で認識結果格納部9に蓄えられている訂正された認識結果を認識結果出力部12に送り、認識対象文書の認識結果を出力する。
【0019】以上のステップ31〜40の処理を行なうことにより、与えられた文書画像の文字認識処理が完了する。
【0020】図7(a)に被入力対象の入力画像の例、(b)にその文字認識処理後の認識結果を(網掛けは認識確度の低い文字を示す)、(c)にその大文字小文字訂正処理、後処理後の認識結果を示す。
【0021】
【発明の効果】以上のように、本発明は、文字認識を行なった後、単語照合により文章である否かを判断し、文章である場合、同形あるいは類似形の大文字、小文字の訂正を行なった後、後処理を行なうことにより、高精度な文字認識装置を実現することができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013