米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> オムロン株式会社

発明の名称 文字認識方法およびその装置ならびに文字認識処理用のプログラムが記録された記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−101341(P2001−101341A)
公開日 平成13年4月13日(2001.4.13)
出願番号 特願平11−280648
出願日 平成11年9月30日(1999.9.30)
代理人 【識別番号】100078916
【弁理士】
【氏名又は名称】鈴木 由充
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029 AA01 BB02 CC25 CC29 
発明者 福本 博文 / 近藤 達彦 / 山口 尚輝
要約 目的


構成
特許請求の範囲
【請求項1】 原稿の画像に対する領域の指定を受け付けて、その指定された領域内に含まれる文字を認識する方法であって、前記原稿の画像に対し非矩形の領域が指定されたとき、この領域に外接する矩形領域を設定して、この矩形領域内において、前記非矩形の領域より外に位置する各画素の画像データを背景を表すデータに変換した後、矩形領域内のすべての画像データに対する文字認識処理を実行することを特徴とする文字認識方法。
【請求項2】 原稿の画像を入力する画像入力手段と、前記画像入力手段により入力された原稿の画像に対し、文字認識処理の対象とする領域を指定するための領域指定手段と、前記領域指定手段により非矩形の領域が指定されたとき、この領域に外接する矩形領域を設定する領域設定手段と、前記領域設定手段により設定された矩形領域内で前記非矩形の領域より外に位置する各画素の画像データを、文字の背景を表すデータに変換する画像データ変換手段と、前記画像データ変換手段による変換処理の後に、前記矩形領域内のすべての画像データに対する文字認識処理を実行する文字認識手段と、前記文字認識手段による認識結果を出力する出力手段とを具備して成る文字認識装置。
【請求項3】 前記領域指定手段は、自由曲線による領域の指定が可能である請求項2に記載された文字認識装置。
【請求項4】 原稿の画像に対し、文字認識処理の対象とする領域の指定を受け付けるステップ、前記画像に非矩形の領域が指定されたとき、その領域に外接する矩形領域を設定するステップ、前記矩形領域内で前記非矩形領域より外に位置する画素の画像データを、文字の背景を表すデータに変換するステップ、前記変換処理後に、前記矩形領域内のすべての画像データに対する文字認識処理を実行するステップ、前記文字認識処理の結果を出力するステップ、の各ステップを実行するためのプログラムが記録された文字認識用のプログラムの記録媒体。
発明の詳細な説明
【0001】
【産業上の利用分野】この発明は、所定のレイアウトによる原稿を光学的に読み取って得られる画像を用いて、前記原稿に描かれた文字を認識する技術に属するもので、特に、ユーザーに文字認識処理の対象となる領域を自由に指定させて、この指定された領域内に含まれる文字を認識する技術に関連する。
【0002】
【従来の技術】従来の光学的文字認識装置(OCR)では、イメージスキャナにより得られた原稿の画像をモニタに表示し、この表示画面上で、ユーザーに、処理対象とする文字列を含むような矩形領域を指定させ、その領域内の文字を切り分けて一文字ずつ認識するようにしている。
【0003】また各行の長さが異なっていたり、見出し,図,写真などの認識対象外の部分が含まれるなど、矩形領域の設定が困難な原稿にも対応できるように、原稿の文字列に応じた多角形の領域を指定するようにしたり(特開平5−128302号公報)、矩形領域を指定した後に、その領域内で読取り不要な領域の指定を受け付けて、前記矩形領域から不要な領域を削除した多角形領域を、認識対象領域として再設定する(特開平10−269312号公報)などの技術も開示されている。
【0004】
【発明が解決しようとする課題】文字認識処理の対象領域として矩形領域のみを受け付ける方法では、図7に示すように、行単位の文字数がまちまちに設定された原稿に対しては、複数個の矩形領域(図中、A1,A2,A3,A4)を設定する必要がある。このためユーザーは、何度も領域の指定操作を繰り返さなければならず、操作が煩雑になる。また領域毎の文字認識結果は、それぞれ個別のテキストデータとして出力されるので、ユーザーは処理の後で各テキストデータを統合する必要があり、最終形態の認識結果を得るまでに多大な時間や労力を要するという問題がある。
【0005】これに対し、特開平5−128302号公報や特開平10−269312号公報の方法によれば、図8や図9に示すように、文字列に沿う複数の線分で囲まれた多角形の領域A5,A6を設定して、認識対象部分全体の認識結果を一度に出力することが可能となる。
【0006】しかしながら多角形の領域内で文字を一文字ずつ切り分けて認識するためには、多角形を構成する各線分に応じて、画像データの読出し開始位置や読出し終了位置を変動させる必要があり、処理が煩雑になる。たとえば特開平5−128302号公報では、指定領域内の文字を抽出するのに、各画素データをX,Yの各軸方向に投影してヒストグラムを作成し、軸上の黒画素の投影範囲に基づいて行や文字を切り分けているが、指定領域が多角形になると、その形状に応じて投影処理の開始位置や終了位置を変動する必要が生じる。特に、図9に示すような斜めの線分を含む多角形領域A6が指定された場合は、斜めの線分を表す関数を求めた上で、この関数に応じて、軸上の投影地点が変わる毎に投影処理の開始位置や終了位置を変動させる必要があり、CPUに多大な負担がかかる。
【0007】さらに特開平5−128302号公報や特開平10―269312号公報に記載の方法では、自由曲線による領域の指定を受け付けられないという問題がある。自由曲線を正確な関数にして表すことは、およそ不可能であり、仮に自由曲線を近似する複数の直線や曲線に置き換えて認識対象領域を再設定したとしても、文字の切り分け作業が非常に複雑になって、CPUに過度の負担がかかるからである。
【0008】この発明は上記問題点に着目してなされたもので、原稿の画像に対し、任意の形状の領域の指定を可能となすとともに、指定された領域内の文字を簡単かつ精度良く切り分けて、文字認識処理にかかるCPUの負担を大幅に軽減することを目的とする。
【0009】またこの発明が他に目的とするところは、これまで不可能であった自由曲線による領域の指定を可能となすことにより、ユーザーの指定操作を簡単化し、複雑なレイアウトの原稿に対しても、認識対象領域の指定を簡単に行えるようにする点にある。
【0010】
【課題を解決するための手段】請求項1の発明は、原稿の画像に対する領域の指定を受け付けて、その指定された領域内に含まれる文字を認識する方法であって、前記原稿の画像に対し非矩形の領域が指定されたとき、この領域に外接する矩形領域を設定して、この矩形領域内において、前記非矩形の領域より外に位置する各画素の画像データを背景を表すデータに変換した後、矩形領域内のすべての画像データに対する文字認識処理を実行することを特徴とする。
【0011】請求項2の発明は、上記方法を実行するための文字認識処理装置であって、原稿の画像を入力する画像入力手段と、前記画像入力手段により入力された原稿の画像に対し、文字認識処理の対象とする領域を指定するための領域指定手段と、前記領域指定手段により非矩形の領域が指定されたとき、この領域に外接する矩形領域を設定する領域設定手段と、前記領域設定手段により設定された矩形領域内で前記非矩形の領域より外に位置する各画素の画像データを、文字の背景を表すデータに変換する画像データ変換手段と、前記画像データ変換手段による変換処理の後に、前記矩形領域内のすべての画像データに対する文字認識処理を実行する文字認識手段と、前記文字認識手段による認識結果を出力する出力手段とを具備する。なお画像入力手段としては、イメージスキャナのような光学的に原稿を読み取る装置からの画像を入力する手段のほか、所定の記録媒体より処理対象の原稿の画像を読み取る手段や、通信により処理対象の画像を取得する手段などが考えられる。
【0012】請求項3の発明では、前記領域指定手段は、自由曲線による領域の指定が可能に構成される。
【0013】請求項4の発明にかかる文字認識用のプログラムの記録媒体には、原稿の画像に対し、文字認識処理の対象とする領域の指定を受け付けるステップ、前記画像に非矩形の領域が指定されたとき、その領域に外接する矩形領域を設定するステップ、前記矩形領域内で前記非矩形領域より外に位置する画素の画像データを、文字の背景を表すデータに変換するステップ、前記変換処理後に、前記矩形領域内のすべての画像データに対する文字認識処理を実行するステップ、前記文字認識処理の結果を出力するステップ、の各ステップを実行するためのプログラムが記録されている。
【0014】
【作用】原稿の画像に対し、ユーザーが非矩形の領域を指定すると、その指定された領域に外接する矩形が設定され、さらにこの矩形領域内で指定された非矩形の領域の外側に位置する各画素の画像データが、白色など、文字の背景を表す画像データに変換され、しかる後に、矩形領域内のすべての画像データに対する文字認識処理が実行される。したがって、指定された領域に隣接する部分に、図や写真のなど文字以外の画像が存在しても、これらの画像は文字の背景に置き換えられて認識処理されるので、認識結果にノイズがのる虞がない。また矩形領域に対する文字認識処理を行うので、文字の切り分け作業が複雑化せず、CPUの負担を減らして認識結果を高速で出力することが可能となる。また自由曲線による領域に対しても、外接矩形を設定したり、自由曲線の外側にある画素の画像データを変換することは容易であるので、矩形や多角形のみならず、自由曲線による領域指定を受け付けることも可能となる。
【0015】
【実施例】図1は、この発明の一実施例にかかる文字認識システムの機能構成を示す。この装置は、光学的に読み取られた原稿の画像を入力して、その画像につきユーザーにより指定された領域内の文字列を一文字ずつ切り分けて認識するためのもので、画像入力部1,画像表示部2,指定領域認識部3,矩形領域設定部4,認識対象外データ変換部5,文字認識部6,データ出力部7などにより構成される。
【0016】上記システムは、具体的には、図2に示すようなパーソナルコンピュータ8に組み込まれる。このパーソナルコンピュータ8は、CPU10,ROM11,RAM12,ハードディスク装置13などから成る制御部14に、CD−ROMドライブ15,イメージスキャナ16(以下単に「スキャナ16」という),入力部17,モニタ18などが接続されて成る。
【0017】前記図1に示した各処理部は、それぞれその機能を実現するためのプログラムやデータファイルをハードディスク装置13に記憶させることにより、CPU10に付与されるものである。なおこれらのプログラムやデータファイルは、元はCD−ROMのような記録媒体に記録されており、このCD−ROMを前記CD−ROMドライブ15にセットして所定のインストール作業を行うことにより、ハードディスク装置13内に格納されたものである。
【0018】スキャナ16により生成された原稿の画像は、インターフェイス(I/F)部19を介してディジタル量の濃淡画像に変換され、制御部14に与えられる。この濃淡画像は、前記画像入力部1により所定のしきい値で2値化されてRAM12内に格納されるほか、文字認識の対象領域をユーザーに指定させるための参照画像として、モニタ18に表示される。
【0019】入力部17は、キーボードやマウスなどにより構成される。またモニタ18は、CRTやLCDなどの表示デバイスより成るもので、前記画像入力部1により取り込まれた原稿の画像や、この画像上でユーザーにより指定された領域に対する文字認識結果などが表示される。なおこれら入力部17やモニタ18も、それぞれ専用のI/F部20,21を介して制御部14に接続されている。
【0020】画像表示部2は、前記画像入力部1より2値画像を受け取ってモニタ18に表示させるためのもので、ユーザーは、この表示された画像上にマウスカーソルを操作して、文字認識の対象とする領域を指定する。指定領域認識部3は、その指定操作による領域の位置や大きさを認識するためのもので、領域の境界を構成する各画素の座標データが認識されてRAM12の所定エリアに格納される。
【0021】この実施例の文字認識システムでは、文字認識の対象領域として、線分や自由曲線を自由に組み合わせた閉領域を指定することが可能である。矩形領域設定部4は、このような非矩形の領域が指定されたことに応じて、前記濃淡画像上に前記指定領域に外接するような矩形領域を設定する。認識対象外データ変換部5は、この矩形領域において、前記指定された非矩形の領域より外にある各画素、言い換えれば2値画像上で認識対象外となる各画素のデータ値を、文字の背景を表すデータ値に変換する。
【0022】なおこの実施例では、スキャナ16によりカラー画像を生成しており、画像入力部1は、各画素を、R,G,Bの各色毎に所定のしきい値で2値化してカラーの2値画像に変換するようにしている。前記認識対象外データ変換部5は、この2値画像上で前記認識対象外となる画素を、R,G,Bの各データ値がすべて「1」となるように変換することにより、これらの画素を白色に置き換える。
【0023】文字認識部6は、前記変換処理が終了した後の2値画像に対し、すべての画素を対象とした文字認識処理を実施し、矩形領域内に含まれる文字列を表すテキストデータを生成する。データ出力部7は、この文字認識部6により生成されたテキストデータを、文字認識結果としてモニタ18上に表示したり、前記テキストデータをファイル化してハードディスク装置13などに格納する役割を果たす。
【0024】図3は、上記文字認識システムにおける一連の処理を示す。なおこの処理に先立ち、スキャナ16を作動させて処理対象とする原稿の画像を取り込む必要があるが、このシステムが処理対象とする画像はスキャナ16から取り込まれた画像に限らず、ディジタルカメラなどスキャナ以外の画像取得手段により得られた画像も同様に処理できる。またあらかじめスキャナ16から取り込まれてデータファイルの形式でハードディスク装置13などに格納された画像や、電子メールなどにより外部から送信された画像に対しても、同様の処理を実行することが可能である。またこの手順では、ユーザーが非矩形の領域を指定することを前提としているが、矩形領域を指定して従来の方法による文字認識処理を実行することも、もちろん可能である。
【0025】処理対象とする画像がモニタ18上に表示されると、ユーザーは、マウスを用いて、前記画像上に、文字認識の対象とする領域の境界線を描画する。指定領域認識部3は、この描画処理に応じて、境界線を構成する各画素の座標位置を取り込んで、RAM12内に順次格納してゆく(ST1)。
【0026】ユーザーは、認識対象となる文字列に応じて直線や自由曲線を自由に組み合せて描画することにより、処理対象の領域を指定する。所定の座標位置で、「ダブルクリック」などの操作により境界線による閉領域が特定されると、ST2が「YES」となり、その時点でRAM12内に格納された境界線の構成点の座標により、指定領域の位置や大きさが認識される。つぎのST3では、矩形領域設定部4により、前記指定領域に外接する矩形領域が設定される。
【0027】続くST4では、認識対象外データ変換部5により、前記矩形領域内において前記指定領域より外に位置する各画素の画像データが「白」を表すデータに変換される。この後、文字認識部6により、抽出された矩形領域内の画像に対する文字認識処理が実行され、その認識結果を表すテキスト列が出力される(ST5,6)。
【0028】図4は、認識対象の領域として自由曲線による閉領域25が指定された例を示す。図5は、この指定領域25に外接する矩形領域26を設定した例であって、指定領域25内の文字列のほか、この文字列に隣接する図柄やロゴの一部なども矩形領域26内に含まれている。図6は、この矩形領域26内の2値画像に対し前記認識対象外データ変換部5による変換処理を施した結果を示すもので、前記指定領域25内の文字列以外の図柄やロゴはすべて消去され、文字列に対する背景部分と同様の白色に置き換えられている。なお、図8や図9に示したような多角形領域や、線分と自由曲線とを組み合わせた領域が指定された場合にも、上記図5,6と同様の処理が実行される。
【0029】したがって前記矩形領域26内のすべての画像データを文字認識の対象としても、前記認識対象外の画素を文字として誤認識するなどのノイズが生じる虞がなく、指定領域25内の文字列を構成する各文字のみを精度良く切り分けて認識することができる。しかも矩形領域26内の画像を処理するので、前記特開平5−128302号公報のような文字の切り分け処理を行う場合にも、各軸に対する投影処理の開始位置や終了位置を固定することができる。また輪郭追跡など他の手法により文字を切り分ける際にも、矩形領域内で文字の構成画素をサーチするので、画像の読出し開始位置や終了位置を変動させる必要がなく、処理を高速化することができる。
【0030】よって文字の切り分け作業に要する時間を大幅に短縮してCPUの負担を減らし、高速かつ精度の良い認識処理を実行することができる。しかも従来は不可能であった自由曲線による領域の指定を受け付けることができるので、入り組んだレイアウトの原稿に対しても、簡単に認識対象の領域を指定することが可能となる。加えて、特開平10−269312号公報の方法では、ユーザーが読取り対象外の画像領域を指定しなければならないが、この発明によれば、ユーザーは、領域設定操作を一度行うだけで良いので、操作をきわめて単純化でき、利便性の高いシステムを提供することができる。
【0031】なお上記実施例では、カラー画像を処理対象としているが、カラー画像に限らずモノクロ画像であってもよい。また原稿の画像全体を2値化処理するのに代えて、スキャナ16からの濃淡画像をそのまま取り込んで領域の指定を行い、指定領域に外接する矩形領域内の画像データのみを2値化して抽出するようにしても良い。また濃淡画像に対する領域の指定操作を受けて、その指定領域に外接する矩形領域を設定した後、この矩形領域内の認識対象外となる各画素を、文字列の描画部分の背景に応じた濃度レベルに変換してから、矩形領域内の画像を2値化してもよい。
【0032】
【発明の効果】請求項1の発明では、原稿の画像に対し、ユーザーが非矩形の領域を指定することにより、その指定された領域に外接する矩形領域を設定して、この矩形領域につき、前記指定領域より外に位置する各画素を背景を表す画像データに変換してから文字認識処理を行うので、認識対象外の画像によるノイズが生じたり、文字の切り分け作業が複雑化する虞がなく、高速かつ高精度の文字認識処理を実現することができる。またユーザーは、原稿の文字列に応じて領域を指定するだけで良いので、簡単な操作で目的とする文字列の認識結果を得ることができる。さらに線分のほかに自由曲線による領域の指定を受け付けるようにすれば、複雑なレイアウトの原稿に対しても、認識対象とする領域を簡単に指定することが可能となり、文字認識処理を行う上での利便性が大幅に向上する。
【0033】請求項2の発明によれば、スキャナなどにより光学的に読み取られた原稿の画像や、所定の記録媒体や通信により取り込まれた画像に対し、上記方法による文字認識処理を実行する装置が提供されるので、指定操作が簡単で、しかもCPUに過度の負担をかけずに、高速かつ高精度の文字認識処理を実行することができる。さらに請求項3の発明によれば、文字認識の対象とする領域として、自由曲線による領域の指定が可能になるので、装置の利便性をより一層向上することができる。
【0034】請求項4の発明によれば、原稿の画像の取得が可能なコンピュータに、記録されたプログラムを組み込むことにより、上記方法による文字認識処理を実現することが可能となる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013