米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 英文字認識装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−28957
公開日 平成7年(1995)1月31日
出願番号 特願平5−170107
出願日 平成5年(1993)7月9日
代理人 【弁理士】
【氏名又は名称】小鍜治 明 (外2名)
発明者 湯下 良一
要約 目的
誤認識をした文字を補正することができ、認識精度を向上させることができる信頼性に優れた英文字認識装置の提供を目的とする。

構成
文書を認識する英文字認識手段1と、テキストデータを記憶するテキスト記憶手段2と、単語のスペルを記憶している単語辞書4と、テキストデータ中の単語を単語辞書4と比較してスペルが正しいか調べるスペルチェック手段5と、スペルが誤っている単語を記憶するスペル誤り単語記憶手段6と、他の文字と誤認識されやすい文字のペアと誤認識された時の文字とを記憶している誤認識文字候補辞書7と、スペル誤り単語記憶手段6内の単語中の誤認識文字候補辞書7にある文字を置換して置換済単語を作成しそのスペルを調べ正しいと判断した時にテキスト記憶手段2の置換前の単語を置換済単語へ訂正する誤認識単語訂正手段8とを備えた構成からなる。
特許請求の範囲
【請求項1】英文字等からなる文書を認識しアスキー(ascii)コード等のコード情報からなるテキストデータを出力する英文字認識手段と、前記英文字認識手段から出力されるテキストデータを記憶するテキスト記憶手段と、全ての単語のスペルを記憶している単語辞書と、前記テキスト記憶手段に記憶されているテキストデータ中の全ての単語を前記単語辞書と比較してスペルが正しいか調べるスペルチェック手段と、前記スペルチェック手段でスペルが誤っていると判断されたテキストデータ中の単語を記憶するスペル誤り単語記憶手段と、隣接した時に他の文字と誤認識されやすい文字のペアと誤認識された時の文字とを対応させて記憶している誤認識候補文字辞書と、前記スペル誤り単語記憶手段に記憶されている単語中に前記誤認識文字候補辞書中の文字が含まれている時にこれを前記誤認識文字候補辞書を用いて置換して置換済単語を作成する誤認識単語置換手段と、前記誤認識単語置換手段から出力される前記置換済単語に対して前記スペルチェック手段を用いてスペルが正しいか再度チェックし正しいと判断した時に置換済単語を正解単語とし前記テキスト記憶手段の置換前の単語を置換済単語へ訂正する誤認識単語訂正手段とを備えたことを特徴とする英文字認識装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は新聞,小説,手紙等の活字,ドット文字,手書き文字等の英文字を認識することのできる英文字認識装置に関するものである。
【0002】
【従来の技術】近年、国際化社会が到来し、英語,独語等のアルファベット等(以下英文字と呼ぶ)で書かれた文献等を参照する機会が増加し、その際の作業性向上のために文書の電子化が行われている。この時のコンピュータへの入力装置として、キーボードに代わって、英文字認識装置が用いられるようになった。
【0003】以下に従来の英文字認識装置について説明する。図5は従来の英文字認識装置の機能ブロック図である。1は英文字等からなる文書を認識してasciiコード等のコード情報からなるテキストデータを出力する英文字認識手段、2は英文字認識手段1から出力されるテキストデータを記憶するテキスト記憶手段、3はテキスト記憶手段2に記憶されているテキストデータを認識結果として表示するCRT,LED等からなる認識結果表示手段である。
【0004】以上のように構成された従来の英文字認識装置について、以下その動作を説明する。図6(a)は認識対象文書の一例を示す図であり、図6(b)は認識結果の一例を示す図である。
【0005】初めに、図6(a)に示すような認識対象文書を英文字認識手段1によって読み込み、文字認識を行う。次に、英文字認識手段1から認識結果をasciiコード等からなるテキストデータとして出力し、これをテキスト記憶手段2に記憶するとともに、テキストデータ中のコードに対応する文字を図6(b)に示すように認識結果として認識結果表示手段3に表示する。
【0006】ここで、図6(b)より明らかなように、図6(a)に示した認識対象文書中の単語“returns”を“retums”と誤認識しているが、これは単語“returns”中の隣接する文字‘r’と‘n’とが接触した時に、その形状が文字‘m’と非常に類似するために、‘rn’を‘m’と誤認識してしまうことが原因となっている。このように、単語中にある特定の文字のペアが隣接している時に、この文字のペアを一体にしたものが他の文字と極めて類似していると、誤認識をしてしまい、認識精度の低下の原因となっていた。逆に、‘m’と‘rn’のように、文字のかすれ等によって、一つの文字が分断されたものが、他の特定の文字のペアと類似する場合にも、同様に認識精度の低下の原因となっていた。
【0007】
【発明が解決しようとする課題】しかしながら上記従来の構成では、認識対象文書の単語中に隣接した文字のペアを一体にしたものが他の文字と類似している場合や、逆に一つの文字を分断したものが他の文字のペアと類似している場合等に、誤認識をしやすく認識精度の低下を招き信頼性に欠けるという問題点を有していた。
【0008】本発明は上記従来の問題点を解決するもので、誤認識をした文字を補正することができ、認識精度を向上させることのできる信頼性に優れた英文字認識装置を提供することを目的とする。
【0009】
【課題を解決するための手段】この目的を達成するために本発明の英文字認識装置は、英文字等からなる文書を認識しアスキー(ascii)コード等のコード情報からなるテキストデータを出力する英文字認識手段と、前記英文字認識手段から出力されるテキストデータを記憶するテキスト記憶手段と、全ての単語のスペルを記憶している単語辞書と、前記テキスト記憶手段に記憶されているテキストデータ中の全ての単語を前記単語辞書と比較してスペルが正しいか調べるスペルチェック手段と、前記スペルチェック手段でスペルが誤っていると判断されたテキストデータ中の単語を記憶するスペル誤り単語記憶手段と、隣接した時に他の文字と誤認識されやすい文字のペアと誤認識された時の文字とを対応させて記憶している誤認識候補文字辞書と、前記スペル誤り単語記憶手段に記憶されている単語中に前記誤認識文字候補辞書中の文字が含まれている時にこれを前記誤認識文字候補辞書を用いて置換して置換済単語を作成する誤認識単語置換手段と、前記誤認識単語置換手段から出力される前記置換済単語に対して前記スペルチェック手段を用いてスペルが正しいか再度チェックし正しいと判断した時に置換済単語を正解単語とし前記テキスト記憶手段の置換前の単語を置換済単語へ訂正する誤認識単語訂正手段とを備えた構成を有している。
【0010】ここで、一つの単語中に誤認識文字候補辞書中の文字が複数ある時には、誤認識単語置換手段において全ての置換の組合せについて置換済単語を作成する。
【0011】
【作用】この構成によって、スペルチェック手段が単語辞書を参照してテキストデータ中からスペルが誤っている単語を抽出し、誤認識単語置換手段が抽出された単語中に誤認識文字候補辞書中の文字が含まれているかどうかを調べ、含まれていればそれを誤認識文字候補辞書を用いて置換して置換済単語を作成し、誤認識単語訂正手段が置換済単語をスペルチェック手段を用いて再度スペルが正しいかチェックしてスペルが正しくなっていた場合にその置換済単語を正解単語としてテキストデータを訂正するために、隣接する文字のペアを他の文字と誤認識したり、逆に一つの文字を他の文字のペアと誤認識した場合であっても、これらを誤認識文字候補辞書を用いて補正することができ、認識精度を向上させることができる。
【0012】
【実施例】以下本発明の一実施例における英文字認識装置について、図面を参照しながら説明する。図1は本発明の一実施例における英文字認識装置の機能ブロック図であり、図2は本発明の一実施例における英文字認識装置の装置ブロック図である。1は英文字認識手段、2はテキスト記憶手段、3は認識結果表示手段であり、これらは従来例と同様なものなので同一の符号を付し説明を省略する。4は全ての単語の正しいスペルを記憶している単語辞書、5はテキスト記憶手段2に記憶されているテキストデータ中の単語のスペルが正しいかを調べてスペルが誤っている単語をスペル誤り単語記憶手段6に記憶させるスペルチェック手段、7は隣接した時に他の文字と誤認識されやすい文字のペアと誤認識された時の文字とを対応させて記憶している誤認識文字候補辞書、8はスペル誤り単語記憶手段6に記憶されている単語中に誤認識文字候補辞書7中の文字が含まれている時にこれを誤認識文字候補辞書7を用いて置換して置換済単語を作成しこの置換済単語に対してスペルチェック手段5を用いて再度スペルが正しいか調べスペルが正しければその置換済単語を正解単語と判断してテキスト記憶手段2に記憶されているテキストデータを訂正する誤認識単語訂正手段である。図2において、9は英文字認識装置全体を制御する中央演算処理装置(以下CPUと略す)、10はCPU9へ与える指示を記憶する制御プログラム領域11と単語辞書4が記憶される単語辞書領域12と誤認識文字候補辞書7が記憶される誤認識文字候補辞書領域13とを有するリードオンリメモリ(以下ROMと略す)、14はテキスト記憶手段2を構成するテキストデータ領域15とスペル誤り単語記憶手段6を構成するスペル誤り単語領域16とを有するランダムアクセスメモリ(以下RAMと略す)、17はスキャナ(図示せず)等からなり英文字認識手段1を構成する英文字認識部、18は英文字認識装置へ文字認識の開始等を指示するためのキーボード、19は認識結果表示手段3を構成する表示装置、20は上記のデバイス同士を接続するバスである。
【0013】以上のように構成された本発明の一実施例における英文字認識装置について、以下その動作を説明する。図3は本発明の一実施例における英文字認識装置のフローチャートであり、図4は本発明の一実施例における英文字認識装置の誤認識文字候補辞書の一例を示す図である。
【0014】初めに、英文字認識手段1によって、認識対象文書を文字認識し、その認識結果をasciiコード等からなるテキストデータとしてテキスト記憶手段2に記憶する(S1)。ここで、例として、認識対象文書は図6(a)に示すようなもので、これに対する認識結果が図6(b)に示すようなものであったとする。次に、スペルチェック手段5によって、テキスト記憶手段2に記憶されているテキストデータ中の単語のスペルに誤りがないかを、単語辞書4を参照することで調べ、誤りがあると判断された単語をスペル誤り単語記憶手段6に記憶する(S2)。ここで、図6(b)に示す認識結果では、単語“retums”が単語辞書4中に存在しないため、スペルが誤っていると判断され、これがスペル誤り単語記憶手段6に記憶される。次に、誤認識単語訂正手段8によって、スペル誤り単語記憶手段6に記憶されている単語中に、誤認識文字候補辞書7中に記憶されている文字があるか調べ、ある場合はその誤認識文字候補辞書7に従って置換し、置換済単語を作成する(S3)。この時、スペル誤り単語記憶手段6に記憶されている単語中に、誤認識文字候補辞書7中に記憶されている文字が複数ある場合は全ての置換の組合せについて置換済単語を作成する。ここで、スペル誤り単語記憶手段6には、単語“retums”が記憶されており、この単語の中の文字‘m’が図4に示すような誤認識文字候補辞書7中に記憶されているので、誤認識単語訂正手段8が誤認識文字候補辞書7に基づいてこの文字‘m’を文字‘rn’と置換し、置換済単語“returns”を作成する。次に、S3で置換済単語が作成されたか調べる(S4)。Noである場合は、S8へjumpし、Yesである場合は、誤認識単語訂正手段8によって、置換済単語のスペルが正しいかスペルチェック手段5を用いて再度チェックを行う(S5)。次に、S5でスペルが正しくなったか調べる(S6)。ここで、置換済単語“returns”のスペルは正しくなっている。Noである場合は、S8へjumpし、Yesである場合は、テキスト記憶手段2中の該当単語をその置換済単語に訂正する(S7)。ここで、図6(b)中の該当単語“retums”を置換済単語“returns”に訂正する。次に、スペル誤り単語記憶手段6中の全ての単語を処理したか調べる(S8)。ここで、図6(b)に示すテキストデータの内単語“retums”が置換済単語“returns”に訂正されたため、全ての単語のスペルが正しくなっている。Noである場合は、次のスペル誤り単語を処理するためにS3へjumpし、Yesである場合は、認識結果表示手段3によって、テキスト記憶手段2に記憶されている訂正されたテキストデータを認識結果として表示し、全ての処理を終了する(S9)。ここで、以上の処理によって、認識結果は図6(a)に示す認識対象文書と同一なものとなり、文字認識精度を向上させることができる。
【0015】尚、本実施例においては、隣接する2つの文字‘rn’を他の文字‘m’と誤認識した場合について説明したが、逆に1つの文字‘m’等を2つの文字‘rn’等と誤認識した場合であっても同様に処理することができる。
【0016】
【発明の効果】以上のように本発明は、スペルチェック手段が単語辞書を参照してテキストデータ中からスペルが誤っている単語を抽出し、誤認識単語置換手段が抽出された単語中に誤認識文字候補辞書中の文字が含まれているかどうかを調べ、含まれていればそれを誤認識文字候補辞書を用いて置換して置換済単語を作成し、誤認識単語訂正手段が置換済単語をスペルチェック手段を用いて再度スペルが正しいかチェックしてスペルが正しくなっている場合にその置換済単語を正解単語としてテキストデータを訂正するために、隣接する文字のペアを他の文字と誤認識したり、逆に1つの文字を他の文字のペアと誤認識した場合であっても、これらを誤認識文字候補辞書を用いて補正することができ、認識精度を向上させることができる信頼性に優れた英文字認識装置を実現できるものである。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013