米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 情報検索装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−121547
公開日 平成7年(1995)5月12日
出願番号 特願平5−263281
出願日 平成5年(1993)10月21日
代理人 【弁理士】
【氏名又は名称】蔵合 正博
発明者 伊 藤 正 雄
要約 目的
検索条件を正規表現に変換することにより、誤字脱字が含まれている場合や改行コードが含まれている場合でも正確に検索できるようにする。

構成
検索条件入力部11で入力された各キーワードに対して誤字脱字が含まれていても検索可能なように正規表現に変換する正規表現変換部12を設け、異なった表記でも検索できるように異表記拡張部13で拡張を行ない、また類似した表記でも検索できるように類似表記拡張部14で拡張を行ない、検索条件を変換することより検索精度の向上を図る。
特許請求の範囲
【請求項1】 検索のためのキーワードを入力する検索条件入力部と、入力されたキーワードに対して正規表現に変換する正規表現変換部と、前記正規表現に変換された検索条件をもとに検索を行なう検索部と、検索結果を表示する検索結果表示部とを備えた情報検索装置。
【請求項2】 正規表現に変換された検索条件を異なる表記に拡張する異表記拡張部およびまたは表記が類似した表記に拡張する類似表記拡張部とを備えた請求項1記載の情報検索装置。
【請求項3】 正規表現に変換された検索条件を異表記拡張部で異表記に拡張した後、類似表記拡張部で類似表記に拡張することを特徴とする請求項1記載の情報検索装置。
【請求項4】 正規表現変換部が、改行コード、改ページコード、空白コード、タブコードを無視する正規表現に変換する読み飛ばし変換部を備えた請求項1から3のいずれかに記載の情報検索装置。
【請求項5】 正規表現変換部が、任意文字を使ってキーワード間の文字数制限を表す正規表現に変換する隣接照合変換部を備えた請求項1から4のいずれかに記載の情報検索装置。
【請求項6】 正規表現変換部が、キーワード間に句点と読点を除いた文字で一致する正規表現に変換する可変長文字列変換部を備えた請求項1から5のいずれかに記載の情報検索装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、電子化された文書データベースからの検索処理に利用される情報検索装置に関するものである。
【0002】
【従来の技術】近年、ワードプロセッサの普及や文字認識装置の普及に伴い、これらによって作成される電子化文書が多くなってきている。このため、大量の文書情報を蓄積し、必要に応じて文書情報を検索するための文書データベースに対する関心が高まってきている。従来の文書データベースでは、文書を検索する場合、文書毎に付されたキーワードを利用するキーワード検索が一般的であった。しかし、キーワード付け作業が蓄積文書の増加に間に合わない、時間が経過するとキーワードが陳腐化する、データベース管理者の予想を越えたキーワードによる検索には対応できず検索漏れが多くなる、等の問題点があった。このような背景から最近は、全文データベースと呼ばれる文書データベースが注目されている。全文データベースでは、利用者から与えられた検索条件と蓄積されている文書の全ての情報との間で照合を行ない、検索条件を満たす文書を出力する。しかしながら、全文データベースから利用者が検索する場合には、全文データベースに登録されている文字の種類と、検索する文字の種類が異なると検索できないという問題があった。このため文書検索漏れを少なくするために平仮名・片仮名・漢字・ローマ字の各表記への変換、異表記辞書を用いた異表記展開を用いることにより検索漏れを防いできた。
【0003】以下、従来の情報検索装置について説明する。図6は従来の情報検索装置の構成を示すものである。図6において、1は検索条件入力部、2は文字種変換部、3は異表記拡張部、4は検索部、5は検索結果表示部である。
【0004】以上のように構成された情報検索装置について、以下その動作を説明する。まず、検索条件入力部1で検索条件が入力される。続いて入力された検索条件の各キーワードに対して文字種変換部2で平仮名・片仮名・漢字・ローマ字等の文字種に変換する。例えば「検索」と検索条件を入力した場合は「けんさく」,「ケンサク」,「kensaku」に変換される。次に文字種変換部2で変換された各単語に対して異表記拡張部3で異表記拡張を行なう。例えば「kensaku」は「KENSAKU」に拡張される。次に異表記拡張部3で拡張した検索条件をもとに検索部4で検索を行ない、検索結果表示部5で検索結果を表示する。
【0005】
【発明が解決しようとする課題】しかしながら上記の従来の情報検索では、光学的文字認識装置(OCR)で入力した文書に認識誤りがあった場合やワープロ等で作成した文書に誤字脱字が含まれた場合には検索できないという課題があり、また文書に改行コードや改ページコードや空白コードやタブコードといったもので単語が分けられた場合にも検索できないという課題を有していた。
【0006】本発明は、上記従来技術の課題を解決するもので、OCRで誤認識した文書や誤字脱字や特殊コードを含む文書でも正しく検索することができる情報検索装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するために、本発明は、検索のためのキーワードを入力する検索条件入力部と、入力されたキーワードに対して正規表現に変換する正規表現変換部と、正規表現に変換された検索条件をもとに検索を行なう検索部と、検索結果を表示する検索結果表示部とを備えたものである。
【0008】また上記目的を達成するために、本発明は、正規表現に変換された検索条件を異なる表記に拡張する異表記拡張部およびまたは表記が類似した表記に拡張する類似表記拡張部とを備えたものである。
【0009】また上記目的を達成するために、本発明は、正規表現に変換された検索条件を異表記拡張部で異表記に拡張した後、類似表記拡張部で類似表記に拡張することを特徴としたものである。
【0010】また上記目的を達成するために、本発明は、正規表現変換部が、改行コード、改ページコード、空白コード、タブコードを無視する正規表現に変換する読み飛ばし変換部を備えたものである。
【0011】また上記目的を達成するために、本発明は、正規表現変換部が、任意文字を使ってキーワード間の文字数制限を表す正規表現に変換する隣接照合変換部を備えたものである。
【0012】また上記目的を達成するために、本発明は、正規表現変換部が、キーワード間に句点と読点を除いた文字で一致する正規表現に変換する可変長文字列変換部を備えたものである。
【0013】
【作用】したがって本発明によれば、対象文書に誤字脱字があるような場合に、正規表現変換部でキーワードを1文字誤っている場合と1文字欠けている場合と1文字多い場合の3種類の正規表現を作成して検索することにより、精度の高い検索を行なうことができる。
【0014】本発明はまた、正規表現に変換された検索条件を異表記拡張部で拡張することにより、ワープロ等で作成した文書に誤字や脱字があっても検索することができる。
【0015】本発明はまた、正規表現に変換された検索条件を類似表記拡張手段で拡張することにより、OCRで誤認識した文字も検索することができる。
【0016】本発明はまた、読み飛ばし変換部で改行コード等の読み飛ばしたい文字の繰り返しをキーワードの各文字間に挿入した正規表現を作成することにより、改行コード等が入った文書も正確に検索することができる。
【0017】本発明はまた、キーワード間の文字数の制限を指定した場合に、隣接照合変換部で任意文字を指定制限文字数まで論理和で接続した正規表現を作成することにより、検索条件の入力を簡便に行なうことができる。
【0018】本発明はまた、可変長文字列変換部で句点と読点を除いた文字で一致する正規表現を作成することにより、キーワード間の任意一致照合の場合でも、文節にまたがらずに検索することができる。
【0019】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図面を参照しながら説明する。図1は本発明の第1の実施例における情報検索装置の構成を示すものである。図1において、11は検索条件入力部、12は正規表現変換部、13は異表記拡張部、14は類似表示拡張部、15は検索部、16は検索結果表示部である。異表記拡張部13と類似表記拡張部14とは、正規表現変換部12と検索部15との間に並列に接続されている。
【0020】以上のように構成された情報検索装置について、その動作を説明する。まず、検索条件入力部11で入力された各キーワードに対して、正規表現変換部12で正規表現に変換を行なう。変換方法は1文字誤っている場合と、1文字欠けている場合と1文字多い場合の3種類があるが、変換するか否かは独立に制御できるものとする。例えばキーワードが「abcd」の場合は一文字誤っている場合の変換は「bcd|a.cd|ab.d|abc」(.は任意の一文字、|は論理和を表す。)である。一文字欠けている場合の変換は「bcd|acd|abd|abc」である。また1文字多い場合の変換は「a.bcd|ab.cd|abc.d」である。このように3種類の変換を行なうことで1文字欠けていても検索することができる。
【0021】次に、これらの文字に対して異表記拡張部13で拡張を行なう。拡張の方法は2種類ある。1つは全て同じ系統の文字種で拡張する場合と、そうでない場合がある。例えばキーワードが「abcd」の場合、前者では「ABCD|abcd」というように拡張し、「ABCD」か「abcd」のいずれかで一致する。後者では「(a|A)(b|B)(c|C)(d|D)」というように拡張し、「ABCD」か「ABCd」か「ABcd」……「abcd」のいずれかに一致する。
【0022】次に、類似表記拡張部14でOCRで誤認識しそうな文字列に変換する。例えば「工(こう)」と「エ(エ)」、「一(いち)」と「−(マイナス)」のように表記が似ているものを予め登録しておき、これらの文字のどちらかが出た場合には、条件拡張を行なう。
【0023】次に、このように条件拡張した検索条件をもとに検索部15で検索を行ない、検索結果表示部16で検索結果を表示する。検索は、条件拡張された文字列を状態遷移表に変換し、有限状態オートマトンのアルゴリズムを用いた文字列照合により実行される。このような有限状態オートマトンを用いた文字列照合は、文献(高橋恒介著「テキスト検索プロセッサ」電子情報通信学会)に詳しく紹介されているので、ここでの説明は省略する。
【0024】以上のように、本実施例によれば、正規表現変換部12と検索部15との間に異表現拡張部13と類似表記変換部14とを並列に設けたので、OCRで作成した文書で認識誤りがある場合や、ワープロで作成した文書で誤字脱字があるような文書に対しても正確に検索することができる。なお、本実施例では、より簡素化した構成として、異表記拡張13と類似表記拡張部14とを省略して、入力された検索条件を単に正規表現に変換して検索する構成とすることができる。
【0025】(実施例2)次に、本発明の第2の実施例について、図面を参照しながら説明する。図2は本発明の第1の実施例における情報検索装置の構成を示すものである。本実施例は、図1に示した上記第1の実施例における正規表現変換部12に読み飛ばし変換部17を付加したものであり、他の構成は上記第1の実施例と同じなので、同じ要素には同じ符号を付して重複した説明は省略する。
【0026】上記のように構成された情報検索装置について、以下読み飛ばし変換部17の動作を主に説明する。読み飛ばし変換部17では、読み飛ばす文字をキーワードの各文字の間に挿入する。例えば「abcd」から検索する場合には「a(\n|\f|\s|\t)*b(\n|\f|\s|\t)*c(\n|\f|\s|\t)*d」(\nは改行を、\fは改ページを、\sは空白を、\tはタブを、*は0個以上の続き)となる。このような文字列を読み飛ばし文字列として挿入する。
【0027】以上のように、本実施例によれば、正規表現変換部12に読み飛ばし文字列を挿入する読み飛ばし変換部17を設けることにより、上記第1の実施例の動作に加えて、改行コード、改ページコード、空白コード、タブコードが途中に含まれている場合でも、それを無視して検索することができ、検索漏れを防ぐことができる。
【0028】(実施例3)次に、本発明の第3の実施例について、図面を参照しながら説明する。図3は本発明の第3の実施例における情報検索装置の構成を示すものである。本実施例は、図1に示した第1の実施例における正規表現変換部12に隣接照合変換部18を付加したものであり、他の構成は上記第1の実施例と同じなので、同じ要素には同じ符号を付して重複した説明は省略する。
【0029】上記のように構成された情報検索装置について、以下隣接照合変換部18の動作を主に説明する。隣接照合変換部32では、キーワードとキーワードの間の指定された最大文字数によって正規表現を作成する。正規表現の作成方法は、任意文字(.)を1から順番に最大文字数の個数だけ並べて、それを論理和の縦棒(|)で結合して作成する。例えばキーワードが「情報」と「装置」でその間に最大文字数が4個の文字が入る場合は「情報(.|..|...|....)装置」といった正規表現に変換する。このように変換すると「情報検索装置」や「情報入出力装置」といった文字列を検索することができる。
【0030】以上のように、本実施例によれば、正規表現変換部12に隣接照合変換部18を設けることにより、上記第1の実施例の動作に加えて、キーワードとキーワードの間に設定された最大文字数の任意文字を使った正規表現に変換することができるので、検索条件の入力をより簡単に行なうことができる。なお、本実施例における正規表現変換部12に、上記第2の実施例における読み飛ばし変換部17を設けることができる。
【0031】(実施例4)次に、本発明の第4の実施例について、図面を参照しながら説明する。図4は本発明の第4の実施例における情報検索装置の構成を示すものである。本実施例は、図1に示した第1の実施例における正規表現変換部12に可変長文字列変換部19を加えたものであり、他の構成は上記第1の実施例と同じなので、同じ要素には同じ符号を付して重複した説明は省略する。
【0032】上記のように構成された情報検索装置について、以下可変長文字列変換部19の動作を主に説明する。可変長文字列変換部42では、キーワードとキーワードの間を任意文字を句点(。)と読点(、)を除いた文字集合の連続を表す正規表現を作成する。例えば「国際」何とか「会議」を検索したい場合には「国際[^、。]*会議」([]はかぎかっこ中の文字列のいずれかの文字と一致する。^は[]内の文字を除く全ての文字と一致する。)といった正規表現に変換される。
【0033】以上のように、本実施例によれば、正規表現変換部12に可変長文字列変換部19を設けることにより、上記第1の実施例の動作に加えて、任意文字の照合を行なう場合に句点と読点を一致させないことにより、文節にまたがった一致を省くことができ、検索をより正確に行なうことができる。なお、本実施例における正規表現変換部12に、上記第2の実施例における読み飛ばし変換部17およびまたは上記第3の実施例における隣接照合変換部18を設けることができる。
【0034】(実施例5)次に、本発明の第5の実施例について、図面を参照しながら説明する。図5は本発明の第5の実施例における情報検索装置の構成を示すものである。本実施例は、第1の実施例における異表記拡張部13と類似表記拡張部14を直列に接続したものであり、他の構成は上記第1の実施例と同じなので、同じ要素には同じ符号を付して重複した説明は省略する。
【0035】以上のように構成された情報検索装置について、以下異表記拡張部13と類似表記拡張部14の動作を主に説明する。まず異表記拡張13で入力キーワードの拡張を行なう。例えば「加工」という文字に対し「下降」「仮構」「河口」等に拡張される。次に、これら各文字に対し、類似表記拡張部14で類似表記に拡張する。例えば「加工」に対しては「加エ」、「下降」に対しては「下隆」、「仮構」に対しては「板構」、「河口」に対しては「河ロ」等に拡張される。
【0036】上記第1の実施例の場合は、異表記拡張と類似表記拡張とが並列して行なわれるので、「加工」に対する異表記拡張は同じになるが、類似拡張は「加工」に対してのみ行なわれることになり、本実施例の方が、より語彙が豊富になりそれだけ検索漏れが少なくなる。
【0037】以上のように、本実施例によれば、検索条件の拡張を異表示拡張を行なった後に類似拡張を行なうので、検索漏れをより少なくすることができる。なお、本実施例においても、正規表現変換部12に、読み飛ばし変換部17およびまたは隣接照合変換部18およびまたは可変長文列変換部19を設けることができる。
【0038】また上記各実施例において、正規表現変換部12では、変換する場合のキーワードの文字数については特に制限してないが、2文字以下では適合率が悪くなるので、3文字以上といった文字数制限を設けることができる。また、異表記拡張部13と類似表記拡張部14を独立に動作するようにして、いずれか一方または両方を選択できるようにすることができる。
【0039】
【発明の効果】以上のように、本発明によれば、対象文書に誤字脱字があるような場合に、正規表現変換部でキーワードを1文字誤っている場合と1文字欠けている場合と1文字多い場合の3種類の正規表現を作成して検索することにより、精度の高い検索を行なうことができる。
【0040】本発明はまた、正規表現に変換された検索条件を異表記拡張部で拡張することにより、ワープロ等で作成した文書に誤字や脱字があっても検索することができる。
【0041】本発明はまた、正規表現に変換された検索条件を類似表記拡張手段で拡張することにより、OCRで誤認識した文字も検索することができる。
【0042】本発明はまた、読み飛ばし変換部で改行コード等の読み飛ばしたい文字の繰り返しをキーワードの各文字間に挿入した正規表現を作成することにより、改行コード等が入った文書も正確に検索することができる。
【0043】本発明はまた、キーワード間の文字数の制限を指定した場合に、隣接照合変換部で任意文字を指定制限文字数まで論理和で接続した正規表現を作成することにより、検索条件の入力を簡便に行なうことができる。
【0044】本発明はまた、可変長文字列変換部で句点と読点を除いた文字で一致する正規表現を作成することにより、キーワード間の任意一致照合の場合でも、文節にまたがらずに検索することができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013