米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 情報管理装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−121548
公開日 平成7年(1995)5月12日
出願番号 特願平5−263282
出願日 平成5年(1993)10月21日
代理人 【弁理士】
【氏名又は名称】蔵合 正博
発明者 田 邊 智 子 / 伊 藤 正 雄 / 安 藤 敦 史
要約 目的
全文検索技術を用いて、ワードプロセッサなど広く一般に普及している編集装置と安価なイメージ入力装置を使って、容易にイメージ情報を含む全文データベースの構築を行ない、正確な全文検索ができるようにする。

構成
制御手段101とテキスト記憶手段102とイメージ記憶手段103と検索手段104と端末105とを備え、テキスト記憶手段102にイメージファイルの情報を付加し、検索手段104でテキスト記憶手段102を全文検索することで、関連するイメージファイルの情報を得て、制御手段101で文書データベースとイメージ情報を結び付けて端末105上に表示する。
特許請求の範囲
【請求項1】 全文デキストデータを格納するテキスト記憶手段と、イメージデータ格納するイメージ記憶手段と、正規表現を使って表された照合条件文字列を状態遷移表に変換したものと全文テキストデータとの照合を行なう検索手段と、入力された照合文字列を状態遷移表に変換するとともに前記検索手段の照合結果から検索結果表示の制御を行なう制御手段と、利用者が処理要求を入力し、検索結果を表示する端末とを備えた情報管理装置。
【請求項2】 入力された照合文字列を格納する照合条件記憶部を有し、照合文字列にその同義語を付加するための同義語拡張を行なう同義語拡張手段と、同義語拡張を行なうために使用される同義語辞書とを備え、前記同義語辞書を用い前記同義語拡張手段によって同義語拡張した照合条件文字列を使って検索を行なうことを特徴とする請求項1記載の情報管理装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、イメージ情報を持った全文データベースを構築・検索・表示する情報管理装置に関するものである。
【0002】
【従来の技術】近年、全文テキストデータをデータベース化し、必要に応じて素早く正確に検索したいという要求が高まっている。それに加え、単なるテキストデータではなく、新聞記事のようにイメージデータとテキストデータが混在したイメージ文書を検索の対象としたいという要求も多くなっている。従来のイメージ文書のデータベース化においては、データ管理のため専用の管理機構を作ったり、高価なRDBMSを採用したりしていた。
【0003】
【発明が解決しようとする課題】しかしながら、上記従来のような特別のデータ管理機構や高価なRDBMSを採用すると、データベースの構築に多大な手間や費用を要するなどの問題があった。
【0004】本発明は、上記従来の課題を解決するもので、ワードプロセッサなど広く一般に普及している編集装置と安価なイメージ入力装置を使って、容易にイメージ情報を含む全文データベースを構築することのできる情報管理装置を提供することを目的とするものである。
【0005】
【課題を解決するための手段】上記目的を達成するために、本発明は、全文デキストデータを格納するテキスト記憶手段と、イメージデータを格納するイメージ記憶手段と、正規表現を使って表された照合条件文字列を状態遷移表に変換したものと全文テキストデータとの照合を行なう検索手段と、入力された照合文字列を状態遷移表に変換するとともに検索手段の照合結果から検索結果表示の制御を行なう制御手段と、利用者が処理要求を入力し、検索結果を表示する端末とを備えたものである。
【0006】
【作用】本発明は、上記構成によって、正規表現を使用した全文検索ができるので、自由でかつ正確な検索が行うことができ、また全文テキストデータの一部にイメージデータのファイル名を持たせることにより、レコードとイメージデータを容易に結び付けることができるので、印刷したときのイメージに近いイメージ付き文章を表示することができる。
【0007】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図面を参照しながら説明する。図1は本発明の第1の実施例における情報管理装置の構成を示すものである。図1において、101は制御手段、102はテキスト記憶部、103はイメージ記憶部、104は検索手段、105は端末である。
【0008】以上のように構成された情報管理装置について、以下各々の構成要素について説明する。まず、テキスト記憶部102の構成を図2を用いて説明する。テキスト記憶部102は、検索対象データとしてテキストデータが格納されているテキストデータ記憶部102aと、テキストデータの構造などの定義情報を格納したテキストデータ定義記憶部102bと、検索対象データや検索結果データの特定に用いられる情報を格納するテキストデータタグ記憶部102cとからなる。
【0009】次にイメージ記憶部103の構成を図3を用いて説明する。イメージ記憶部103は、ファイル形式でイメージデータが格納されているイメージデータ記憶部103aと、イメージデータの特定に用いられる情報を格納しているイメージデータタグ記憶部103bとからなる。
【0010】次に検索手段104の構成を図4を用いて説明する。検索手段104は、入力された照合条件文字列を制御手段101で状態遷移表に変換したものを格納する状態遷移表記憶部104aと、テキストデータ定義記憶部102bに格納されているテキストデータ定義に基づいて区切り処理を行なうデータ構造抽出手段104bと、状態遷移表記憶部104aに格納された状態遷移表を用いて検索対象データの照合を行なう文字列照合手段104cと、フィールドの照合結果を記憶するフィールド検索結果記憶部104dと、照合に成功したレコード番号を格納するレコード検索結果記憶部104eとからなる。
【0011】端末105は、利用者が本実施例の情報管理装置に対する処理要求を入力部と検索結果を表示する表示部とを有する。
【0012】次に、テキストデータ記憶部102aに格納された検索対象データの形式について説明する。検索対象データは、レコードと呼ばれる任意長の文字列より成るデータブロックの列により構成される。またレコードは、複数個のフィールドと呼ぶサブブロックに分割されていてもよい。その際、フィールド数は全レコードとも同じである。レコード間およびフィールド間の区切りは、各々任意の文字列により表される。この、レコードおよびフィールドの境界を示す文字列は、各々レコード区切り文字列、フィールド区切り文字列と呼ばれ、各々レコード内、フィールド内に含まれているものとする。このように定義されたテキストデータの構造は、図5に示す3つのパターンで表される。図5において、1単位とは1つのレコードまたは1つのフィールドを意味する。記号「S」は1単位の始めを示す区切り文字列で、記号「E」は1単位の終りを示す区切り文字列である。また、個々のフィールドに格納されているデータに対する属性は、レコード内の当該フィールドのレコードの先頭からの順位に基づいて決定される。
【0013】フィールドの属性は、テキストデータ定義記憶部102bに格納するテキストデータ定義で決定される。テキストデータ定義は、フィールド区切り文字列と、レコード区切り文字列と、各フィールドの属性と順番(番号)の対と、検索結果を表示するフィールドの番号を、文字列の形式で表したものである。本実施例で用いる検索対象データの定義の例を図6に示す。図6において、レコード区切り文字列は「<改行>」、フィールド区切り文字列は「・」、第1フィールドは日付、第2フィールドは見出し、第3フィールドはイメージデータファイル名、第四フィールドは本文であることを定義する。
【0014】このような検索データの形式によると、検索対象としてレコードという構造を持ったテキストデータを利用でき、またテキストデータの構造を文字列を使って定義できるので、特別な装置を使用せずに、ワープロなどで自由に変更ができ、使いやすいデータベースの構築・管理が行なえる。このような定義に基づいた検索対象データの例として新聞記事データを図7に示す。
【0015】テキストデータタグ記憶部102cは、検索対象データの全てのレコードおよびフィールドのアドレスが格納されている。レコードとフィールドの先頭アドレスは、レコード番号とフィールド番号を添字とする2次元配列の要素として格納される。このとき、レコードの先頭アドレスは、当該レコード内の第1フィールドの先頭アドレスを用いるものとする。またこの2次元配列をテキストデータタグと呼ぶ。
【0016】次にイメージ記憶部103のデータ形式について説明する。イメージ記憶部103のイメージデータ記憶部103aには、一つのイメージデータ毎に一つのファイルとして格納してある。またイメージデータタグ記憶部103bには、イメージデータの先頭アドレスと、サイズと、ファイル名を表す文字列があらかじめ格納されている。この構成によって、ファイル名を指定することでランダムにアクセスしてイメージデータを取り出すことができる。
【0017】次に照合条件の記述形式について説明する。探したい文字列を照合条件文字列と呼び、照合処理の対象のフィールドの属性を照合対象フィールド属性と呼ぶ。照合条件として照合条件文字列と照合対象フィールド属性を入力する。照合条件の記述形式をBNF記法で図8に示す。図8において記号「|」は「または」の意味を表し、記号「”」に囲まれた文字または文字列は特殊な意味を持つことを表している。文字列「or」はこの前後に位置する項の論理和を指定する演算子、文字列「and」はこの前後に位置する項の論理積を指定する演算子、文字「!」はこの直後に位置する項の否定を表す演算子、文字「/」は正規表現の開始と終端を表す記号である。
【0018】また照合条件文字列の記述には正規表現が使用される。正規表現の形式をBNF記法で図9に示す。図9において記号「|」は「または」の意味を表し、記号「”」に囲まれた文字または文字列は特殊な意味を持つことを表している。また文字「.」は任意の一文字と照合することを表し、文字「*」はこの直前の正規表現の0回以上の繰り返しと照合することを表し、文字「+」はこの直前の正規表現の1回以上の繰り返しと照合することを表し、文字「?」はこの直前の正規表現の0回または1回の繰り返しと照合することを表し、文字「[」および「]」はこれらで囲まれた文字列が文字クラスであることを表し、文字「(」及び「)」はこれらで囲まれた正規表現が一つの正規表現であることを表し、文字「¥」はこの直後の文字が普通文字として扱うことを表し、文字「^」はこの直後の文字の否定を表し、文字「−」は文字クラスの範囲指定を表している。
【0019】図7を用いて照合条件の記述形式について具体的に述べる。「日付が”2/3”であり、かつ見出しに”国際なんとか学会”が存在する記事」という照合条件は「日付/2月/and見出し/国際[^、。]*学会/」のような照合条件で表される。
【0020】また「国際[^、。]*学会」という正規表現は、「国際」の直後に、「、」でも「。」でもない文字が0個以上並び、その直後に「学会」がある文字列全体を表すパターンで、1つの文中の「国際シェークスピア学会」、「国際学学会」、「国際学会」などの文字列と合致する。このようにフィールド毎に異なった照合条件文字列を使用して、フィールド毎の照合結果の論理演算を指定することができる。
【0021】従来のキーワード検索などでは、キーワード付けされた単語のみ用いることができたが、本実施例においては全文検索を行なうので、キーワード以外に文や単語の一部などの文字列を自由に用いることができ、かつ照合条件の論理演算や正規表現を使っての検索を行なえるので、探し求めているデータを自由な照合条件で正確に得ることができる。
【0022】以上のように構成・設定された情報管理装置について、図10に示す流れ図を用いてその動作を説明する。まず利用者が端末105の入力部から照合条件を入力すると(ステップ111)、端末105は改行入力とともに制御手段101に照合条件を出力する。制御手段101は、照合条件を受け取ると、検索準備を行ない(ステップ112)、次いで検索手段104で検索を行ない(ステップ113)、検索結果を端末105の表示部に表示して終了する(ステップ114)。
【0023】以下、上記した流れに基づいて、詳細な動作説明を行なう。まずステップ111において、利用者は図8で定義された形式で照合条件を端末105から入力する。
【0024】次にステップ112の検索準備として、制御手段101は、照合条件が入力されるとそれを状態遷移表に変換し、検索手段104の状態遷移表記憶部104aに格納する。格納が終了すると、制御手段101は、検索手段104に格納終了の合図を送る。検索手段104は制御手段101から合図を受け取ると、データ構造検出手段104bが、文字列照合動作を行なう前処理として、検索対象データのテキストデータタグを作る。具体的には、テキスト記憶部102のテキストデータ定義記憶部102bからレコードおよびフィールド区切り文字列を得て、テキストデータ記憶部102aの検索対象データの先頭からレコードおよびフィールド区切り文字列を逐次検出し、得られたレコード番号とフィールドの先頭アドレスをテキストデータタグ記憶部102cの配列に格納していく。以上の動作を検索対象データの終りまで行ない、終了するとデータ構造検出手段104bが文列照合手段104cに合図を送り、次に文字列照合動作が開始される。
【0025】次にステップ113の検索動作を図11を用いて説明する。文字列照合手段104cは、テキストデータタグから照合対象となるフィールド先頭アドレスを得る(ステップ121)。続いて1つのレコードを処理単位として、得たフィールド先頭アドレスを用いてテキストデータ記憶部102aの検索対象データの中のフィールドに対して逐次、文字列照合を行ない(ステップ122)、検索条件を満たしているかどうかを調べる(ステップ123)。検索条件を満たしていない場合は検索を続けるかどうかを調べる(ステップ129)。文字列照合は、前記状態遷移表を用いた有限状態オートマトンのアルゴリズムで行なう。有限状態オートマトンによる文字列照合は、文献(高橋恒介著「テキスト検索プロセッサ」電子情報通信学会)に詳細に解説されているのでここでは割愛する。文字列照合手段102cは、フィールドに対する照合結果をフィールド検索結果記憶部104dに格納する(ステップ124)。照合条件において複数のフィールドに対する照合結果の間での論理演算が指定されている場合には、個々のフィールドに対する照合結果をフィールド検索結果記憶部104dに保持しておく。指定された全てのフィールドに対する照合が終了した時点で論理演算を行ない(ステップ125)、レコードに対して照合結果を判定する(ステップ126)。照合の結果、検索条件を満たしていれば(ステップ127)、照合に成功したレコード番号をレコード検索結果記憶部104eに格納し、一つのレコードに対する照合処理を終了する(ステップ128)。検索条件を満たしていない場合は、テキストデータ記憶部102aの他レコードについて同じ処理を行ない、全てのレコードに対して終了するまで続ける(ステップ130、131)。文字列照合が終了すると、検索手段104は、制御手段101に検索終了を伝える(ステップ132)。
【0026】次に、図10のステップ114の結果表示が行なわれる。制御手段101は、検索手段104から検索終了が伝えられると、レコード検索結果記憶部104eに格納されたレコード番号を用いて、テキストデータ記憶部102aからデータを取り出し、結果一覧として端末105の表示部にレコード番号と、テキストデータ定義記憶部102bで指定されていたフィールドのデータを出力する。格納された全てのレコード番号の結果一覧が表示されるまで処理を続ける。利用者は、端末105の入力部から見たいレコード番号を1つ選択して入力する。制御手段101は、選択されたレコード番号を用いて、テキストデータ記憶部102aからイメージデータのファイル名を得る。さらにこのイメージデータのファイル名を用いて、イメージデータ記憶部102aからデータを取り出す。結果詳細として端末105の表示部に結果一覧を表示したまま、指定されたレコード番号のイメージデータを一緒に表示する。利用者は、この結果一覧から再び入力部を用いて次に見たいレコードの番号を1つ選択して入力し、情報管理装置は、上記の詳細表示の処理を繰り返し行なう。
【0027】以上のように、本実施例によれば、検索対象としてレコードという構造を持ったテキストデータを利用することができ、またテキストデータの構造を文字列を使って定義できるので、ワープロなどで自由に変更ができ、専門の管理機構を使わずに、複雑な構造を持ったテキストデータでも検索対象データとすることができる。また、照合条件の論理演算や正規表現を使っての検索を行なえるので、探し求めているデータを自由な照合条件で正確に得ることができる。さらに、テキストデータの一部にイメージデータのファイル名を持たせるだけで、テキストデータとイメージデータを容易に結びつけ、印刷したときのイメージに近いイメージデータを表示することができる。
【0028】(実施例2)次に、本発明の第2の実施例について、図面を参照しながら説明する。図12は本発明の第2の実施例における情報管理装置の構成を示すものである。図12において、201は制御手段、202はテキスト記憶部、203はイメージ記憶部、204は検索手段、205は端末であり、以上は図1の構成と同様のものである。図1の構成と異なるのは、照合文字列にその同義語を付加するための同義語拡張を行なう同義語拡張手段206と、同義語拡張を行なうために使用される同義語辞書207が付加されている点である。同義語拡張手段206は、入力された照合文字列を格納する照合条件記憶部206aを有する。また各構成要素の内部構造も図1に示す各構成要素と同様である。
【0029】同義語辞書207は、階層概念辞書であり同義語のほかにも上位語と下位語を格納している。図13に同義語辞書207の例を示す。「野菜」は同義語として「やさい」、「ヤサイ」、「ベジタブル」を持ち、下位語として「にんじん」、「ピーマン」、「レタス」を、また、上位語として「食物」を持っている。
【0030】以上のように構成された情報管理装置の動作について説明する。利用者は照合条件を端末205の入力部から入力する。ここまでは第1の実施例と同じである。次に検索準備として、まず同義語拡張が行なわれる。図14の流れ図を用いて、同義語辞書207を用いた同義語拡張手段206の動作について説明する。制御手段201は、照合条件が入力されると、同義語拡張手段206に照合条件を入力する(ステップ141)。同義語拡張手段206は、照合条件を照合条件記憶部206aに格納し、入力された照合条件から照合条件文字列を抽出する(ステップ142)。次いで同義語辞書207から抽出した照合条件文字列の同義語、上位語、下位語を各々取り出して出力する(ステップ143)。制御手段201は、同義語拡張手段206から出力された照合条件文字列の同義語、上位語、下位語を端末205の表示部に各々一覧表示する(ステップ144)。利用者は、この一覧表示から同義語拡張の種類を選択し、端末205の入力部から入力する(ステップ145)。制御手段201は、同義語拡張の種類が選択されると、それを同義語拡張手段206に伝える。同義語拡張手段206は, 選択された同義語拡張の種類から、照合条件文字列の同義語拡張を行ないその照合条件文字列と照合条件記憶部206aに格納されていた照合条件を用いて, 新たに照合条件を作成して出力する(ステップ146)。図13の同義語辞書207の例から照合条件の同義語拡張を説明すると、照合条件が「本文/野菜/」で下位語が選択された場合、照合条件文字列として抽出された「野菜」は、「または」を意味する「|」を用いて「にんじん|ピーマン|レタス」と同義語拡張される。この照合条件文字列は「本文/にんじん|ピーマン|レタス/」という照合条件として出力される。
【0031】制御手段201は、このようにして同義語拡張された照合条件文字列を受け取って状態遷移表に変換し、検索手段204の状態遷移表記憶部に格納する。以後は第1の実施例と同じ動作が行なわれ、検索手段204で検索を行ない、検索結果を端末205の表示部に表示して終了する。
【0032】以上のように、本実施例によれば、階層概念をもった同義語辞書を利用して、利用者が同義語拡張の種類を選択できる同義語拡張を行なうことにより、自由な照合条件できめ細かい検索が行なえる。例えば、図7の新聞記事データの例で、照合条件文字列に「計算機」を使用しても、同義語を選択すると「コンピュータ」と照合するので、この新聞記事のイメージデータを得ることができる。このように、同義語拡張手段を設けることで利用者が探し求めているイメージデータをより自由な照合条件で正確に得ることができるので、優れたイメージ文書データベースを実現することができる。
【0033】
【発明の効果】以上のように、本発明によれば、検索対象としてレコードという構造を持った全文テキストデータを利用でき、また全文テキストデータの構造を文字列を使って定義できるので、ワープロなどで自由に変更ができ、専門の管理機構を使わずに、複雑な構造を持ったテキストデータでも検索対象とすることができる。また、照合条件の論理演算や正規表現を使っての検索を行なえ、また同義語拡張手段を付加することにより、探し求めているデータを自由な照合条件で正確に得ることができる。さらに、全文テキストデータの一部にイメージデータのファイル名を持たせるだけで、全文テキストデータとイメージデータを容易に結び付けることができ、イメージ情報を含む全文データベースの構築・管理を容易に行なえる優れた情報管理装置を実現することができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013