米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 情報分類装置、情報検索装置及び情報収集装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−219957
公開日 平成7年(1995)8月18日
出願番号 特願平6−8468
出願日 平成6年(1994)1月28日
代理人 【弁理士】
【氏名又は名称】松田 正道
発明者 伊藤 哲 / 丹羽 寿男 / 萱嶋 一弘 / 〆木 泰治 / 前川 英嗣
要約 目的
様々な形態の情報をキーワードを介して一元的に扱い、ユーザの所望する情報を所望する形態で効率良く収集・提示できるようにすること。

構成
情報収集装置に入力される情報に文書画像や音声データがあれば情報変換手段3が電子的なテキストに変換し、これをキーワード抽出手段4を用いてキーワードに変換する。ユーザが検索条件に類似した情報を任意の形態でシステムに入力すると同様に電子的なテキストに変換した後、キーワード抽出手段4が抽出したキーワードにより装置に入力された情報を検索する。検索された情報は必要により情報変換手段3を用いてユーザの所望する形態で出力する。
特許請求の範囲
【請求項1】入力された、検索対象である文書、文書画像、又は音声情報を文字列に変換する情報変換手段と、これらの電子化された文字列から索引語を抽出するキーワード抽出手段と、これら索引語により入力された情報を分類する索引作成部と、を備えたことを特徴とする情報分類装置。
【請求項2】ユーザが、検索語のかわりに入力する文書、文書画像、又は音声情報を文字列に変換する情報変換手段と、これらの電子化した文字列から検索語を抽出するキーワード抽出手段と、これら検索語に応じて検索する情報を決定する情報検索部と、を備えたことを特徴とする情報検索装置。
【請求項3】請求項1記載の情報分類装置によって検索対象の情報を分類し、請求項2記載の情報検索装置によってそれらの情報を検索することでユーザの所望する情報を収集することを特徴とする情報収集装置。
【請求項4】収集された情報の閲覧時にユーザが良否判定をした結果から自動的に次回の検索条件を再設定するフィードバック制御部を備えたことを特徴とする請求項3記載の情報収集装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明はデータベース、電子メールサーバ、ワードプロセッサ、FAX、電話機、日本語解析システム等において、文書のみならず文書画像や音声の情報を分類し所望の情報を抽出するための、情報分類装置、情報検索装置及び情報収集装置に関する。
【0002】
【従来の技術】近年の情報化社会の発展にともない、文書以外にも画像や音声といった様々な形態の情報を大量に処理することが可能となってきた。従来の計算機による情報収集は、専門知識を持ったユーザーがデータベースを逐次アクセスし、所望とする情報を検索語との試行錯誤の後に取り出すことで行っている。また、ある事柄に付いて広く情報を集めたいという場合にも、扱えるデータベースは同一のフォーマットに基づいた物である必要が多く、ましてや音声、画像、文書など種々雑多な形態の情報に対して同一の概念で検索できるものは存在しなかった。
【0003】
【発明が解決しようとする課題】日常生活では電子化された文書情報以外にも文書画像や音声による情報を大量に処理しなければならない。電子化された文書は従来の技術でも十分処理可能であるが、文書画像や音声はそのままでは整合性が悪く、一旦電子化し、さらに文字列に変換しなければ同列には扱えなかった。しかし、文書画像や音声から電子化された文書に変換する際に誤りを含むのが一般的であり、それをそのまま利用対象とすることは困難である。そのため、このような誤りを含む情報さえ高い精度で扱える手段が求められている。
【0004】また、ユーザがデータベースなどから所望する情報を引き出す時に検索キーワードをキーボードなどから直接入力する方法では、専門知識を必要とし、ユーザの意図が十分伝わらない場合が多く、手数や時間が多くかかる割に検索効率が上がらないという問題があった。
【0005】そこで、まず様々な形態の大量の情報を自動的に分類し、即座に検索できる状態にしておくようなシステムや、ユーザが所望する情報に近い文書や文書画像、音声をシステムに例示するだけでキーワードを入力する事なく検索意図が伝わるような優れたシステムが求められている。
【0006】本発明は、このような要望を考慮し、文字データのみでなく、文書画像や音声情報に付いても、手間が掛からず処理できる情報分類装置、情報検索装置及び情報収集装置を提供することを目的とするものである。
【0007】
【課題を解決するための手段】本発明は、外部のデータベースやFAX、電話などからデータの受信を行なう外部インタフェース部と、キーボードやスキャナ、マイクなどからユーザからの検索指示入力を受ける機能と、表示装置やスピーカ、印刷装置などに検索した結果を出力する機能とを持ったユーザインタフェース部と、それら各インタフェース部から入力された画像、音声などの様々な形態の情報を電子化された文字列に変換する情報変換手段と、電子化された文字列からキーワードを抽出するキーワード抽出手段と、抽出されたキーワードを基に外部インタフェース部1から入力された情報を分類する索引作成部と、抽出されたキーワードからユーザの所望する情報の検索条件を決定する検索条件決定部と、検索された情報の可否をユーザが判定したときに検索条件を変更するフィードバック制御部で構成されている。
【0008】
【作用】本発明では、情報収集装置に入力される情報に文書画像や音声データがあれば情報変換手段が電子的なテキストに変換し、これをキーワード抽出手段を用いてキーワードに変換する。ユーザが検索条件に類似した情報を任意の形態でシステムに入力すると同様に電子的なテキストに変換した後、キーワード抽出手段が抽出したキーワードにより装置に入力された情報を検索する。検索された情報は必要により情報変換手段を用いてユーザの所望する形態で出力する。
【0009】このようにして、大量の情報の分類と検索において、映像や音声といった異なるフォーマットの情報をキーワードを介して一元的に扱うことができ、さらに情報本体でなくそれを圧縮したキーワードを扱うため、容量の節約が可能となり、また、情報変換部において誤って変換された文字列は、辞書未登録語となる可能性が高く、かつ出現頻度も低いため、一般にキーワード抽出の過程でキーワードとして選ばれにくく排除される傾向にあるので、認識誤りの影響が低減され、信頼度が高い分類や検索が可能となり、さらに、利用者の検索意図が詳細かつ容易にシステムに伝わるという作用が得られることで、漏れの無い情報収集がタイムリーに可能となるばかりでなく、検索手数、時間など利用者の負担を短縮できる。
【0010】
【実施例】以下、本発明の実施例について図面を参照しながら説明する。
【0011】本発明の一実施例にかかる情報収集装置は図1に示すとおり、外部のデータベースやFAX、電話などからデータの受信と記憶の機能を持った外部インタフェース部1と、キーボード、スキャナ、マイクなどユーザからの検索情報入力を受ける機能と、表示装置やスピーカ、印刷装置などへ検索した結果を出力する機能を持ったユーザインタフェース部2と、それら各インタフェース部から入力された画像、音声などの様々な形態の情報を電子化された文字列に変換する情報変換手段3と、電子化された文字列からキーワードを抽出するキーワード抽出手段4と、抽出されたキーワードを基に外部インタフェース部1から入力された情報を分類する索引作成部5と、抽出されたキーワードからユーザの所望する情報の検索条件を決定する検索条件決定部6と、検索された情報の可否をユーザが判定したときに検索条件を変更するフィードバック制御部7とで構成されている。
【0012】ここにユーザインタフェース部2による処理の概要を図2により説明する。図2において、ユーザインタフェース部2は、検索情報入力選択手段21と検索指示入力手段22と情報抽出手段23と出力選択手段24と情報可否入力手段のそれぞれの処理を順に行うように構成されている。
【0013】検索情報入力選択手段21は外部インタフェース部1やスキャナ、マイク、ワープロなどに入力された情報の中からユーザの所望する情報に最も近いものを選択し情報変換手段3に出力するものである。このとき情報変換手段3に出力した情報は、キーワード抽出手段4と情報検索部6を経てキーワードという形で検索指示入力手段22に送られる。
【0014】次に検索指示入力手段22は、必要に応じて情報検索部6から送られてきたキーワードをユーザに提示しながら、マウスやキーボードによりユーザの検索意図やキーワードの入力を待つ状態になる。それらの入力が完了または省略されるとキーワードや検索意図は検索情報として情報検索部6に返され、それをもとに情報検索部6が検索を行った結果、検索情報に該当した情報のIDは情報抽出手段23へ送られる。
【0015】次に情報抽出手段23は、送られてきたIDをもとに外部インタフェース部1に記憶されている情報を呼び出し、ユーザに提示する。ここで提示する情報の形態は出力選択手段24で決定される。
【0016】次に出力選択手段24は、送られてきた画像や音声、文書などの情報をそのまま出力するか、用途に依っては画像認識手段や音声認識手段、音声合成手段をもちいることにより、ユーザの指示に従って画像、音声、文書のいずれか任意の情報に変換して出力することができる。
【0017】次に情報可否入力手段25は、ユーザが検索されてきた情報を審査し、検索意図と一致しているか否か判断したとき、マウスやキーボードなどでその結果を入力することができる。入力された結果は該当する情報のIDと可否判定という形でフィードバック制御部7へ送られる。
【0018】ここに、情報変換手段3による処理の概要を図3により説明する。図3において、情報変換手段3は、入力された各種形態の情報を制御部31で分類し、画像情報は画像認識手段32で、音声情報は音声認識手段33で、文字情報は文字列整形手段34でそれぞれ処理され、キーワード抽出に適した文字情報に変換したものをキーワード抽出手段4へ出力するように構成されている。制御部31による情報の分類は、外部インタフェース部1やユーザインタフェース部2において情報入力時にその属性となるコードを付加しておれば容易に実現可能である。
【0019】次に画像認識手段32は、入力された画像情報から文字列を含む画像を取り出し、これを電子化した文字列に変換する機能を有している。これには例えばOCR等が用いられる。
【0020】次に音声認識手段33は、同様に音声情報からノイズ以外の意味のある発声音素を取り出し、これを電子化した文字列に変換する機能を有している。
【0021】次に文字列整形手段34は、入力された電子化されている文字列からコントロールコードなど除去し、キーワード抽出手段4における形態素解析の妨げにならないように整形する機能を有している。
【0022】ここに、キーワード抽出手段4による処理の概要を図4により説明する。図4において、キーワード抽出手段4は、情報変換手段3から入力された文字情報を形態素解析手段41が辞書43を用いてキーワード候補を作成し、統計処理部が単語生起頻度ファイル44を参照しつつキーワードを抽出するように構成されている。
【0023】形態素解析手段41は、文字情報を単語レベルまで解析し、キーワードとなる可能性のある単語を全てキーワード候補として抽出する。このとき、辞書43に載っている単語に関する知識を利用する。利用する知識としてはキーワードとして選ばれることが多い品詞である名詞の文字表記が最低限あればよい。
【0024】次に統計処理部42は、キーワード候補の出現頻度についてそれぞれの合計を取り、それと単語生起頻度ファイル44の情報を元にキーワードの尤度を計算し、尤度上位から任意の数だけキーワードとして出力する機能を持つ。単語生起頻度ファイル44は、各単語がある文書内でどの位の頻度で出現する可能性があるかを調べた統計値である単語生起頻度を記憶している。キーワード尤度の算出例としては、キーワード尤度をE、キーワード候補の出現頻度をX、単語生起頻度YとするとE=aX−bY(a,bは定数)などがあり、こうすることで出現頻度だけでキーワードを決定する方式に比べて、どんな文書にも高頻度で出現し、キーワードとしてふさわしくないありふれた単語がキーワードとなることを防止する効果がある。また、単語生起頻度は分野毎に違いがあるので、用途に依っては単語生起頻度ファイルを分野別に用意し、選択してもよい。
【0025】次に、索引作成部5による処理の概要を図5により説明する。図5において索引作成部5は、外部インタフェース部1から送られた情報のIDとキーワード抽出手段4から送られてくるキーワードを統合処理部51でまとめ、索引記憶手段52へ登録及び更新を行い、情報検索部6から送られて来るキーワードに対してキーワード比較手段53が索引記憶手段52にアクセスすることにより、同じキーワードをもつ情報のIDを全て情報検索部6に出力するように構成されている。
【0026】索引記憶手段52は統合処理部51が提示した情報のIDとキーワードを見てキーワード毎にIDを登録した索引を作成する。外部インタフェース部1において記憶されていた情報が削除された場合、該当するIDは削除され、このとき、その索引に登録されているIDがひとつも無くなればその索引も削除する。
【0027】次に、情報検索部6とフィードバック制御部7による処理の概要を図6により説明する。図6において情報検索部6は、キーワード抽出手段3から送られるキーワードをユーザインタフェース部2に送る一方、それを元に検索条件設定部61が検索条件記憶手段62にアクセスし、検索意図をユーザインタフェース部2に出力したのち、ユーザインタフェース部2において確認または入力されたキーワードと検索意図を見て変更があれば検索条件記憶手段62を更新する一方、キーワードを索引作成部5に出力し、返ってくるIDを統計処理部63で処理した後、ユーザインタフェース部2に送るように構成されている。また、フィードバック制御部7は、ユーザインタフェース部2から受けた情報の可否判定結果を処理し、条件変更依頼として検索条件設定部61に出力するように構成されている。
【0028】検索条件設定部61は入力されたキーワードを用いて検索条件記憶手段62にアクセスすることで、ユーザが過去に入力した検索意図を推定し、ユーザインタフェース部2に出力する機能を有している。これは検索条件記憶手段62に記憶されている検索意図に対応するキーワードと一致している数が任意の閾値より多いものがある場合、それを検索意図として出力するということで実現できる。
【0029】次に検索条件記憶手段62は、上記のように検索意図とキーワードが対応するように、検索意図ごとに複数のキーワードが記憶されているものである。検索意図とはある特定の情報やユーザーの興味の対象を示したもので、複数登録でき、必要に応じキーワードと同様に論理和、論理積などの検索条件の設定が可能である。
【0030】次に統計処理部63は、ある一つの検索条件について索引作成部5から送られて来るIDの統計を取り、多いものから順に任意の数だけIDをユーザインタフェース部2に送ることで検索条件に最も近い情報をユーザに提示すること実現している。
【0031】フィードバック制御部7は、ユーザインタフェース部2からユーザが入力した可否判定結果である情報のIDとその可否をみて、可とされたIDの情報から得られたキーワードを検索条件設定部61内にあるキーワードと足し合わせるように指示する。逆に否とされた場合、その情報のキーワードにしか存在しないキーワードだけを検索条件設定部61内にあるキーワードから減じる処理などを行い、検索条件の尤度を向上するように変更する。
【0032】なお、本発明の各手段、各部は、コンピュータを用いてソフトウェア的に実現し、あるいはそれら各機能を有する専用のハード回路を用いて実現することが出来る。
【0033】
【発明の効果】以上述べたことから明らかなように、本発明は、ユーザが入力される情報の形態を意識することなく所望する情報を少ない労力で収集することが可能となる。
【0034】また、情報変換手段とキーワード抽出手段を組み合わせた場合は、文書画像や音声の情報を認識して文字列に変換する際に多少の誤認識があっても、それらの文字列のキーワードを介して処理するため、比較的信頼性の高い情報として扱うことが可能となるばかりでなく、情報の圧縮効果により索引分類や検索時の計算量やメモリ容量も節約することが可能となる。
【0035】また、フィードバック制御部によりユーザの判定結果を容易に次回の同様の検索に反映することが出来る場合は、検索される情報の尤度の向上が可能となる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013