米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 文書圧縮装置および文書圧縮方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−160684
公開日 平成7年(1995)6月23日
出願番号 特願平5−304137
出願日 平成5年(1993)12月3日
代理人 【弁理士】
【氏名又は名称】中島 司朗
発明者 徳田 克己 / 杉村 領一
要約 目的
意味内容が損なわれないように文書を書き換え、書き換え後に圧縮テーブルを参照しながら、文書をビット列に置き換えて文書圧縮を行う。

構成
形態素解析部14が、外部記憶装置の文書から読み込まれた文章から、形態素となる単語を取り出す。辞書検索部15が、取り出した単語を語彙見出しとして用いて、解析辞書12を検索し、その単語が、どの単語の活用形であるかを示す活用記号に書き換える。また、辞書検索部15の検索結果によって、構文解析部16が、読み込んだ文章に対応する式木を生成する。生成後、表現変換部18が、これらの式木においてノードとなる単語を代表表現に置き換える。更に代表表現に置き換えられた式木を、式木変換部19が単語に置き換える。ハフマン圧縮部21は、圧縮テーブル20を参照して、式木変換部19が置き換えた単語をビット列に置き換える。
特許請求の範囲
【請求項1】外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、文書保持手段から文章を一文ずつ取り出し、当該文章から形態素となる単語を取り出す形態素解析手段と、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶手段と、形態素解析手段が解析したそれぞれの単語を用いて代表表現記憶手段を検索して、その単語に対応する代表表現を取り出し、文章中の単語を、当該代表表現に置き換える代表表現置換手段と、代表表現置換手段が置き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えることを特徴とする文書圧縮装置【請求項2】前記圧縮手段は代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、代表表現置換手段が置き換えられた文章中の単語の何れかを、ビット列に書き換える圧縮手段とからなることを特徴とする請求項1記載の文書圧縮装置【請求項3】前記圧縮手段は前記文書ファイル中の単語が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、代表表現置換手段が置き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置を示すビット列に書き換える圧縮手段とからなることを特徴とする請求項1記載の文書圧縮装置【請求項4】外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶手段と、文書保持手段から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析手段と、形態素解析手段によって取り出された単語を語彙見出しとして用いて、記憶手段を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索手段と、検索手段が検索した品詞に基づいて、形態素解析手段が取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析手段と、構文解析手段の判定結果に基づいて、それぞれの単語がどの単語を修飾しているかを示す修飾記号を、それぞれの単語の前あるいは後に書き加える書き換え手段と、書き換え手段が書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えることを特徴とする文書圧縮装置【請求項5】前記圧縮手段は単語、活用記号、および修飾記号の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、書き換え手段が書き換えた文章中の単語、活用記号、および修飾記号を、ビット列に書き換える圧縮手段とからなることを特徴とする請求項4記載の文書圧縮装置【請求項6】前記圧縮手段は前記文書ファイル中の単語、活用記号、および修飾記号が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、書き換え手段が書き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置、活用記号、および修飾記号を示すビット列に書き換える圧縮手段とからなることを特徴とする請求項4記載の文書圧縮装置【請求項7】外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶手段と、文書保持手段から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析手段と、形態素解析手段によって取り出された単語を語彙見出しとして用いて、記憶手段を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索手段と、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶手段と、検索手段が検索した品詞に基づいて、形態素解析手段が取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析手段と、構文解析手段の判定結果に基づいて、単語の前あるいは後ろに、それぞれの単語がどの単語を修飾しているかを示す修飾記号を書き加える書き換え手段と、形態素解析手段が解析したそれぞれの単語を用いて代表表現記憶手段を検索し、その単語に対応する代表表現を取り出し、書き換え手段が書き換えた文章中の単語を、当該代表表現に書き換える代表表現置換手段と、代表表現置換手段が書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えることを特徴とする文書圧縮装置【請求項8】前記圧縮手段は単語、活用記号、修飾記号、および代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、代表表現置換手段が書き換えた文章中の単語、活用記号、修飾記号、および代表表現を、ビット列に書き換える圧縮手段とからなることを特徴とする請求項7記載の文書圧縮装置【請求項9】前記圧縮手段は前記文書ファイル中の単語、活用記号、修飾記号、および代表表現が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、代表表現置換手段が書き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置、活用記号、修飾記号、および代表表現を示すビット列に書き換える圧縮手段とからなることを特徴とする請求項7記載の文書圧縮装置【請求項10】外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から文章を一文ずつ取り出し、当該文章から形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップが解析したそれぞれの単語を用いて、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶部を検索し、その単語に対応する代表表現を取り出して、文章中の単語を、当該代表表現に置き換える代表表現置換ステップと、代表表現置換ステップが置き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなることを特徴とする文書圧縮方法【請求項11】前記圧縮ステップは代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、代表表現置換ステップが置き換えられた文章中の単語の何れかを、ビット列に書き換える圧縮ステップとからなることを特徴とする請求項10記載の文書圧縮方法【請求項12】前記圧縮ステップは前記文書ファイル中の単語が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、代表表現置換ステップが置き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置を示すビット列に書き換える圧縮ステップとからなることを特徴とする請求項10記載の文書圧縮方法【請求項13】外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップによって取り出された単語を語彙見出しとして用いて、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶部を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索ステップと、検索ステップが検索した品詞に基づいて、形態素解析ステップが取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析ステップと、構文解析ステップの判定結果に基づいて、それぞれの単語がどの単語を修飾しているかを示す修飾記号を、それぞれの単語の前あるいは後に書き加える書き換えステップと、書き換えステップが書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなることを特徴とする文書圧縮方法【請求項14】前記圧縮ステップは単語、活用記号、および修飾記号の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、書き換えステップが書き換えた文章中の単語、活用記号、および修飾記号を、ビット列に書き換える圧縮ステップとからなることを特徴とする請求項13記載の文書圧縮方法【請求項15】前記圧縮ステップは前記文書ファイル中の単語、活用記号、および修飾記号が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、書き換えステップが書き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置、活用記号、および修飾記号を示すビット列に書き換える圧縮ステップとからなることを特徴とする請求項13記載の文書圧縮方法【請求項16】外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップによって取り出された単語を語彙見出しとして用いて、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶部を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索ステップと、検索ステップが検索した品詞に基づいて、形態素解析ステップが取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析ステップと、構文解析ステップの判定結果に基づいて、単語の前あるいは後ろに、それぞれの単語がどの単語を修飾しているかを示す修飾記号を書き加える書き換えステップと、形態素解析ステップが解析したそれぞれの単語を用いて、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶部を検索し、その単語に対応する代表表現を取り出し、書き換えステップが書き換えた文章中の単語を、当該代表表現に書き換える代表表現置換ステップと、代表表現置換ステップが書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなることを特徴とする文書圧縮方法【請求項17】前記圧縮ステップは単語、活用記号、修飾記号、および代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、代表表現置換ステップが書き換えた文章中の単語、活用記号、修飾記号、および代表表現を、ビット列に書き換える圧縮ステップとからなることを特徴とする請求項16記載の文書圧縮方法【請求項18】前記圧縮ステップは前記文書ファイル中の単語、活用記号、修飾記号、および代表表現が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、代表表現置換手段が書き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置、活用記号、修飾記号、および代表表現を示すビット列に書き換える圧縮ステップとからなることを特徴とする請求項16記載の文書圧縮方法
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、文書データを圧縮することのできる文書圧縮装置に関するものである。
【0002】
【従来の技術】近年、計算機による文書処理が一般に普及するとともに、計算機可読形式の文書(以下電子文書という)が激増している。電子文書は、フロッピーディスクなどの小型の磁気記録媒体にも記録可能なので、複写、配布が容易であり、また、かざばらないために保存のためのスペースが小スペースで済む。これらの電子文書は、計算機を用いて様々な処理を施すことも容易であるから、新聞、辞書などの大容量文書は、電子文書として利用、保存される。但し、このような電子文書を記録媒体に記録する場合、記録媒体の容量を有効に利用するため、一旦電子文書に対して圧縮処理を施し、圧縮処理後、記録媒体に記録する場合がある。
【0003】電子文書の圧縮法は、一般的にハフマン圧縮法に基づいている。ハフマン圧縮法を行う文書圧縮装置について説明する。この文書圧縮装置は、単語と、それぞれの単語に対応するビット列とが記述してある圧縮テーブルを備えている。また、この圧縮テーブルには、高い出現頻度を有する単語ほど、ビット長が短いビット列が対応しており、出現頻度が低い単語ほど、ビット長が長いビット列が対応している。従来の文書圧縮装置は、このような圧縮テーブルを参照して、電子文書中の単語をビット列に置き換える。電子文書を構成する文字コードのビット長が16ビットであり、上記のビット列のビット長が、最も短いもので3ビットである場合、文書圧縮装置の置き換えによって、文字コードと、上記のビット列のビット長の差だけ、電子文書の容量は圧縮される。
【0004】この圧縮法は、圧縮テーブルに、より高い出現頻度を有する単語を記述できれば、より高い圧縮率の圧縮文書を得ることができる。上述の圧縮法は、可逆(lossless)圧縮法に属するものである。これに対して圧縮時に情報量の欠落がある圧縮法つまり非可逆(lossy)圧縮法が存在する。この非可逆(lossy)圧縮を用いれば、元のデータと、元のデータを圧縮し、更に伸長したデータとは若干異なったものになる。このような圧縮法の一例に、日本国特許公開番号 平4−156663がある。この発明の概要を簡単に説明すると、先ず電子文書を構成する各文章に対して、所定の辞書を用いて形態素解析を行い、文章を単語に分割する。次に分割した単語の意味情報を辞書から取り出し、その意味情報に基づいて、その単語の重要度を求める。その重要度が所定値以下ならば、その単語は重要でないとみなし、文書中から削除する。その結果、電子文書は削除分だけ、容量が減少する。非可逆圧縮法を用いた場合の圧縮率は上述の削除分に留まるので、高い圧縮率は望めない。
【0005】
【発明が解決しようとする課題】しかしながら、上記従来技術におけるハフマン圧縮法を用いた文書圧縮装置によれば、ごく一般的な文書を処理対象とする場合、これらの文書には様々な単語がまんべんなく存在するため、圧縮テーブルに、高い出現頻度を有するような単語を記述できず、高圧縮率の文書圧縮は望めないという問題点があった。
【0006】具体的には、文書を作成する際、作成者は、同じ表現を繰り返し使うことを意図的に避けていることが多い。例えば、「弁明」という単語の繰り返しを避けるため、ある箇所では「言い訳」という単語を用いることがある。そのため個々の単語の出現頻度は低くなり、ハフマン圧縮を行っても高圧縮率の文書圧縮は望めない。
【0007】また、動詞、助動詞には、活用形が存在し、文書中にこれらがまんべんなく存在することが多い。例えば、「発表する」という単語は、動詞が活用することと、その動詞に接続される助動詞が活用することによって、「発表する」「発表した」「発表されてない」という単語がそれぞれ文書中にまんべんなく存在する。更に主語となる名詞には助詞が接続するため、文書中には「○×○×電器は」、「○×○×電器を」、「○×○×電器が」という単語がまんべんなく存在する。
【0008】このように処理対象となる文書において個々の単語の出現頻度が低ければ、ハフマン圧縮を行っても高圧縮率の文書圧縮は望めない。ハフマン圧縮法で高圧縮率を得るための別の方法として、ハフマン圧縮法に上記の非可逆圧縮法を組み合わせることも考えられる。つまり、非可逆圧縮法によって重要でない単語を削除して、文書中に存在する単語の種類を減らして、ハフマン圧縮法による圧縮を行うのである。この場合、非可逆圧縮法によって、文章の一部が自動的に削除されるので、復元後の文書の一部が意味不明になることがある。
【0009】本発明は、このような問題点に鑑み、元の文書の意味内容が損なわれないように一旦非可逆圧縮を施し、非可逆圧縮後、ハフマン圧縮を効率良く行うことにより、高圧縮率の圧縮文書を得る文書圧縮装置および文書圧縮方法を提供することを目的とする。
【0010】
【課題を解決するための手段】上記課題を解決するために本発明の文書圧縮装置は、外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、文書保持手段から文章を一文ずつ取り出し、当該文章から形態素となる単語を取り出す形態素解析手段と、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶手段と、形態素解析手段が解析したそれぞれの単語を用いて代表表現記憶手段を検索して、その単語に対応する代表表現を取り出し、文章中の単語を、当該代表表現に置き換える代表表現置換手段と、代表表現置換手段が置き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えることを特徴とする文書圧縮装置また、前記圧縮手段は代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、代表表現置換手段が置き換えられた文章中の単語の何れかを、ビット列に書き換える圧縮手段とからなっていてもよい。
【0011】また、前記圧縮手段は前記文書ファイル中の単語が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、代表表現置換手段が置き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置を示すビット列に書き換える圧縮手段ととからなっていてもよい。
【0012】また、本発明の文書圧縮装置は外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶手段と、文書保持手段から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析手段と、形態素解析手段によって取り出された単語を語彙見出しとして用いて、記憶手段を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索手段と、検索手段が検索した品詞に基づいて、形態素解析手段が取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析手段と、構文解析手段の判定結果に基づいて、それぞれの単語がどの単語を修飾しているかを示す修飾記号を、それぞれの単語の前あるいは後に書き加える書き換え手段と、書き換え手段が書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えている。
【0013】また、前記圧縮手段は単語、活用記号、および修飾記号の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、書き換え手段が書き換えた文章中の単語、活用記号、および修飾記号を、ビット列に書き換える圧縮手段とからなっていてもよい。
【0014】また、前記圧縮手段は前記文書ファイル中の単語、活用記号、および修飾記号が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、書き換え手段が書き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置、活用記号、および修飾記号を示すビット列に書き換える圧縮手段とからなる。
【0015】また前記文書圧縮装置は、外部記憶装置などの文書保持手段に記憶されている文書ファイルを圧縮する文書圧縮装置であって、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶手段と、文書保持手段から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析手段と、形態素解析手段によって取り出された単語を語彙見出しとして用いて、記憶手段を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索手段と、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶手段と、検索手段が検索した品詞に基づいて、形態素解析手段が取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析手段と、構文解析手段の判定結果に基づいて、単語の前あるいは後ろに、それぞれの単語がどの単語を修飾しているかを示す修飾記号を書き加える書き換え手段と、形態素解析手段が解析したそれぞれの単語を用いて代表表現記憶手段を検索し、その単語に対応する代表表現を取り出し、書き換え手段が書き換えた文章中の単語を、当該代表表現に書き換える代表表現置換手段と、代表表現置換手段が書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮手段とを備えていてもよい。
【0016】前記圧縮手段は単語、活用記号、修飾記号、および代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶手段と、ビット列記憶手段を参照して、代表表現置換手段が書き換えた文章中の単語、活用記号、修飾記号、および代表表現を、ビット列に書き換える圧縮手段とからなっていてもよい。
【0017】前記圧縮手段は前記文書ファイル中の単語、活用記号、修飾記号、および代表表現が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成手段と、代表表現置換手段が書き換えた文章中のそれぞれの単語を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置、活用記号、修飾記号、および代表表現を示すビット列に書き換える圧縮手段とからなっていてもよい。
【0018】また、本発明の文書圧縮方法は、外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から文章を一文ずつ取り出し、当該文章から形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップが解析したそれぞれの単語を用いて、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶部を検索し、その単語に対応する代表表現を取り出して、文章中の単語を、当該代表表現に置き換える代表表現置換ステップと、代表表現置換ステップが置き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなる。
【0019】また、前記圧縮ステップは代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、代表表現置換ステップが置き換えられた文章中の単語の何れかを、ビット列に書き換える圧縮ステップとからなっていてもよい。
【0020】また、前記圧縮ステップは前記文書ファイル中の単語が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、代表表現置換ステップが置き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置を示すビット列に書き換える圧縮ステップとからなっていてもよい。
【0021】また、前記文書圧縮方法は、外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップによって取り出された単語を語彙見出しとして用いて、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶部を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索ステップと、検索ステップが検索した品詞に基づいて、形態素解析ステップが取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析ステップと、構文解析ステップの判定結果に基づいて、それぞれの単語がどの単語を修飾しているかを示す修飾記号を、それぞれの単語の前あるいは後に書き加える書き換えステップと、書き換えステップが書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなる。
【0022】また、前記圧縮ステップは単語、活用記号、および修飾記号の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、書き換えステップが書き換えた文章中の単語、活用記号、および修飾記号を、ビット列に書き換える圧縮ステップとからなっていてもよい。
【0023】また、前記圧縮ステップは前記文書ファイル中の単語、活用記号、および修飾記号が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、書き換えステップが書き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置、活用記号、および修飾記号を示すビット列に書き換える圧縮ステップとからなっていてもよい。
【0024】また、前記文書圧縮方法は外部記憶装置などの文書保持部に記憶されている文書ファイルを圧縮する文書圧縮方法であって、文書保持部から、文章を一文ずつ取り出し、当該文章から、形態素となる単語を取り出す形態素解析ステップと、形態素解析ステップによって取り出された単語を語彙見出しとして用いて、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とを記憶する記憶部を検索し、その単語に対応する品詞、活用記号を取り出し、文章中の単語を、活用記号に置き換える検索ステップと、検索ステップが検索した品詞に基づいて、形態素解析ステップが取り出した単語が、構文中の、主語、述語、目的語等のどの構文要素に対応するかを判定する構文解析ステップと、構文解析ステップの判定結果に基づいて、単語の前あるいは後ろに、それぞれの単語がどの単語を修飾しているかを示す修飾記号を書き加える書き換えステップと、形態素解析ステップが解析したそれぞれの単語を用いて、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とを記憶する代表表現記憶部を検索し、その単語に対応する代表表現を取り出し、書き換えステップが書き換えた文章中の単語を、当該代表表現に書き換える代表表現置換ステップと、代表表現置換ステップが書き換えた文章中の単語の何れかを、当該単語よりビット長が短いビット列に書き換える圧縮ステップとからなっていてもよい。
【0025】また、前記圧縮ステップは単語、活用記号、修飾記号、および代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶するビット列記憶部を参照して、代表表現置換ステップが書き換えた文章中の単語、活用記号、修飾記号、および代表表現を、ビット列に書き換える圧縮ステップとからなっていてもよい。
【0026】また、前記圧縮ステップは前記文書ファイル中の単語、活用記号、修飾記号、および代表表現が出現頻度が小さいものの順に並べられた辞書を作成する辞書作成ステップと、代表表現置換手段が書き換えた文章中のそれぞれの単語を、辞書作成ステップが作成した辞書におけるそれぞれの単語の位置、活用記号、修飾記号、および代表表現を示すビット列に書き換える圧縮ステップとからなっていてもよい。
【0027】
【作用】上記の手段により本発明の文書圧縮装置(方法)において、文書保持手段に対して、形態素解析手段(ステップ)が作動し、文書保持手段(部)に保持されている文書から文章を一文ずつ取り出され、当該文章から形態素となる単語を取り出される。代表表現記憶手段(部)には、単語と、当該単語と同一の意味内容を持つ単語のうち、最も一般的に使われる単語である代表表現とが記憶されている。代表表現記憶手段(部)に対して、代表表現置換手段(ステップ)が作動し、形態素解析手段(ステップ)が解析したそれぞれの単語を用いて検索が行われ、その単語に対応する代表表現を取り出され、文章中の単語が、当該代表表現に置き換えられる。ビット列記憶手段(部)には、代表表現の出現頻度の高さの順に、短いビット長が割り当てられたビット列が記憶されている。代表表現置換手段(ステップ)が置き換えられた文章中の単語に対して、圧縮手段(ステップ)が作動し、ビット列記憶手段(部)が参照され、文章中の単語がビット列に書き換えられる。
【0028】また、上記の手段により本発明の文書圧縮装置において、記憶手段(部)には、単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しが、どの単語の活用形であるかを示す活用記号とが記憶されている。文書保持手段に対して、形態素解析手段(ステップ)が作動し、文書保持手段に保持されている文章が一文ずつ取り出され、当該文章から、形態素となる単語を取り出される。記憶手段(部)に対して、検索手段(ステップ)が作動し、形態素解析手段(ステップ)によって取り出された単語を語彙見出しとして用いて、その単語に対応する品詞、活用記号が検索されて取り出され、文章中の単語が活用記号に置き換えられる。形態素解析手段(ステップ)が取り出した単語に対して、構文解析手段(ステップ)が作動し、検索手段が検索した品詞に基づいて、構文中の単語が、主語、述語、目的語等のどの構文要素に対応するかが判定される。文章中の単語に対して、書き換え手段(ステップ)が作動し、構文解析手段(ステップ)の判定結果に基づいて、それぞれの単語がどの単語を修飾しているかを示す修飾記号が、それぞれの単語の間に挿入される。ビット列記憶手段(部)には、単語、活用記号、および修飾記号の出現頻度の高さの順に、短いビット長が割り当てられたビット列を記憶される。文章中の単語、活用記号、および修飾記号に対して、圧縮手段(ステップ)が作動し、ビット列記憶手段(部)が参照され、文章がビット列に書き換えられる。
【0029】
【実施例】図1は、本発明の一実施例の文書圧縮装置の構成図である。この文書圧縮装置は、文書作成装置に備えられ、ハードディスクなどの外部記憶装置に記憶されている文書の容量を圧縮するものである。文書圧縮装置は、制御部11と、解析辞書12と、形態素解析部14と、辞書検索部15と、構文解析部16と、表現変換辞書17と、表現変換部18と、式木変換部19と、圧縮テーブル20と、ハフマン圧縮部21とで構成される。
【0030】制御部11は、文書作成装置の図示しない外部記憶装置に記憶されている処理対象の電子文書をオープンし、オープンした電子文書から文章を、一文ずつ取り出し、取り出した文章を形態素解析部14に引き渡す。その後、制御部11は、形態素解析部14、辞書検索部15、構文解析部16、表現変換部18、式木変換部19、ハフマン圧縮部21を順に起動する。
【0031】解析辞書12は、単語、複合語、熟語などの単語である語彙見出しと、それぞれの語彙見出しの品詞と、当該語彙見出しがどの単語の活用形であるかを示す活用の情報と、当該語彙見出しの前に存在する語(この語の情報を文法情報と呼ぶ)とを記憶する。解析辞書12の一例を図3に示す。具体的には、解析辞書12は、「発表する」という語彙見出しの活用型が、サ行変格活用であり、この単語の前には、主語、目的語が存在することを記憶する。「れる」という語彙見出しに対して、解析辞書12は、その語彙見出しの品詞が助動詞であり、また、その当該語彙見出しの活用形が、それぞれラ行下一段活用、タ活用であることを記憶する。また、「発表する」が終止形であることは、「発表する.終」という記号(活用記号と呼ぶ)で示され、同様に、「発表する」の未然形、連用形、連体形、仮定形、命令形であることは、「発表する.未」、「発表する.用」「発表する.体」「発表する.仮」「発表する.命」という記号で示される。解析辞書12は、このように記号化された活用記号を上記の活用情報として保持している。
【0032】形態素解析部14は、制御部11から文章を受け取り、受け取った文章に対して形態素解析を行う。具体的には、形態素解析部14は、制御部11から受け取った文章から、活用語尾、接頭語、接尾語を検出し、これらで分割される単語を取り出して、辞書検索部15に渡す。例えば、形態素解析部14が、「○×○×電器は新製品を発表した」「その名称が今日公表された」「昨日彼はそのフルネームを言い触らした」という文章に対して形態素解析を行い、検出した単語をセパレータ記号「_」で区切ると、これらの文章は図2(a)に示すようになる。
【0033】辞書検索部15は、形態素解析部14によって解析された単語を受け取り、これらを語彙見出しとして用いて解析辞書12を検索し、前記活用の情報である活用記号とを取り出して、形態素解析部14によって検出された単語を活用記号に書き換える。活用記号が存在しない場合は、辞書検索部15は上記の書き換えを行わない。次に辞書検索部15は単語および活用記号の品詞と、文法の情報とを解析辞書12から取り出して、単語および活用記号と、それらに対応する品詞、文法の情報とを構文解析部16に出力する。辞書検索部15が、図3に示した解析辞書12を用いて書き換えを行うと、図2(a)に示した文章は、図2(b)のように書き換えられる。
【0034】構文解析部16は、辞書検索部15が検索した品詞および文法の情報に基づいて、形態素解析部14が取り出した単語が、主語、述語、目的語、連体修飾語、連用修飾語のどれに該当するか否かを判定し、判定結果に基づいて、制御部11が取り出した文章に対応する式木を生成する。具体的には、構文解析部16は、辞書検索部15が検索したそれぞれの単語の品詞が何であるかを参照して、形態素解析部14が取り出した単語が、主語、述語、目的語、連体修飾語、連用修飾語等、文章の構文中のどの要素(これらの要素を構文要素と呼ぶ。)に該当するかを判定し、更に主語、述語である単語には、構文解析部16は、それらが主語、目的語であるという情報を付加する。本実施例において、その語が主語であるという情報は、「.主」という記号である。その語が目的語であるという情報は、「.目」という記号である。上記判定を行った後、構文解析部16は、それぞれの単語をノードにし、更に辞書検索部15が検索した文法情報を参照して、それぞれのノードと、そのノードの前に存在する語のノードとを辺で結び式木を生成する。例えば、述語として判定された「発表する」という単語の文法情報は、その単語の前に、主語、目的語が存在するという情報であるから、構文解析部16は、「発表する」という述語に該当するノード(述語ノードという。)と、主語、目的語に該当するノード(主語ノード、目的語ノードという。)とを辺で結ぶ。「まだ」という連用修飾語の文法情報は、その単語の後に、述語となる単語が関連するという情報であるから、構文解析部16は、その連用修飾語に該当するノード(連用修飾語ノード)と、述語ノードとを辺で結ぶ。このような手順を全てのノードに対して行い、構文解析部16は、1つの文を式木に置き換える。図2(b)に示した文章に対して構文解析部16が作動すると、これらの文章は図2(c)に示す式木に置き換えられる。
【0035】表現変換辞書17は、解析辞書12で語彙見出しとして使用されている単語と、それぞれの単語と同一の意味内容を持つ単語のうち、その意味内容で最も一般的に使われる単語である代表表現とを対応させて記憶する。例えば、「公表する」「言い触らす」という単語について、同一の意味内容を持つ単語のうち、かつ意味内容が最も一般的に使われる単語は、「発表する」という単語であるから、表現変換辞書17は、「公表する」「言い触らす」という単語と、「発表する」と単語とを対応させて保持する。表現変換辞書17の一例を図4に示す。
【0036】表現変換部18は、辞書検索部15が取り出した単語を用いて、前記表現変換辞書17を検索し、代表表現を取り出して、構文解析部16が作成した式木のノードを、当該代表表現のノードに置き換える。表現変換部18が、図3に示した表現変換辞書17を用いて置き換えを行った結果、図2(c)に示した式木は、図5(a)に示すように書き換えられる。
【0037】式木変換部19は、構文解析部16が作成した式木を文字列に置き換える。具体的には、式木変換部19は、それぞれの構文要素がどの構文要素を修飾しているかを示す記号(この記号を修飾記号と呼ぶ。)を、式木において、ノードとなっているそれぞれの単語の間に挿入し、所定の順序に、これらの単語を並べかえることで、式木を文字列に置き換える。この置き換えの動作は、以下の{規則1}〜{規則3}の規則に基づいて行われる。
【0038】{規則1}式木変換部19は、述語ノードに該当する単語の後ろに、主語ノード、目的語ノード、連用修飾語ノードに該当する単語を修飾記号「(」、「)」で区切って並べる。例えば、述語ノードに該当する単語が「発表する」であり、主語ノードに該当する単語が「新製品」である場合、式木変換部19は、このような式木を「発表する(新製品)」という単語に置き換える。
【0039】{規則2}式木変換部19は、主語ノード、目的語ノード該当する単語の後ろに、連体修飾語ノードに該当する単語を修飾記号「(」、「)」で区切って並べる。例えば、連体修飾語ノードに該当する単語が「その」であり、主語ノード、目的語に該当する単語が「新製品」である場合、式木変換部19は、このような式木を「新製品(その)」という単語に置き換える。
【0040】{規則3}式木変換部19は、述語ノードに該当する単語の後ろに存在する、主語ノード、目的語ノード、連用修飾語ノードに該当する単語は、修飾記号「_」で区切って並べる。例えば、述語ノードに該当する単語が「発表する」であり、主語ノードに該当する単語が「○×○×電器」であり、目的語ノードに該当する単語が「新製品」である場合、式木変換部19は、このような式木を「発表する(○×○×電器_新製品)」という単語に置き換える。
【0041】図5(a)に示した式木に対して、式木変換部19がこのような規則に基づいて処理を行うと、これらの式木は、図5(b)に示す文字列に置き換えられる。圧縮テーブル20には、単語、記号と、それらに対応するビット列とが記述してある。また、圧縮テーブル20には、出現頻度が高い単語、記号ほど、ビット長が短いビット列が対応しており、出現頻度が低い単語、記号ほど、ビット長が長いビット列が対応している。圧縮テーブル20の一例を図6に示す。
【0042】ハフマン圧縮部21は、圧縮テーブル20を参照して、式木変換部19が生成した単語をビット列に置き換える。図7は、図1に示す文書圧縮装置のフローチャートである。ステップs11では、制御部11が、外部記録装置に記録されている電子文書から、文章を1文ずつ読み込む。
【0043】ステップs12では、形態素解析部14が、制御部11が読み込んだ文章から形態素によって分割される単語を取り出す。ステップs13では、辞書検索部15が、形態素解析部14によって取り出された単語を語彙見出しとして用いて、解析辞書12を検索し、その語彙見出しに該当する文法情報と、活用記号とを取り出す。更に文章中の、語彙見出しとして用いた単語を、取り出した活用記号に書き換える。
【0044】ステップs14では、構文解析部16が、辞書検索部15が取り出した単語が、主語、述語、目的語、連体修飾語等、連用修飾語の何れの語に該当するかを判定し、制御部11が取り出した文章に対応する式木を生成する。ステップs15では、表現変換部18が、表現変換辞書17から語彙見出しを取り出す。
【0045】ステップs16では、表現変換部18が、取り出した語彙見出しと、構文解析部16が生成したノードの単語とが一致するか否かを判定する。もし、一致すればステップs17に移行する。一致しなければステップs18に移行する。ステップs17では、表現変換部18が代表表現を取り出し、ノードに対応する単語を、取り出した代表表現に書き換える。
【0046】ステップs18では、表現変換部18が、次の語彙見出しが、表現変換辞書17中に存在するか否かを判定する。存在すればその語彙見出しを取り出すためにステップs15に移行する。存在しなければステップs19に移行する。ステップs19では、式木変換部19は、構文解析部16が作成した式木を文字列に置き換える。
【0047】ステップs20では、ハフマン圧縮部21が、圧縮テーブル20を参照して、式木変換部19が生成した文字列をビット列に置き換える。以上のように構成された文書圧縮装置の動作について説明する。
(1)制御部11が、外部記録装置に記録されている「○×○×電器は新製品を発表した。その名称が今日公表された。昨日彼はそのフルネームを言い触らした」という内容の電子文書をオープンし、文章を1文ずつ読み込む(ステップs11)。
【0048】(2)形態素解析部14が、制御部11が読み込んだ文章から形態素によって分割される単語を取り出す(ステップs12)。形態素解析の結果、これらの文章は図2(a)に示すようになる。
(3)辞書検索部15が、形態素解析部14によって取り出された単語を語彙見出しとして用いて解析辞書12を検索し、前記活用の情報である活用記号を取り出す。更に辞書検索部15は、文章中の単語を、取り出した活用記号に書き換える(ステップs13)。辞書検索部15が、図3に示した解析辞書12を用いて書き換えを行うと、図2(a)に示した文章は、図2(b)のように書き換えられる。
【0049】(4)構文解析部16が、辞書検索部15が取り出した単語が、主語、述語、目的語、連体修飾語、連用修飾語等、構文中の、どの構文要素に該当するかを判定し、制御部11が取り出した文章に対応する式木を生成する(ステップs14)。
(5)表現変換部18が、表現変換辞書17から語彙見出しを取り出す(ステップs15)。
【0050】(6)表現変換部18が、取り出した語彙見出しと、形態素解析部14が取り出した単語とが一致するか否かを判定し(ステップs16)、もし一致を判定すれば、制御部11が取り出した文章中の単語を、語彙見出しに該当する代表表現に書き換える(ステップs17)。文章中に、他にも語彙見出しとして使用できる単語が存在すれば(5)に移行する。存在しなければ(7)に移行する(ステップs18)。表現変換部18が、図3に示した表現変換辞書17を用いて置き換えを行った結果、図2(c)に示した式木は、図5(a)に示すように書き換えられる。
【0051】(7)式木変換部19は、構文解析部16が作成した式木を文字列に置き換える(ステップs19)。図5(a)に示した式木に対して式木変換部19が処理を行うと、これらの式木は、図5(b)に示す文字列に置き換えられる。
(8)ハフマン圧縮部21は、圧縮テーブル20を参照して、式木変換部19が生成した文字列をビット列に置き換える。(ステップs20)。
【0052】このように本発明の文書圧縮装置および文書圧縮方法によれば、元の文書の意味内容を留めながらも高圧縮率の圧縮文書を得ることができる。尚、本文書圧縮装置の構成は上記の構成に限定されるものではなく、例えば、圧縮テーブル20およびハフマン圧縮部21からなるハフマン圧縮法を行う構成に代えて、他の頻度情報を用いた公知の圧縮法を用いて文書ファイルの圧縮を行う圧縮部を適用してもよい。
【0053】上述の文書圧縮装置の一例を以下に述べる。上記の圧縮部は、辞書作成部と、書き換え圧縮部とからなり、辞書作成部は、処理対象の文書ファイル中の単語が出現頻度が小さいものの順に並べられた辞書を作成する。書き換え圧縮部は、式木生成部19が生成したそれぞれの式木を、辞書作成手段が作成した辞書におけるそれぞれの単語の位置を示すビット列に書き換える。このような圧縮部を備えれば、それぞれの文書ファイルの頻度情報を用いて文書ファイルを圧縮することができる。
【0054】
【発明の効果】以上説明してきたように、本発明の文書圧縮装置および文書圧縮方法によれば、文書中に様々な単語がまんべんなく存在する一般的な文書を処理対象とする場合において、言い回しだけが異なるだけの単語を、意味内容が通じるような代表表現に書き換え、更に動詞、助動詞となる単語を活用記号に書き換え、構文要素となる単語を所定の順序に並べかえ、並べかえによって助詞となる単語を文章中から削除して、これらの処理の後にハフマン圧縮法による文書圧縮を行うので、元の文書の意味内容を留めながらも高圧縮率の圧縮文書を得ることができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013