米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 日本電信電話株式会社

発明の名称 文書分類方法、装置、および文書分類プログラムを記録した記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−34622(P2001−34622A)
公開日 平成13年2月9日(2001.2.9)
出願番号 特願平11−204599
出願日 平成11年7月19日(1999.7.19)
代理人 【識別番号】100088328
【弁理士】
【氏名又は名称】金田 暢之
【テーマコード(参考)】
5B075
【Fターム(参考)】
5B075 NR02 NR12 PQ02 PR06 QM08 
発明者 石井 恵 / 渡辺 一成
要約 目的


構成
特許請求の範囲
【請求項1】 分類先を表すカテゴリ名が付与されていない文書に対して分類先のカテゴリ名を決定する文書分類方法であって、分類先を表すカテゴリ名が付与されている教師文書の集合を入力する教師文書集合入力段階と、前記各教師文書の特徴を抽出する教師文書特徴抽出段階と、前記教師文書の特徴から、各カテゴリの特徴情報を抽出するカテゴリ特徴抽出段階と、前記教師文書の集合中の教師文書に対して、前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順位付けされた分類先の類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出段階と、分類先のカテゴリを表すカテゴリ名が付与されていない文書を入力する文書入力段階と、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴を抽出する文書特徴抽出段階と、前記例外特徴抽出段階の出力を用いて、前記分類先のカテゴリ名が付与されていない文書の特徴を例外の特徴としてもつカテゴリ名を出力する例外特徴照合段階と、前記分類先のカテゴリを表すカテゴリ名が付与されていない文書に対して、前記文書特徴抽出段階で得られた特徴と前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順序づけて分類先のカテゴリ名を出力する類似カテゴリ検索段階と、前記分類先のカテゴリ名が付与されていない文書に対して前記類似カテゴリ検索段階の出力と前記例外特徴照合段階の出力から分類先のカテゴリ名を決定するカテゴリ決定段階と、前記決定されたカテゴリ名を出力するカテゴリ出力段階を有する文書分類方法。
【請求項2】 前記文書特徴抽出段階で抽出される文書の特徴が、該文書を構成する各表現単位の出現頻度であり、前記カテゴリ特徴抽出段階では、前記教師文書全体での各表現単位毎の出現頻度を用いて各表現単位に各カテゴリに対する出やすさを算出し、表現単位とカテゴリ名を行、列とする表の各欄に前記出やすさを埋めた得点表を作成し、前記例外特徴抽出段階は、当該教師文書の特徴を獲得する段階と、獲得された文書特徴に含まれる各表現単位をキーとして前記得点表を参照し、各表現単位の各カテゴリに対する出やすさを取得し、当該教師文書の得点表を作成する段階と、作成された得点表を用いて当該教師文書に対する各カテゴリの類似度を算出する段階と、最も類似度が高いカテゴリ名と当該教師文書に予め付与されているカテゴリ名を比較し、一致しない場合、当該教師文書を例外文書として検出する段階と、例外文書として検出された教師文書の特徴を取得する段階を有する、請求項1記載の方法。
【請求項3】 前記例外照合段階では、前記例外特徴抽出段階の出力の中から、カテゴリ名が付与されていない文書の特徴と一致する特徴をもつカテゴリ名を出力し、前記カテゴリ決定段階は、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書に対して、前記例外特徴照合段階からカテゴリ名の出力がある場合は、前記例外特徴照合段階の出力カテゴリ名を分類先のカテゴリ名と決定し、前記例外特徴照合段階からカテゴリ名の出力がない場合は、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴と最も類似度が高い特徴をもつカテゴリのカテゴリ名を前記類似カテゴリ検索段階の出力を用いて取得し、前記取得されたカテゴリ名を分類先のカテゴリ名と決定する、請求項1または2記載の方法。
【請求項4】 前記カテゴリ決定段階は、前記例外特徴照合段階の出力で複数の異なるカテゴリ名が得られた場合、前記出力の中で最も出現頻度が高いカテゴリ名を分類先のカテゴリ名と決定する、請求項3記載の方法。
【請求項5】 分類先を表すカテゴリ名が付与されていない文書に対して分類先のカテゴリ名を決定する文書分類装置であって、入力文書の特徴を抽出する文書特徴抽出部と、分類先を表すカテゴリ名が付与されている教師文書の集合中の個々の教師文書に対して前記文書特徴抽出部によって抽出された文書の特徴から各カテゴリの特徴情報を抽出するカテゴリ特徴抽出部と、前記カテゴリ特徴抽出部から抽出された特徴情報を格納するカテゴリ特徴格納部と、入力された文書に対して、前記カテゴリ特徴格納部に格納されているカテゴリの特徴情報を用いて各カテゴリとの類似度を算出する類似度算出部を有し、分類先のカテゴリを表すカテゴリ名が付与されていない文書の入力に対して、類似度により順位づけして分類先のカテゴリ名を出力する類似カテゴリ検索部と、分類先を表すカテゴリ名が付与されている前記教師文書の集合中の各教師文書に対し、前記類似カテゴリ検索部を用いて類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出部と、前記例外特徴抽出部の出力を格納する例外特徴格納部を有し、分類先のカテゴリを表すカテゴリ名が付与されていない文書の入力に対して、前記入力された文書の特徴を例外としてもつカテゴリ名を出力する例外特徴照合部と、分類先を表すカテゴリ名が付与されていない文書の入力に対して、前記類似カテゴリ検索部の出力と前記例外特徴照合部の出力を用いて、分類先のカテゴリ名を決定し、前記決定されたカテゴリ名を出力するカテゴリ決定部とを有する文書分類装置。
【請求項6】 前記文書特徴抽出部で抽出される文書の特徴が、該文書を構成する各表現単位の出現頻度であり、前記カテゴリ特徴抽出部では、前記教師文書全体での各表現単位毎の出現頻度を用いて各表現単位に各カテゴリに対する出やすさを算出し、表現単位とカテゴリ名を行、列とする表の各欄に前記出やすさを埋めた得点表を作成し、前記例外特徴抽出部は、当該教師文書の特徴を獲得する手段と、獲得された文書特徴に含まれる各表現単位をキーとして前記得点表を参照し、各表現単位の各カテゴリに対する出やすさを取得し、当該教師文書の得点表を作成する手段と、作成された得点表を用いて当該教師文書に対する各カテゴリの類似度を算出する手段と、最も類似度が高いカテゴリ名と当該教師文書に予め付与されているカテゴリ名を比較し、一致しない場合、当該教師文書を例外文書として検出する手段と、例外文書として検出された教師文書の特徴を取得する手段を有する請求項5記載の装置。
【請求項7】 前記例外特徴照合部では、前記例外特徴抽出部の出力の中から、カテゴリ名が付与されていない文書の特徴と一致する特徴をもつカテゴリ名を出力し、前記カテゴリ決定部は、前記分類先のカテゴリ名を表すカテゴリが付与されていない文書に対して、前記例外特徴照合部からカテゴリ名の出力がある場合は、前記例外特徴照合部の出力カテゴリ名を分類先のカテゴリ名と決定し、前記例外特徴照合部からカテゴリ名の出力がない場合は、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴と最も類似度が高い特徴をもつカテゴリのカテゴリ名を前記類似カテゴリ検索部の出力を用いて取得し、前記取得されたカテゴリ名を分類先のカテゴリ名と決定する、請求項5または6記載の方法。
【請求項8】 前記カテゴリ決定部は、前記例外特徴照合部の出力で複数の異なるカテゴリ名が得られた場合、前記出力の中で最も出現頻度が高いカテゴリ名を分類先のカテゴリ名と決定する、請求項7記載の装置。
【請求項9】 分類先を表すカテゴリ名が付与されていない文書に対して分類先のカテゴリ名を決定する文書分類プログラムであって、分類先を表すカテゴリ名が付与されている教師文書の集合を入力する教師文書集合入力処理と、前記各教師文書の特徴を抽出する教師文書特徴抽出処理と、前記教師文書の特徴から、各カテゴリの特徴情報を抽出するカテゴリ特徴抽出処理と、前記教師文書の集合中の教師文書に対して、前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順位付けされた分類先の類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出処理と、分類先のカテゴリを表すカテゴリ名が付与されていない文書を入力する文書入力処理と、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴を抽出する文書特徴抽出処理と、前記例外特徴抽出処理の出力を用いて、前記分類先のカテゴリ名が付与されていない文書の特徴を例外の特徴としてもつカテゴリ名を出力する例外特徴照合処理と、前記分類先のカテゴリを表すカテゴリ名が付与されていない文書に対して、前記文書特徴抽出処理で得られた特徴と前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順序づけて分類先のカテゴリ名を出力する類似カテゴリ検索処理と、前記分類先のカテゴリ名が付与されていない文書に対して前記類似カテゴリ検索処理の出力と前記例外特徴照合処理の出力から分類先のカテゴリ名を決定するカテゴリ決定処理と、前記決定されたカテゴリ名を出力するカテゴリ出力処理をコンピュータに実行させるための文書分類プログラムを記録した記録媒体。
【請求項10】 前記文書特徴抽出処理で抽出される文書の特徴が、該文書を構成する各表現単位の出現頻度であり、前記カテゴリ特徴抽出処理では、前記教師文書全体での各表現単位毎の出現頻度を用いて各表現単位に各カテゴリに対する出やすさを算出し、表現単位とカテゴリ名を行、列とする表の各欄に前記出やすさを埋めた得点表を作成し、前記例外特徴抽出処理は、当該教師文書の特徴を獲得する処理と、獲得された文書特徴に含まれる各表現単位をキーとして前記得点表を参照し、各表現単位の各カテゴリに対する出やすさを取得し、当該教師文書の得点表を作成する処理と、作成された得点表を用いて当該教師文書に対する各カテゴリの類似度を算出する処理と、最も類似度が高いカテゴリ名と当該教師文書に予め付与されているカテゴリ名を比較し、一致しない場合、当該教師文書を例外文書として検出する処理と、例外文書として検出された教師文書の特徴を取得する処理を有する、請求項9記載の記録媒体。
【請求項11】 前記例外特徴照合処理では、前記例外特徴抽出処理の出力の中から、カテゴリ名が付与されていない文書の特徴と一致する特徴をもつカテゴリ名を出力し、前記カテゴリ決定処理は、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書に対して、前記例外特徴照合処理からカテゴリ名の出力がある場合は、前記例外特徴照合処理の出力カテゴリ名を分類先のカテゴリ名と決定し、前記例外特徴照合処理からカテゴリ名の出力がない場合は、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴と最も類似度が高い特徴をもつカテゴリ名を前記類似カテゴリ検索処理の出力を用いて取得し、前記取得されたカテゴリ名を分類先のカテゴリ名と決定する、請求項9または10記載の記録媒体。
【請求項12】 前記カテゴリ決定処理は、前記例外特徴照合処理の出力で複数の異なるカテゴリ名が得られた場合、前記出力の中で最も出現頻度が高いカテゴリ名を分類先のカテゴリ名と決定する、請求項11記載の記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、ローカルの計算機上、ネットワーク上、分離媒体上に格納される文書を自動分類する文書分類装置に関する。
【0002】
【従来の技術】従来の文書自動分類装置では、文書の特徴、分類先(カテゴリ)の特徴を表現単位の集合として表す。ここで、表現単位とは例えばキーワードがあげられる。カテゴリの特徴は、分類先の名前(カテゴリ名)が付与されている文書(教師文書)集合から生成される。分類の対象となる文書と各カテゴリの類似性は、分類の対象となる文書の表現単位集合とカテゴリの表現単位集合の類似性で定義する。分類先のカテゴリ名はこれらの表現単位集合間の類似性から決定される。利用される類似性の算出法としては、ベクトルの内積を利用するもの、ユークリッド距離を利用するもの、各表現単位の各カテゴリにおける出現確率を利用するものがある。
【0003】ベクトルの内積を利用する手法では文書とカテゴリの特徴をベクトルとして表す。ベクトルは文書から抽出した表現単位によって張られる空間上に構成され、ベクトルの各成分の値は各表現単位の重要度で表す。この手法では、文書とカテゴリの類似性を上記のベクトルの内積の値を利用して算出する。
【0004】ユークリッド距離を利用する手法では、文書、カテゴリを文書から抽出した表現単位を軸とする座標空間上の点として表す。各文書の座標は、各表現単位がその文書内に出現する回数にもとづいた値から算出される。カテゴリの特徴を表す座標は、そのカテゴリに属する文書群の重心点とするのが一般的である。文書とカテゴリの類似性は、文書と前記カテゴリの重心とのユークリッド距離を利用する。
【0005】各表現単位の各カテゴリにおける出現確率を利用する手法では、文書から抽出された各表現単位が各カテゴリに対して、どれだけそのカテゴリに出やすいかを求め、文書とカテゴリの類似度は前記出やすさを利用して算出する。出やすさの指標としては、表現単位分布のχ2検定におけるχ2値がある。χ2値とは、各カテゴリで一様に表現単位が出現したと仮定した場合の出現頻度(理論頻度)と、ある特定のカテゴリでの実際のその表現単位の出現頻度との差を数値化したものである。表現単位が特定の分類先にのみ多く出現する表現単位のχ2値は大きくなり、全てのカテゴリで一様に出現する表現単位のχ2値は0となる。
【0006】
【発明が解決しようとする課題】前記の手法を用いた装置では、文書とカテゴリの特徴を照合するため、必ずしも全ての教師文書と整合するカテゴリの特徴を生成できるとはかぎらない。そのためカテゴリが未知の文書として、教師文書と同じ特徴をもつ文書が与えられた場合、教師文書によってカテゴリを決定できる情報が与えられているにも関わらず、誤ったカテゴリを分類先として出力する可能性をもつ、という問題を有していた。
【0007】本発明の目的は、過去に与えられた教師文書と同じ特徴をもつ文書を正確に分類できる文書分類方法、装置、および文書分類プログラムを記録した記録媒体を提供することにある。
【0008】
【課題を解決するための手段】、本発明の文書分類方法は、分類先を表すカテゴリ名が付与されている教師文書の集合を入力する教師文書集合入力段階と、前記各教師文書の特徴を抽出する教師文書特徴抽出段階と、前記教師文書の特徴から、各カテゴリの特徴情報を抽出するカテゴリ特徴抽出段階と、前記教師文書の集合中の教師文書に対して、前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順位付けされた分類先の類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出段階と、分類先のカテゴリを表すカテゴリ名が付与されていない文書を入力する文書入力段階と、前記分類先のカテゴリを表すカテゴリ名が付与されていない文書の特徴を抽出する文書特徴抽出段階と、前記例外特徴抽出段階の出力を用いて、前記分類先のカテゴリ名が付与されていない文書の特徴を例外の特徴としてもつカテゴリ名を出力する例外特徴照合段階と、前記分類先のカテゴリを表すカテゴリ名が付与されていない文書に対して、前記文書特徴抽出段階で得られた特徴と前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順序づけて分類先のカテゴリ名を出力する類似カテゴリ検索段階と、前記分類先のカテゴリ名が付与されていない文書に対して、前記類似カテゴリ検索段階の出力と前記例外特徴抽出段階の出力から分類先のカテゴリ名を決定するカテゴリ決定段階と、前記決定されたカテゴリ名を出力するカテゴリ出力段階を有する。
【0009】また、本発明の文書分類装置は、入力文書の特徴を抽出する文書特徴抽出部と、分類先を表すカテゴリ名が付与されている教師文書の集合中の個々の教師文書に対して前記文書特徴抽出部によって抽出された文書の特徴から各カテゴリの特徴情報を抽出するカテゴリ特徴抽出部と、前記カテゴリ特徴抽出部から抽出された特徴情報を格納するカテゴリ特徴格納部と、入力された文書に対して、前記カテゴリ特徴格納部に格納されているカテゴリの特徴情報を用いて各カテゴリとの類似度を算出する類似度算出部を有し、分類先のカテゴリを表すカテゴリ名が付与されていない文書の入力に対して、類似度により順位づけして分類先のカテゴリ名を出力する類似カテゴリ検索部と、分類先を表すカテゴリ名が付与されている前記教師文書の集合中の各教師文書に対し、前記類似カテゴリ検索部を用いて類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出部と、前記例外特徴抽出部の出力を格納する例外特徴格納部を有し、分類先のカテゴリを表すカテゴリ名が付与されていない文書の入力に対して、前記入力された文書の特徴を例外としてもつカテゴリ名を出力する例外特徴照合部と、分類先を表すカテゴリ名が付与されていない文書の入力に対して、前記類似カテゴリ検索部の出力と前記例外特徴照合部の出力を用いて分類先のカテゴリ名を決定し、前記決定されたカテゴリ名を出力するカテゴリ決定部を有する。
【0010】本発明は、教師文書の集合から各カテゴリに対して、そのカテゴリに分類される文書の多くがもつ汎用的な特徴と、前記汎用的な特徴では整合しない一部の文書のみがもつ例外的な特徴を抽出し、全ての教師文書と整合するカテゴリの特徴を生成する。そして分類先が未知の文書の分類においては、文書の特徴と前記抽出された各カテゴリの例外的な特徴と汎用的な特徴を照合し、分類先を決定する。これにより、過去に与えられた教師文書と同じ特徴をもつ文書を正確に分類できる文書分類装置を実現する。
【0011】
【発明の実施の形態】次に、本発明の実施の形態について図面を参照して説明する。
【0012】図1を参照すると、本発明の一実施形態の文書分類装置は文書特徴抽出部11と類似カテゴリ検索部12と例外特徴照合部13とカテゴリ決定部14で構成されている。
【0013】文書特徴抽出部11は与えられた文書の特徴を抽出する。
【0014】類似カテゴリ検索部12は、分類先を表すカテゴリ名が付与されている教師文書の集合中の個々の教師文書に対して文書特徴抽出部11によって抽出された文書の特徴から各カテゴリの特徴情報を抽出するカテゴリ特徴抽出部121と、抽出された特徴情報を格納するカテゴリ特徴格納部122と、入力された文書に対して、カテゴリ特徴格納部122に格納されているカテゴリの特徴情報を用いて各カテゴリとの類似度を算出する類似度算出部123を含む。
【0015】例外特徴照合部13は、分類先を表すカテゴリ名が付与されている教師文書の集合中の各教師文書に対して、その教師文書の特徴と最も類似する特徴を持つカテゴリの名前を類似カテゴリ検索部12を用いて取得し、取得されたカテゴリ名と教師文書に予め付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、例外文書とされた教師文書の特徴とその教師文書に付与されているカテゴリ名と関連づけて出力する例外特徴抽出部131と、例外特徴抽出部131の出力を格納する例外特徴格納部132を有し、分類先のカテゴリを表すカテゴリ名が付与されていない文書の入力に対して、入力された文書の特徴を例外として持つカテゴリ名を出力する。
【0016】カテゴリ決定部14は、分類先を表すカテゴリ名が付与されていない文書の入力に対して、類似カテゴリ検索部12の出力と例外特徴照合部13の出力を用いて、分類先のカテゴリ名を決定し、決定されたカテゴリ名を出力する。
【0017】次に、本文書分類装置の動作を図2を用いて説明する。
【0018】図3は、本文書分類装置に入力される教師文書集合の例である。図3において、文書(1),(2)はカテゴリ「roujin」に、また文書(3)はカテゴリ「ippan」に分類されることを示す。
【0019】図3に示す教師文書集合を文書分類装置へ入力する(ステップ21)。
【0020】教師文書集合は文書分類装置へ入力されると、まず、類似カテゴリ検索部12へ送信され、カテゴリ特徴抽出部121へ入力される。カテゴリ特徴抽出部121は、教師文書集合中の文書を文書特徴抽出部11へ送信する。
【0021】文書特徴抽出部11は、送信された文書から文書の特徴を抽出する(ステップ22)。ここで、文書の特徴は、入力文書を構成する表現単位と各単位毎の出現頻度により表現される。ここでは、表現単位の例として普通名詞を用いることとし、形態素解析を行ない、普通名詞を抽出する。表1は、本実施形態の文書の特徴の例を示す。結果は文書特徴抽出部11からカテゴリ特徴抽出部121へ送信される。
【0022】
【表1】

カテゴリ特徴抽出部121は、文書特徴抽出部11の出力結果から各カテゴリの特徴を抽出する。ここでは類似度の算出に各表現単位の各カテゴリにおける出現頻度を用いる手法を利用する場合のカテゴリの特徴の抽出を例として説明する。カテゴリ特徴抽出部121は、教師文書集合全体での各表現単位毎カテゴリ毎の出現頻度を求める。この出現頻度を用いて各表現単位毎に各カテゴリに対する出やすさを計算する。出やすさは前述した[従来の技術]の項で述べたχ2値を用いた手法によって算出する。カテゴリ特徴抽出部121は、表現単位を行とし、カテゴリ名を列とした表を作成し、対応する欄に各表現単位の各カテゴリに対する出やすさを埋める。表の各列は各カテゴリの特徴を表す。ここで、前記表を得点表と呼ぶ。カテゴリ特徴抽出部121は、前記得点表をカテゴリ特徴格納部122へ格納する(ステップ23)。表2は、本実施形態のカテゴリ特徴抽出部121が作成する得点表の例である。
【0023】
【表2】

次に、前記教師文書集合は例外特徴照合部13へ送信され、例外特徴抽出部131へ入力される。
【0024】例外特徴抽出部131は、前記各教師文書に対して、類似カテゴリ検索部12を利用して、類似度により順位づけされた分類先のカテゴリ名を取得する。
【0025】ここで処理対象となる教師文書を教師文書Aとすると、教師文書Aに対して行なわれる処理は以下の通りである。
[教師文書Aに対する処理]例外特徴抽出部131が教師文書Aを類似カテゴリ検索部12へ送信する(ステップ31)。
【0026】類似カテゴリ検索部12では、送信された教師文書Aは類似度算出部123へ入力される(ステップ32)。
【0027】類似度算出部123は、教師文書Aを文書特徴抽出部11へ送信し、教師文書Aの特徴を獲得する(ステップ33)。
【0028】類似度算出部123は獲得された文書特徴に基づいて各カテゴリに対する文書の類似度を算出する。まず、前記獲得された文書特徴に含まれる各表現単位をキーとして、カテゴリ特徴格納部122に格納されている得点表を参照し、各表現単位の各カテゴリに対する出やすさを取得し、教師文書Aの得点表を作成する(ステップ34)。表3は本実施形態において教師文書Aを図3の教師文書(1)とした場合の前記処理により類似度算出部123が作成する得点表の例である。
【0029】
【表3】

類似度算出部123は前記作成した得点表を用いて、教師文書Aに対する各カテゴリの類似度を算出する(ステップ35)。類似度は教師文書Aの特徴中に含まれる表現単位の各カテゴリに対する出やすさを各カテゴリ毎にたし合わせて算出する。複数回出現する表現単位については、出現回数分出やすさを加算する。
【0030】本実施形態における類似度算出部123が算出した教師文書Aに対する各カテゴリの類似度の例を表4に示す。類似度は値が大きい程、そのカテゴリに分類される文書と教師文書Aが似ているということを表す。よって類似度が大きいカテゴリほど、教師文書Aの分類先としてふさわしいことを意味する。
【0031】
【表4】

各カテゴリは、類似度算出部123が算出した類似度に基づき順位づけされ、例外特徴抽出部131へ送信される(ステップ36)。
【0032】例外特徴抽出部131は、類似カテゴリ検索部12の出力結果から、最も類似度が高いカテゴリ名と教師文書Aに予め付与されているカテゴリ名を比較し、一致しない場合、教師文書Aを例外の文書として検出する(ステップ37)。
【0033】図3の教師文書(1)について見てみると、類似カテゴリ検索部12の出力結果で教師文書(1)に対して、類似度が最も大きいカテゴリは「ippan」である。一方、教師文書(1)に予め付与されているカテゴリ名は「roujin」であり、一致しない。よって教師文書(1)は例外文書として検出される。
【0034】前記ステップ31〜37により例外文書として検出された教師文書に対して、例外特徴抽出部131は以下の処理を行なう(ステップ24)。ここで、処理の対象となる例外の教師文書を例外文書Aとする。
【0035】例外文書Aを文書特徴抽出部11へ送信し、例外文書Aの特徴を取得する(ステップ41)。
【0036】前記取得した特徴をカテゴリ名と関連づけて例外特徴格納部132に格納する(ステップ42)。
【0037】表5は、本実施形態における例外特徴格納部132に格納される例外的な特徴の例である。なお、例外文書毎にその特徴を格納するため、分類先のカテゴリ名が同じで同じ特徴をもつ文書が複数存在する場合は、重複して格納される。
【0038】
【表5】

次に、文書分類装置に分類先が付与されていない文書が入力されたとする(ステップ25)。前記入力文書を仮に文書Unknownと呼ぶ。文書Unknownの例を図6に示す。文書Unknownはカテゴリ決定部14に送信される。
【0039】カテゴリ決定部14は、その特徴が例外として登録されているかを調べるため、文書Unknownを例外特徴照合部13へ送信する。例外特徴照合部13は、入力された文書Unknownを文書特徴抽出部11へ送信し、その特徴を取得する(ステップ26)。ここで取得される文書Unknownの特徴を表6に示す。
【0040】
【表6】

例外特徴照合部13は、例外特徴格納部132を参照し、前記文書特徴抽出部11から取得した特徴と一致する特徴をもつカテゴリ名を出力する(ステップ27)。この例では、カテゴリ名「roujin」が出力される。なお、前述したように、分類先のカテゴリ名が同じで、同じ特徴をもつ文書が複数存在する場合は重複して情報が格納されているため、入力された文書の特徴が分類先のカテゴリ名が同じで同じ特徴をもつ複数の文書の特徴と一致した場合は、カテゴリ名は重複して出力される。
【0041】次にカテゴリ決定部14は類似カテゴリ検索部12へ文書Unknownを送信する。類似カテゴリ検索部12は、分類先のカテゴリを表すカテゴリ名が付与されていない文書に対して、文書特徴抽出部11で得られた特徴とカテゴリ特徴格納部132に格納されている各カテゴリの特徴との類似度を計算し、類似度により順序づけて分類先のカテゴリ名を出力する(ステップ28)。
【0042】カテゴリ決定部14は、以下の処理により文書Unknownの分類先を決定する(ステップ29)。
【0043】例外特徴照合部132の出力でカテゴリ名が返却された場合は、返却されたカテゴリ名を文書Unknownの分類先として決定する。ここで、例外特徴照合部13から複数の異なるカテゴリ名が出力された場合は、カテゴリ決定部14は、出力中の最も出現頻度が高いカテゴリ名を文書Unknownの分類先に決定する。例外特徴照合部132から出力されるカテゴリ名がない場合は、カテゴリ決定部14は類似カテゴリ検索部12へ文書Unknownを送信し、類似度により順位づけされたカテゴリ名のリストを取得し、類似度の最も高いカテゴリ名を文書Unknownの分類先に決定する。ここでの類似カテゴリ検索部12の動きは、出力先が例外特徴抽出部131でなく、カテゴリ決定部14であるということを除いて、前記ステップ22〜26と同様である。
【0044】カテゴリ決定部14は、上記処理にもとづき決定したカテゴリの名前を、入力された文書の分類先として出力する(ステップ30)。
【0045】この例では、例外特徴照合部132が、カテゴリ名「roujin」を出力するので、カテゴリ決定部14は、文書Unknownの分類先のカテゴリを「roujin」に決定し、「roujin」を出力する。
【0046】ここで、従来の文書分類装置と本実施形態の文書分類装置を比較する。図8に従来の文書分類装置の構成例を示す。
【0047】前述と同様の教師文書集合を文書分類装置に与えた場合、カテゴリ特徴抽出部121には、表2と同様の得点表が格納される。ここで前述の文書Unknownの分類先を得るために、従来の文書分類装置に文書Unknownを入力する。
【0048】入力された文書Unknownは、類似カテゴリ検索部12へ送信され、類似度算出部123へ入力される。類似度算出部123は、文書Unknownを文書特徴抽出部11へ送信し、文書Unknownの特徴を取得する。取得された特徴は表6で示されるものと同じである。
【0049】類似度算出部123は獲得された前記特徴に基づいて各カテゴリに対する文書の類似度を前記ステップ34,35と同様に算出する。算出された類似度は表4で示されるものと同じである。
【0050】類似度算出部123は、各カテゴリを算出した類似度にもとづいて順位づけしたカテゴリ名をカテゴリ決定部14へ出力する。カテゴリ決定部14は最も類似度の高いカテゴリ名を文書Unknownの分類先として出力する。ここでは、カテゴリ名「ippan」が出力される。
【0051】以上より、従来の分類装置では、教師文書として文書Unknownと内容が非常に類似した文書(1)が与えられているにも関わらず、本来分類先として適切な「roujin」を分類先のカテゴリとして出力しない。それに対し、本発明では汎用的な特徴と整合しない文書の特徴を例外的な特徴として扱うことができるので、前述したように適切なカテゴリへの分類が可能となっている。
【0052】図7を参照すると、本発明の他の実施形態の文書分類装置は入力装置51と記憶装置52,53,54と出力装置55と記録媒体56とデータ処理装置57で構成されている。
【0053】入力装置51は例えばスキャナで、文書および教師文書集合を入力するためのものである。記憶装置52,53,54はそれぞれカテゴリ特徴格納部122、例外特徴格納部132(図1)、ハードディスクに相当する。出力装置55は決定されたカテゴリ名が出力される、ディスプレイ、プリンタ等である。記録媒体56は、図1中の文書特徴抽出部11、カテゴリ特徴抽出部121、類似度算出部123、例外特徴抽出部131からなる文書分類プログラムが記録されている、FD(フロッピィ・ディスク)、CD−ROM、MO(光磁気ディスク)等の記録媒体である。データ処理装置57は記録媒体56から文書分類プログラムを読み込んで、これを実行するCPUである。
【0054】以上の実施形態では、類似度の算出法として各表現単位の各カテゴリに対する出現確率を利用する類似カテゴリ検索部を用いたが、前述した特徴ベクトルやユークリッド距離を利用するものを用いてもよい。また、類似カテゴリ検索部12は、汎用的な特徴は各カテゴリに対して1つ生成するカテゴリ特徴抽出部121を利用するものであったが、各カテゴリに対して複数の特徴を抽出するものを利用してもよい。また、以上の実施形態では表現単位の例として普通名詞をあげたが、この単位は、単語、各文字、一定長の文字列でもよい。
【0055】
【発明の効果】以上説明したように、本発明によれば、次のような効果がある。過去に与えられた教師文書と同じ特徴をもつ文書を正確に分類できるため、同じ特徴をもつ文書に対して繰り返し人手で分類を行なう必要がなくなる。カテゴリの特徴を汎用的な特徴のみでなく、例外的な特徴と合わせて表現するため、同じ特徴をもつ文書が繰り返し分類の対象となる状況においては、カテゴリの特徴を汎用的な特徴のみで表現するよりも、分類精度が向上する。また、汎用的な特徴と例外的な特徴によりカテゴリの特徴を表現するため、カテゴリに属する全ての教師文書の特徴を記憶するよりも、記憶領域が少なくてすむ。また、分類対象となる文書の特徴とカテゴリの特徴の類似度の計算は、汎用的な特徴と例外的な特徴に対して行なえばよいので、全ての教師文書の特徴に対して類似度の比較を行ない、類似する文書の属するカテゴリを求めて分類するよりも分類時の処理が高速である。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013