米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 日本電信電話株式会社

発明の名称 未知語登録方法および未知語登録装置、並びに未知語登録用プログラムを記録した記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−22761(P2001−22761A)
公開日 平成13年1月26日(2001.1.26)
出願番号 特願平11−190994
出願日 平成11年7月5日(1999.7.5)
代理人 【識別番号】100077481
【弁理士】
【氏名又は名称】谷 義一 (外1名)
【テーマコード(参考)】
5B075
【Fターム(参考)】
5B075 ND03 NK32 NK35 NK43 NR06 NR12 
発明者 前田 康成
要約 目的


構成
特許請求の範囲
【請求項1】 文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語を登録する未知語登録方法であって、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数し、かつ前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得する共起情報取得過程と、該共起情報取得過程で計数され取得された前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出する尤度算出過程と、該尤度算出過程で算出された前記尤度が最大となるノードに前記未知語を記録する記録過程と、を有することを特徴とする未知語登録方法。
【請求項2】 前記尤度算出過程において、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出し、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得し、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出することを特徴とする請求項1に記載の未知語登録方法。
【請求項3】 前記記録過程において、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定し、該決定した未知語登録ノードに前記未知語を記録することを特徴とする請求項1または2に記載の未知語登録方法。
【請求項4】 文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語を登録する未知語登録装置であって、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数し、かつ前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得する共起情報取得手段と、該共起情報取得手段で計数され取得された前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出する尤度算出手段と、該尤度算出手段で算出された前記尤度が最大となるノードに前記未知語を記録する記録手段と、を具備することを特徴とする未知語登録装置。
【請求項5】 前記尤度算出手段は、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出し、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得し、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出することを特徴とする請求項4に記載の未知語登録装置。
【請求項6】 前記記録手段は、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定し、該決定した未知語登録ノードに前記未知語を記録することを特徴とする請求項4または5に記載の未知語登録装置。
【請求項7】 文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語をコンピュータにより登録するためのプログラムを記録した記録媒体であって、該プログラムはコンピュータに対し、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数させ、前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得させ、前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出させ、前記尤度が最大となるノードに前記未知語を記録させることを特徴とする未知語登録用プログラムを記録した記録媒体。
【請求項8】 前記プログラムはコンピュータに対し、前記尤度の算出において、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出させ、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得させ、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出させることを特徴とする請求項7に記載の未知語登録用プログラムを記録した記録媒体。
【請求項9】 前記プログラムはコンピュータに対し、前記記録において、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定させ、該決定した未知語登録ノードに前記未知語を記録させることを特徴とする請求項7または8に記載の未知語登録用プログラムを記録した記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、文とその文の要素となる単語とその単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に、その代表語の類義語を記録するシソーラスに未知語を登録する未知語登録方法および未知語登録装置、並びに未知語登録用プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】自然言語処理の分野において、情報検索や文書クラスタリングなどへの利用を目的として、名詞を意味的に木構造に分類した多くの名詞シソーラスが構築されている。
【0003】この名詞シソーラスとこれに関連するコーパスについて、代表例としてNTTシソーラス(池原等,"日本語語彙大系",岩波書店(1997).)とEDRコーパス(日本電子化辞書研究所,"EDR電子化辞書利用マニュアル第2.1版",(1994).)の資料の一部を用いて説明する。シソーラスは図7のような木構造をしていて、その各ノードに図8に示すように名詞が記録されている。ノードは図7にも記載されている概念と呼ばれるものがラベル付けされており、そのラベルで区別される。シソーラスは定性的には名詞を意味で木構造に分類したものと解釈される。
【0004】これに対し、コーパスは、図9、図10に示すように、文とその文の形態素解析結果の集合である。なお、EDRコーパスには、図11に示すような共起辞書も用意されていて、これがコーパスから読み取られた共起情報に相当する。(図11の例では、「目」と「見張る」が14回共起していることを示している。)。共起情報は名詞と動詞の共起回数を示すものなので、ノード(概念)と動詞の共起回数を算出するには、ノードに含まれる名詞について足し合わせる必要がある。
【0005】また、既存の名詞シソーラスの管理方法の一部として、既存の名詞シソーラスへの未知語登録方法が提案されている。従来方法の多くは、「単語の意味はどのような単語と共起するかという観点から特徴付けられる」というHarris(Harris,Zelig S. "Mathematical Structures of Language", New York: Wiley(1968).)の分布仮説(distributional hypothesis)に基づいて、どのような単語とどれくらい共起しているかを示す共起ベクトル間の余弦を尺度にして、未知語を登録するノードを決定している。
【0006】ここで、多くの従来方法(浦本,"コーパスに基づくシソーラス",情報処理学会論文誌,Vol.37,No.12,pp.2182-2189(1996).等)に共通する、未知語及び名詞シソーラスの各ノードの共起ベクトル間の余弦による従来の未知語登録方法の概要を以下にまとめる。図6にその動作原理を示す。なお、図中の符号に付けたSはステップを表わす。また、ここでいう「未知語」は、名詞であること、名詞シソーラスには未登録であること、コーパスには存在することが保証されているのものとする。
【0007】図6に示すように、未知語が入力されると、コーパス中の文書データにおける未知語と各動詞の共起頻度、及びコーパス中の文書データにおける名詞シソーラスの各ノードと各動詞の共起頻度を算出する(ステップ90)。
【0008】次に、共起頻度で構成される共起ベクトル間の余弦を算出し、余弦が最大となる名詞シソーラスのノードを未知語登録ノードに決定し(ステップ92)、最後に未知語登録ノードを出力する。
【0009】
【外1】

【0010】
【数1】

【0011】
【外2】

【0012】
【外3】

【0013】
【数2】

【0014】
【外4】

【0015】
【数3】

【0016】で計算される。
【0017】なお、シソーラスには、その木構造の葉のみに単語が登録されている分類シソーラスと、葉及び中間ノードにも単語が登録されている上位下位シソーラスがあるが、ここでは特にその区別は行わない。
【0018】
【外5】

【0019】
【数4】

【0020】
【外6】

【0021】
【外7】

【0022】
【数5】

【0023】
【外8】

【0024】
【発明が解決しようとする課題】従来から、シソーラスは、情報検索(文書検索,画像検索,電話番号案内),文書分類(文書クラスタリング),機械翻訳などで幅広く用いられている。従って、それらのアプリケーションの精度を上げるには、シソーラス上の単語が正しい概念のノードに登録されている必要がある。
【0025】しかしながら、上述したような従来技術には次の様な解決すべき大きな課題がある。すなわち、図8を用いて上述したように、従来技術では、共起ベクトル間の余弦の大きなノードに未知語を登録するようにしているが、共起ベクトル間の余弦の大きなノードに未知語を登録する理論的根拠は何も無く、共起ベクトル間の余弦の大きなノードに未知語を登録しても動詞との共起の仕方が定性的に似ているノードに登録したに過ぎず、また未知語を登録した際の誤りを少なくするような定式化も行われていないので、未知語の登録誤りが頻繁に生じるという解決すべき点がある。
【0026】本発明の目的は、上述のような課題を解決し、未知語を正しいノードに登録できる確率を向上させることを図った、名詞シソーラスへの未知語登録方法および未知語登録装置、並びに未知語登録用プログラムを記録した記録媒体を提供することにある。
【0027】
【課題を解決するための手段】上記目的を達成するため、請求項1の発明は、文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語を登録する未知語登録方法であって、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数し、かつ前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得する共起情報取得過程と、該共起情報取得過程で計数され取得された前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出する尤度算出過程と、該尤度算出過程で算出された前記尤度が最大となるノードに前記未知語を記録する記録過程と、を有することを特徴とする。
【0028】ここで、前記尤度算出過程において、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出し、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得し、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出することを特徴とすることができる。
【0029】また、前記記録過程において、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定し、該決定した未知語登録ノードに前記未知語を記録することを特徴とすることができる。
【0030】上記目的を達成するため、請求項4の発明は、文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語を登録する未知語登録装置であって、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数し、かつ前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得する共起情報取得手段と、該共起情報取得手段で計数され取得された前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出する尤度算出手段と、該尤度算出手段で算出された前記尤度が最大となるノードに前記未知語を記録する記録手段と、を具備することを特徴とする。
【0031】ここで、前記尤度算出手段は、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出し、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得し、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出することを特徴とすることができる。
【0032】また、前記記録手段は、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定し、該決定した未知語登録ノードに前記未知語を記録することを特徴とすることができる。
【0033】上記目的を達成するため、請求項7の発明は、文と該文の要素となる単語と該単語の品詞の対からなる文章のデータベースであるコーパスを用い、代表的な名詞である代表語と対応付けられたノード毎に該代表語の類義語を記録するシソーラスに未知語をコンピュータにより登録するためのプログラムを記録した記録媒体であって、該プログラムはコンピュータに対し、前記コーパス中における入力された未知語と一致する名詞と共起している動詞の共起回数である第1の共起回数と、該コーパスにおける前記代表語と一致する名詞と共起している動詞の共起回数である第2の共起回数を計数させ、前記名詞シソーラスの各ノードに含まれる名詞のリストであるノード情報を取得させ、前記第1の共起回数と前記第2の共起回数と前記ノード情報とから前記未知語が前記各ノードに含まれる尤度を算出させ、前記尤度が最大となるノードに前記未知語を記録させることを特徴とする。
【0034】ここで、前記プログラムはコンピュータに対し、前記尤度の算出において、前記第1の共起回数と前記第2の共起回数からなる共起情報と前記ノード情報とから共起頻度を算出させ、算出した該共起頻度をもとにベータ分布パラメータテーブルからベータ分布のパラメータを取得させ、取得した該パラメータを用いて前記未知語が前記各ノードに含まれると仮定した場合の尤度を算出させることを特徴とすることができる。
【0035】また、前記プログラムはコンピュータに対し、前記記録において、前記尤度を用いて、誤ったノードに前記未知語を登録してしまう確率である誤り率をベイズ基準の下で最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定させ、該決定した未知語登録ノードに前記未知語を記録させることを特徴とすることができる。
【0036】本発明は、上記構成により、統計的決定理論(繁桝,"ベイズ統計入門",東京大学出版会,1985等)に基づき、未知語を誤ったノードに登録してしまう確率である誤り率を損失関数として導入し、その誤り率をベイズ基準の下で最小化する定式化を行い、この定式化によって導出される最適解である尤度、すなわち未知語が名詞シソーラスの各ノードに含まれると仮定した場合の尤度を算出し、算出した尤度が最大となるノードを未知語登録ノードとして決定し、名詞シソーラス中のその決定したノードに未知語を記録するので、間違ったノードに登録する確率である誤り率をベイズ基準のもとで最小にすることが保証された名詞シソーラスのノードに未知語を登録することが可能となり、その結果、有限のサンプルに対して誤り率を理論的に最小にすることが保証され、未知語を正しいノードに登録できる確率が従来技術よりも向上できる。
【0037】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0038】図1は本発明の好ましい一実施形態の機能構成を示す。図1に示すように、本システムは、共起情報取得部100と、尤度算出部200と、未知語登録ノード決定部300と未知語登録部400とを有する。
【0039】共起情報取得部100は、共起情報取得器110と、コーパス120と、名詞シソーラス130とからなる。尤度算出部200は、尤度算出器210と、頻度算出器220と、ベータ分布パラメータテーブル230とからなる。未知語登録ノード決定部300は、未知語登録ノード決定器310からなる。
【0040】本発明では、例えば、既存の名詞シソーラスに「飛行機」という名詞が登録されていない場合、未知語として「飛行機」が入力されると、コーパスにおける「飛行機」と共起している動詞をカウントして、その動詞(系列)が各ノードから発生したと仮定した場合の尤度を算出するものである。つまり、ここで言う未知語は名詞であって、名詞シソーラスには未登録で、コーパス中には存在するものである。また、本発明は、後述のように、ベイズリスクの最小化を図るものであるか、これは誤り率のベイズ基準の下での最小化に相当する。その計算の仕方は、各ノードの尤度を算出して、その尤度が最大となるノードに決定する。
【0041】詳細な説明に入る前に、本システム全体の概略的な動作を説明する。まず、未知語が与えられると、共起情報取得部100において、コーパス120中の文書データにおけるその未知語と各動詞の共起情報、及びコーパス120中の文書データにおける名詞シソーラス130の各ノードと各動詞の共起情報とを取得し、さらに名詞シソーラス130の各ノードに含まれる名詞のリストであるノード情報を取得して、それら未知語と共起情報とノード情報を出力する。なお、入力する未知語は、名詞であること、名詞シソーラスには未登録であること、コーパスには存在することが保証されている。
【0042】次に、尤度算出部200において、その共起情報とノード情報を用いて、未知語が名詞シソーラスの各ノードに含まれると仮定した場合の尤度を、ベータ分布パラメータテーブル230を参照して算出し出力する。
【0043】次に、未知語登録ノード決定部300において、その尤度を用いて、間違ったノードに登録する確率である誤り率をベイズ基準のもとで最小にすることが保証された名詞シソーラスのノード、即ち、上記尤度が最大となるノードを未知語登録ノードとして決定し、決定された未知語登録ノードを出力する。
【0044】次に、未知語登録部400において、名詞シソーラス中のその決定された未知語登録ノードに当該未知語を登録する。
【0045】このように、本発明では、間違ったノードに登録する確率である誤り率をベイズ基準のもとで最小にすることが保証された名詞シソーラスのノードを未知語登録ノードとして決定するので、有限のサンプルに対して誤り率を理論的に最小にすることが保証される。
【0046】
【外9】

【0047】
【外10】

【0048】
【数6】

【0049】は次式(7)のような確率ベクトルで表現される。
【0050】
【数7】

【0051】
【外11】

【0052】
【数8】

【0053】は次式(9)のような確率ベクトルで表現される。
【0054】
【数9】

【0055】
【外12】

【0056】分布仮説に基づき、既登録の名詞であれ、未知語の名詞であれ、同じノードに含まれる名詞は動詞との共起の仕方は等しいと仮定している。
【0057】
【数10】

【0058】は次式(11)のような確率行列で表現される。
【0059】
【数11】

【0060】
【外13】

【0061】
【数12】

【0062】
【外14】

【0063】
【数13】

【0064】
【外15】

【0065】次に、間違ったノードに登録してしまう確率である誤り率を損失関数として導入し、その誤り率をベイズ基準の下で最小化する定式化を行い。実際にその最適解を導出する。
【0066】
【外16】

【0067】
【数14】

【0068】但し、【0069】
【数15】

【0070】
【外17】

【0071】
【数16】

【0072】
【外18】

【0073】
【数17】

【0074】ベイズ決定:ベイズ決定はベイズリスクを最小にする決定で、この問題の場合は誤り率をベイズ基準の下で最小にする決定がベイズ決定である。
【0075】
【数18】

【0076】上式(18)のベイズ決定は、未知語unknownが名詞シソーラスの各ノードに含まれると仮定した場合のベイズ的に算出した尤度が最大となるノードが、誤り率をベイズ基準の下で最小にする未知語登録ノードであることを示している。なお、事前分布にベータ分布(鈴木,"統計学",朝倉書店,1987年等)を仮定することによって,確率の積分の値は以下のように容易に算出される。
【0077】
【数19】

【0078】
【数20】

【0079】(19)式と(20)式を代入すると、次式(21)が得られる。
【0080】
【数21】

【0081】
【外19】

【0082】なお、理解を更に容易にするため、上記尤度の算出に出てくる確率を以下にまとめる。
【0083】
【外20】

【0084】
【外21】

【0085】
【外22】

【0086】以上の定義を用いて、以下に図1の各構成部の説明を行う。
【0087】
【外23】

【0088】上記共起情報は名詞と動詞の共起回数で、各ノードに含まれる名詞のリストであるノード情報を用いてノードと動詞の共起回数を算出する。なお、初めからノードと動詞の共起を見ずに、まずは名詞と動詞の共起を見ている理由は、コーパスとシソーラスは独立に存在するもので、コーパスにはノードに関する情報が無いからである。
【0089】次に、図3のフローチャートを参照して、図1の尤度算出部200の動作を説明する。ここで、尤度とは、未知語があるノードから発生(厳密には、未知語と共起している動詞の系列が、あるノードの持つ動詞を発生させる確率分布から発生)したと仮定したときの、そのノードの尤もらしさをいう。
【0090】
【外24】

【0091】この尤度の値の算出は、(25)式と(26)式を用いて行われる。
【0092】
【外25】

【0093】
【外26】

【0094】まず、尤度算出器210に未知語と共起情報とノード情報が入力される(ステップ70)。未知語と共起情報とノード情報が入力されると、尤度算出器210は上述の(24)式による決定に必要な尤度、【0095】
【数22】

【0096】
【外27】

【0097】
【外28】

【0098】次に、図4のフローチャートを参照して、未知語登録ノード決定部300および未知語登録部400の動作を説明する。未知語登録ノード決定器310に上記尤度が入力される(ステップ80)。尤度が入力されると、未知語登録ノード決定器310は(24)式に基づいて尤度が最大となるノードを未知語登録ノードに決定し(ステップ82)、未知語登録ノードを出力する(ステップ84)。
【0099】未知語登録ノードが入力されると、未知語登録器410は名詞シソーラス130の未知語登録ノードに相当するノードに当該未知語を登録する(ステップ85)。
【0100】
【実施例】さらに、図面を参照して本発明を実施した結果を説明する。
【0101】図5は、本発明による名詞シソーラスへの未知語登録処理のシミュレーション結果を示す図である。
【0102】実際の既存の名詞シソーラスに既に登録されている名詞約1000語を抜き取り、その1000語を未知語と仮定して、上述の手順に従って登録する実験を行い、従来方法による名詞シソーラスへの未知語登録の実験結果と本発明による名詞シソーラスへの未知語登録の実験結果の比較を行った。なお、名詞シソーラスにはNTTシソーラス(池原等,"日本語語彙大系",岩波書店(1997).)を用い、文章のデータベースであるコーパスにはEDRコーパス(日本電子化辞書研究所,"EDR電子化辞書利用マニュアル第2.1版",(1994).)を用いて、EDRコーパス中の頻出動詞上位500語との共起頻度を用いた。
【0103】図5の横軸は尤度が最大のノードが1つのみではなく、候補順位の数だけ考慮していることを示す。縦軸は、尤度が最大のノードからその候補順位のノードまで見て、その中に元のNTTシソーラスと同じノードがあれば正解とし、パーセンテージで累積の正解率を示している。
【0104】図5に「従来」と記されている曲線が、従来の共起ベクトル間の余弦による名詞シソーラスへの未知語登録方法を用いた実験結果の特性曲線であり、図5に、「本発明」と記されている曲線が、本発明による名詞シソーラスへの未知語登録方法を用いた実験結果の特性曲線である。図5が示すように、本発明による名詞シソーラスへの未知語登録の正解率は、従来の名詞シソーラスへの未知語登録よりも常に20%以上高い正解率を達成している。
【0105】(その他の実施形態)なお、本発明は、複数の機器(例えば、ホストコンピュータ、インターフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、1つの機器からなる装置(例えば、文書検索装置、画像検索装置、機械翻訳装置など)に適用してもよい。
【0106】また、本発明の目的は、前述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体(記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し、実行することによっても、達成されることは言うまでもない。この場合、そのプログラムコードを記録した記録媒体は本発明を構成することになる。そのプログラムコードを記録し、またテーブル等の変数データを記録する記録媒体としては、例えばフロッピディスク(FD)、ハードディスク、光磁気ディスク、CD−ROM、不揮発性のメモリカード(ICメモリカード)、などを用いことができる。
【0107】
【発明の効果】以上説明したように、本発明によれば、未知語が名詞シソーラスの各ノードに含まれると仮定した場合の尤度を算出し、算出した尤度が最大となるノードを未知語登録ノードとして決定し、名詞シソーラス中のその決定したノードに未知語を記録するので、間違ったノードに登録する確率である誤り率をベイズ基準のもとで最小にすることが保証された名詞シソーラスのノードに未知語を登録することが可能となり、その結果、有限のサンプルに対して誤り率を理論的に最小にすることが保証され、未知語を正しいノードに登録できる確率が従来技術よりも向上できるという効果が得られる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013