米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 文書処理装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−4215(P2007−4215A)
公開日 平成19年1月11日(2007.1.11)
出願番号 特願2005−180144(P2005−180144)
出願日 平成17年6月21日(2005.6.21)
代理人 【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
発明者 續木 貴史 / 九津見 洋 / 水谷 研治 / 沖本 純幸 / 井上 剛
要約 課題
カテゴリ毎に難解語を設定することで、テキストが属するカテゴリに対してテキスト中の語彙が難解であれば言い換える。

解決手段
難解語辞書104Aはカテゴリ毎に難解語と言い換え表現とを対応付けて記憶する。カテゴリ取得手段102は、入力テキストのカテゴリを取得する。変換手段105は、カテゴリ取得手段102で取得されるカテゴリに対応する難解語辞書104Aに記憶される難解語を参照し、入力テキスト中に難解語が存在する場合は、難解語を対応する言い換え表現に置き換え、結果テキストとしてユーザに提示する。
特許請求の範囲
【請求項1】
入力テキストに存在する意味が難解な語彙をユーザが理解し、または、聞き取る支援をする文書処理装置であって、
テキストが属するカテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書を記憶している難解辞書記憶手段と、
前記入力テキストのカテゴリを取得するカテゴリ取得手段と、
前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定する言い換え判定手段と、
前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙を変更する言い換え手段と、
前記変更後の入力テキストをユーザに提示する出力手段と
を備えることを特徴とする文書処理装置。
【請求項2】
前記難解辞書記憶手段は、ユーザを識別するユーザ識別子と前記難解語辞書とを対応付けて記憶しており、
前記言い換え判定手段は、ユーザ識別子が入力されると、前記カテゴリ取得手段で取得されるカテゴリと前記ユーザ識別子とに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項3】
前記難解辞書記憶手段は、
前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語のユーザによる使用頻度とを対応付ける難解語辞書を記憶しており、
前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する使用頻度が特定の閾値以下の場合にのみ言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項4】
前記難解語辞書は、
前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現の識別子である言い換え表現識別子と難解語のユーザによる使用頻度とを対応付ける難解語使用頻度辞書と、
前記言い換え表現識別子毎に、使用頻度と言い換え表現とを対応付ける言い換え辞書とから成り、
前記言い換え手段は、
前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に対応する言い換え表現識別子と使用頻度とを前記カテゴリ取得手段で取得されるカテゴリに対応する難解語使用頻度辞書から取得し、
前記取得される言い換え表現識別子と使用頻度とに対応する言い換え表現を言い換え辞書から取得し、
前記語彙を前記取得される言い換え表現で変更する
ことを特徴とする請求項3記載の文書処理装置。
【請求項5】
前記難解辞書記憶手段は、
前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語のユーザによる使用頻度と言い換え表現のユーザによる使用頻度とを対応付ける難解語辞書を記憶しており、
前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する難解語の使用頻度と、対応する言い換え表現の使用頻度とが所定の比較条件を満たす場合にのみ言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項6】
前記文書処理装置は、さらに、
前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書において、前記入力テキストに存在する難解語に対応する使用頻度を上げる使用頻度学習手段を備える
ことを特徴とする請求項3または請求項5記載の文書処理装置。
【請求項7】
前記文書処理装置は、さらに、
前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書において、前記入力テキストに存在しない難解語に対応する使用頻度を下げる使用頻度学習手段を備える
ことを特徴とする請求項3または請求項5記載の文書処理装置。
【請求項8】
前記難解辞書記憶手段は、
前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語とカテゴリとの関連度とを対応付ける難解語辞書を記憶しており、
前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する関連度が特定の閾値以下の場合にのみ言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項9】
前記文書処理装置は、さらに、
複数のテキストとそれぞれのテキストのカテゴリとを関連付けて記憶しているテキストデータベースと、
前記テキストデータベースを参照して、前記入力テキスト中の語彙と前記カテゴリ取得手段で取得されるカテゴリとの関連度を算出する関連度算出手段とを備え、
前記言い換え判定手段は、算出された関連度が特定の閾値以下の語彙についてのみ言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項10】
前記文書処理装置は、さらに、
前記難解辞書記憶手段の難解語辞書に含まれる難解語と言い換え表現とをユーザ入力に従い変更する辞書編集手段を備える
ことを特徴とする請求項1記載の文書処理装置。
【請求項11】
前記難解語辞書は、
前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語が使用される文脈上の条件である文脈条件とを対応付けて記憶し、
前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致し、かつ前記入力テキスト中での文脈条件が前記難解語辞書中の対応する文脈条件と合致する前記入力テキスト中の語彙を言い換えると判定する
ことを特徴とする請求項1記載の文書処理装置。
【請求項12】
前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙を、前記難解語辞書の対応する言い換え表現に置き換えることを特徴とする請求項1記載の文書処理装置。
【請求項13】
前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に、前記難解語辞書の対応する言い換え表現を付加することを特徴とする請求項1記載の文書処理装置。
【請求項14】
前記難解語辞書は、図、写真、イラストのうちの少なくとも一つによって表される言い換え表現を含み、
前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に、前記難解語辞書の対応する言い換え表現を表す図、写真、又はイラストを付加する
ことを特徴とする請求項1記載の文書処理装置。
【請求項15】
前記言い換え手段は、
言い換え後の入力テキストを表す音声を生成する合成音声生成手段を備え、
前記出力手段は、
生成された音声をユーザに提示するスピーカを備え、
前記合成音声生成手段は、前記音声を生成する際に、前記言い換え判定手段が言い換えると判定する語彙に対応する部分を強調する
ことを特徴とする請求項1記載の文書処理装置。
【請求項16】
前記合成音声生成手段は、前記部分の強調として、前記部分の再生速度を遅くする、イントネーションを変更する、再生音を大きくする、音の高さを変更する、及び前記部分を複数回生成することのうち、少なくとも一つを行う
ことを特徴とする請求項15記載の文書処理装置。
【請求項17】
入力テキストに存在する意味が難解な語彙をユーザが理解し、または、聞き取る支援をする文書処理方法であって、
テキストが属するカテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書を用いて行われ、
前記入力テキストのカテゴリを取得するカテゴリ取得ステップと、
前記カテゴリ取得ステップで取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定する言い換え判定ステップと、
前記言い換え判定ステップで言い換えると判定される前記入力テキスト中の語彙を変更する言い換えステップと、
前記変更後の入力テキストをユーザに提示する出力ステップと
を含むことを特徴とする文書処理方法。
【請求項18】
入力テキストに存在する難解な語彙をユーザが理解、または、聞き取る支援を、テキストが属するカテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書を参照して行うためのコンピュータ実行可能なプログラムであって、
前記入力テキストのカテゴリを取得するカテゴリ取得ステップと、
前記カテゴリ取得ステップで取得されるカテゴリに対応する難解辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定する言い換え判定ステップと、
前記言い換え判定ステップで言い換えると判定される前記入力テキスト中の語彙を変更する言い換えステップと、
前記変更後の入力テキストをユーザに提示する出力ステップと
をコンピュータに実行させることを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、テキスト中に存在する意味が難しい言葉やユーザの利用頻度が低いために理解し難い言葉、または、ユーザが普段使用している意味とは異なる意味で使用されているために理解し難い言葉である難解語を分かり易く言い換えることが可能な文書処理装置に関するものである。
【背景技術】
【0002】
従来、専門知識を必要とするような語彙を分かり易く言い換える方法として、難解語が使用される文脈を考慮して難解語を言い換える文書処理方法が開示されている(例えば、特許文献1参照)。
【特許文献1】特開2004−240859号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の難解語が使用される文脈を考慮して難解語を言い換える文書処理装置は、難解語の前後のテキストを文脈とし、難解語を文脈に合う言い換え語に変換する。
【0004】
このため、テキストが属するカテゴリに対してテキスト中の語彙が難解かどうかを判定し、言い換えることができなかった。例えば、語彙「メジャー」は、国際石油資本の意味とメジャーリーグベースボールの意味が存在するため、テキスト「メジャーの動向を伝えます。」に存在する「メジャー」が文脈から組織であると判断されても、国際石油資本もメジャーリーグベースボールもどちらも組織であるため、どちらの意味で使用されているのか判別することはできない。また、ユーザが普段、語彙「メジャー」をメジャーリーグベースボールの意味で使用している場合、国際石油資本の意味で語彙「メジャー」が使用されているテキスト「メジャーの動向を伝えます。」中の語彙「メジャー」をメジャーリーグベースボールの意味であると誤解し易い。つまり、ユーザにとっては、カテゴリ「野球」に属するテキスト中の語彙「メジャー」は難解語ではないが、カテゴリ「経済」に属するテキスト中の語彙「メジャー」は難解語となる。
【0005】
本発明は、このような従来の問題点に鑑みてなされたものであって、その目的は、カテゴリ毎に難解語を設定することで、カテゴリでの使用頻度が低い語彙を言い換え表現に変更、または、音声提示の場合は音声を強調して提示することができ、ユーザにとって、カテゴリに対して予想外の語彙を理解し易く、または、聞き取り易い文書処理装置を提供することである。
【課題を解決するための手段】
【0006】
前述の目的を達成するために、この発明にかかわる文書処理装置は、入力テキストに存在する意味が難解な語彙をユーザが理解し、または、聞き取る支援をする文書処理装置であって、テキストが属するカテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書を記憶している難解辞書記憶手段と、前記入力テキストのカテゴリを取得するカテゴリ取得手段と、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を言い換えると判定する言い換え判定手段と、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙を変更する言い換え手段と、前記変更後の入力テキストをユーザに提示する出力手段とを備えることを特徴とするものである。
【発明の効果】
【0007】
本発明の文書処理装置よれば、難解語を分かり易く言い換える際、カテゴリ毎に言い換え対象とする語彙である難解語を設定することにより、ユーザにとって、カテゴリに対して難解な語彙を容易に理解、または、聞き取ることができる。
【発明を実施するための最良の形態】
【0008】
本発明の文書処理装置は、入力テキストに存在する意味が難解な語彙をユーザが理解し、または、聞き取る支援をする文書処理装置であって、テキストが属するカテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書を記憶している難解辞書記憶手段と、前記入力テキストのカテゴリを取得するカテゴリ取得手段と、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定する言い換え判定手段と、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙を変更する言い換え手段と、前記変更後の入力テキストをユーザに提示する出力手段とを備える。
【0009】
より好ましくは、前記難解辞書記憶手段は、ユーザを識別するユーザ識別子と前記難解語辞書とを対応付けて記憶しており、前記言い換え判定手段は、ユーザ識別子が入力されると、前記カテゴリ取得手段で取得されるカテゴリと前記ユーザ識別子とに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、言い換えると判定してもよい。
【0010】
この構成によれば、カテゴリごとに適切な言い換え語を用いて言い換えを行うことができるので、ユーザは、カテゴリに特有の難解語を理解するための良好な支援を受けることができる。さらには、ユーザごとに異なる難解語辞書を使用して入力テキストの言い換えを行えば、ユーザごとの言い換えの必要性を反映して過不足のない言い換えが可能となり、ユーザは過剰な言い換えによって冗長な印象を受けることのない、分かりやすく言い換えられた結果を得ることができる。
【0011】
また、前記難解辞書記憶手段は、前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語のユーザによる使用頻度とを対応付ける難解語辞書を記憶しており、前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する使用頻度が特定の閾値以下の場合にのみ言い換えると判定してもよい。
【0012】
より好ましくは、前記難解語辞書は、前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現の識別子である言い換え表現識別子と難解語のユーザによる使用頻度とを対応付ける難解語使用頻度辞書と、前記言い換え表現識別子毎に、使用頻度と言い換え表現とを対応付ける言い換え辞書とから成り、前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に対応する言い換え表現識別子と使用頻度とを前記カテゴリ取得手段で取得されるカテゴリに対応する難解語使用頻度辞書から取得し、前記取得される言い換え表現識別子と使用頻度とに対応する言い換え表現を言い換え辞書から取得し、前記語彙を前記取得される言い換え表現で変更してもよい。
【0013】
また、前記難解辞書記憶手段は、前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語のユーザによる使用頻度と言い換え表現のユーザによる使用頻度とを対応付ける難解語辞書を記憶しており、前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する難解語の使用頻度と、対応する言い換え表現の使用頻度とが所定の比較条件を満たす場合にのみ言い換えると判定してもよい。
【0014】
この構成によれば、ユーザがあまり見聞きしない難解語を選択的に言い換えることができるので、ユーザは、過剰な言い換えによって冗長な印象を受けることなく、分かりやすく言い換えられた結果を得ることができる。さらに、ユーザによる難解語の使用頻度に応じて、例えば詳しさが異なる言い換え語を使用すれば、難解語の使用頻度に応じて最適な詳しさで、冗長感のない言い換えを行うことができる。
【0015】
また、前記文書処理装置は、さらに、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書において、前記入力テキストに存在する難解語に対応する使用頻度を上げる使用頻度学習手段を備えてもよく、また、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書において、前記入力テキストに存在しない難解語に対応する使用頻度を下げる使用頻度学習手段を備えてもよい。
【0016】
この構成によれば、難解語の使用頻度の変動に追従して、冗長感のない最適な言い換えを行うことができる。
【0017】
また、前記難解辞書記憶手段は、前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語とカテゴリとの関連度とを対応付ける難解語辞書を記憶しており、前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致する前記入力テキスト中の語彙を、対応する関連度が特定の閾値以下の場合にのみ言い換えると判定してもよい。
【0018】
より好ましくは、前記文書処理装置は、さらに、複数のテキストとそれぞれのテキストのカテゴリとを関連付けて記憶しているテキストデータベースと、前記テキストデータベースを参照して、前記入力テキスト中の語彙と前記カテゴリ取得手段で取得されるカテゴリとの関連度を算出する関連度算出手段とを備え、前記言い換え判定手段は、算出された関連度が特定の閾値以下の語彙を言い換えると判定してもよい。
【0019】
この構成によれば、カテゴリごとにあまり登場しない語彙を選択的に言い換えることができるので、ユーザは、過剰な言い換えによって冗長な印象を受けることなく、分かりやすく言い換えられた結果を得ることができる。特に、テキストデータベースの内容から入力テキストの語彙のカテゴリとの関連度を算出すれば、関連度を多くの語彙について予め用意しておく必要が省かれるのみならず、テキストデータベースの内容の変動に追従して常に適切な関連度を算出して言い換えの基準とすることができる。
【0020】
また、前記文書処理装置は、さらに、前記難解辞書記憶手段の難解語辞書に含まれる難解語と言い換え表現とをユーザ入力に従い変更する辞書編集手段を備えてもよい。
【0021】
この構成によれば、言い換え表現のメンテナンスが容易となる。
【0022】
また、前記難解語辞書は、前記カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現と、さらに、難解語が使用される文脈上の条件である文脈条件とを対応付けて記憶し、前記言い換え判定手段は、前記カテゴリ取得手段で取得されるカテゴリに対応する難解語辞書に含まれる難解語と一致し、かつ前記入力テキスト中での文脈条件が前記難解語辞書中の対応する文脈条件と合致する前記入力テキスト中の語彙を言い換えると判定してもよい。
【0023】
また、前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙を、前記難解語辞書の対応する言い換え表現に置き換えてもよく、また、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に、前記難解語辞書の対応する言い換え表現を付加してもよく、また、前記難解語辞書は、図、写真、イラストのうちの少なくとも一つによって表される言い換え表現を含み、前記言い換え手段は、前記言い換え判定手段が言い換えると判定する前記入力テキスト中の語彙に、前記難解語辞書の対応する言い換え表現を表す図、写真、又はイラストを付加してもよい。
【0024】
この構成によれば、言い換え後のテキストをさまざまな態様でユーザに提示できるので、難解語のユーザによる理解の支援に効果的である。
【0025】
また、前記言い換え手段は、言い換え後の入力テキストを表す音声を生成する合成音声生成手段を備え、前記出力手段は、生成された音声をユーザに提示するスピーカを備え、前記合成音声生成手段は、前記音声を生成する際に、前記言い換え判定手段が言い換えると判定する語彙に対応する部分を強調してもよく、また、前記合成音声生成手段は、前記部分の強調として、前記部分の再生速度を遅くする、イントネーションを変更する、再生音を大きくする、音の高さを変更する、及び前記部分を複数回生成することのうち、少なくとも一つを行ってもよい。
【0026】
この構成によれば、言い換え後のテキストを音声でユーザに提示する場合に好適である。
【0027】
また、本発明は、このような文書処理装置として実現できるだけでなく、このような文書処理装置が備える特徴的な手段によって実行される処理をステップとする文書処理方法として実現することも、また、それらのステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信できることはいうまでもない。
【0028】
(実施形態)
以下、本発明の実施形態による文書処理装置について図面を参照しながら説明する。
【0029】
図1は本発明の実施形態による文書処理装置の構成図である。この文書処理装置は、取得手段101、カテゴリ取得手段102、単語分割手段103、難解辞書記憶手段104、変換手段105、出力手段106を含んで構成される。変換手段105は、言い換え判定手段107、言い換え手段108を含んで構成される。
【0030】
取得手段101は、テレビ放送番組に関する情報やハードディスクレコーダ等に蓄積されたコンテンツに関する情報、または、インターネット上に存在するコンテンツを記憶するコンテンツDB100からユーザに提示するテキストを取得する。カテゴリ取得手段102は、取得手段101から入力されるテキストのカテゴリを取得し、取得したカテゴリを変換手段105に出力する。
【0031】
単語分割手段103は、取得手段101からテキストが入力されると、入力されるテキストを単語や形態素単位に分割し、この単語分割後のテキストを変換手段105に出力する。
【0032】
難解辞書記憶手段104は、カテゴリ毎に、意味が難解な語彙である難解語と難解語を別の表現で表す言い換え表現とを対応付ける難解語辞書104Aを記憶する。
【0033】
図2は2つの難解語辞書104Aの内容の一例を示すものであり、(カテゴリ、(難解語、言い換え表現))として、一方には(経済、(NPO、非営利組織)、(OPEC、石油輸出国機構)、(メジャー、国際石油資本)、…)、他方には(スポーツ、(MLB、メジャーリーグベースボール)、(NFL、ナショナルフットボールリーグ)、(NHL、ナショナルホッケーリーグ)、…)、…、が記憶される。
【0034】
変換手段105において、単語分割後のテキストとテキストに対応するカテゴリが入力されると、言い換え判定手段107は、入力されるカテゴリに対応する難解語辞書104Aの難解語を参照し、単語分割後のテキスト中に難解語に一致する語彙(以降あいまいにならない箇所では、単に難解語と言う)が存在すると、その難解語を言い換えると判定し、言い換え手段108は、その難解語に対応する言い換え表現を難解語辞書104Aから取得して、入力されるテキスト中の難解語を言い換え表現に置き換え、言い換え表現に置き換えた後のテキストを結果テキストとして出力手段106からユーザに提示する。
【0035】
出力手段106は、CRTディスプレイ、液晶ディスプレイ(LCD)、プラズマディスプレイ(PDP)等とスピーカで構成され、入力される表示画面情報や出力音情報を表示、再生するものである。
【0036】
このように構成された本実施形態による文書処理装置の動作例について図1のブロック図と図3のフローチャートを用いて説明する。取得手段101は、解析すべきテキストをコンテンツDB100から入力し、カテゴリ取得手段102に出力する(ステップS101)。具体的な一例として、取得手段101は、解析すべきテキストとしてテキスト「<カテゴリ>経済</カテゴリ><本文>長年、メジャーは中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。</本文>」をコンテンツDBから取得し、カテゴリ取得手段102と単語分割手段103とに出力する。
【0037】
カテゴリ取得手段102は、取得手段101から入力されるテキストのカテゴリを取得し、取得したカテゴリを変換手段105に出力する(ステップS102)。上記の例では、カテゴリ取得手段102は、取得手段101からテキスト「<カテゴリ>経済</カテゴリ><本文>長年、メジャーは中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。</本文>」が入力されると、テキストからカテゴリ「経済」を取得し、取得したカテゴリ「経済」を変換手段105に出力する。
【0038】
単語分割手段103は、取得手段101からテキストが入力されると、入力されるテキストを単語や形態素解析に分割し(ステップS103)、単語分割後のテキストを変換手段105に出力する。上記の例では、単語分割手段103は、カテゴリ取得手段102からテキスト「長年、メジャーは中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。」が入力されると、入力されるテキストをここでは一例として形態素単位に分割し、単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」を変換手段105に出力する。
【0039】
変換手段105における言い換え判定手段107は、単語分割手段103から単語分割後のテキストとカテゴリ取得手段102からテキストに対応するカテゴリとが入力されると、入力されるカテゴリに対応する難解語辞書104Aの難解語を参照し、単語分割後のテキスト中の難解語を検索し(ステップS104)、単語分割後のテキスト中に難解語が存在すると(ステップS105)、その難解語を言い換えると判定し、言い換え手段108は、その難解語に対応する言い換え表現を難解語辞書104Aから取得して検索される難解語を言い換え表現に置き換える(ステップS106)。そして、単語分割後のテキスト中の難解語を全て言い換え表現に置き換えた後(ステップS105)、出力手段106は、全ての難解語を言い換え表現に置き換えられたテキストを結果テキストとして出力手段106からユーザに提示する(ステップS107)。
【0040】
上記の例では、変換手段105は、単語分割手段103から単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力されると、カテゴリ「経済」に対応する図2に示す難解語辞書104Aの難解語「NPO、OPEC、メジャー、…」を参照し、単語分割後のテキスト中の難解語を検索する。検索の結果、まず、難解語「メジャー」が検索され、難解語「メジャー」に対応する言い換え表現「国際石油資本」が難解語辞書104Aから取得され、難解語「メジャー」は言い換え表現「国際石油資本」に置き換えられる。置き換え後のテキストは、「長年/、/国際石油資本/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」となる。
【0041】
さらに、置き換え後のテキストに対して難解語を検索した結果、次に難解語「OPEC」が検索され、これも同様に難解語「OPEC」に対応する言い換え表現「石油輸出国機構」を難解語辞書104Aから取得し、難解語「OPEC」を言い換え表現「石油輸出国機構」に置き換える。この際の置き換え後のテキストは、「長年/、/国際石油資本/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/石油輸出国機構/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」となる。
【0042】
さらに難解語の検索をした結果、難解語が存在しない場合は、全ての難解語を言い換え表現に置き換えたテキスト「長年、国際石油資本は中東における石油生産の99%以上を掌握していましたが、石油輸出国機構の出現などにより原油価格決定権も奪われてしまいました。」を結果テキストとして出力手段106からユーザに提示する。
【0043】
(難解語にカテゴリと難解語との関連度を対応付ける例)
なお、上記実施例では、難解語辞書104Aは、カテゴリ毎に、意味が難解である難解語と難解語を別の表現で言い表す言い換え表現とを対応付けるようにしたが、さらに、難解語毎にカテゴリと難解語との関連度を格納するようにしてもよい。この場合、変換手段105における言い換え判定手段107は、単語分割後のテキストとテキストに対応するカテゴリが入力されると、入力されるカテゴリに対応する難解語辞書104Aの難解語と関連度とを参照し、単語分割後のテキスト中に特定閾値以下の関連度の難解語が存在すると、その難解語を言い換えると判断し、言い換え手段108は、その難解語に対応する言い換え表現を難解語辞書104Aから取得して、入力されるテキスト中の難解語を言い換え表現に置き換え、この処理を入力されるテキスト中の全難解語に対して行った後のテキストを結果テキストとして出力手段106からユーザに提示する。
【0044】
具体的な一例として、難解語辞書104Aは、(カテゴリ、(難解語、関連度、言い換え表現))として、(経済、(NPO、0.7、非営利組織)、(OPEC、0.9、石油輸出国機構)、(メジャー、0.4、国際石油資本)、…)、(スポーツ、(MLB、0.7、メジャーリーグベースボール)、(NFL、0.9、ナショナルフットボールリーグ)、(メジャー、0.8、メジャーリーグベースボール)、…)、…、を記憶するとする。この場合の難解語辞書104Aの内容は図4のようになる。さらに、変換手段105における言い換え判定手段107は、単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力されると、カテゴリ「経済」に対応する図4に示す難解語辞書104Aの難解語と関連度、((NPO、0.7)、(OPEC、0.9)、(メジャー、0.4)、…)を参照し、単語分割後のテキストに、関連度が特定の閾値(ここでは一例として値を0.5とする)以下の難解語を検索する。
【0045】
その結果、まず、関連度が閾値0.5以下の難解語「メジャー」が検索され、その結果、難解語「メジャー」は言い換えると判定される。言い換え手段108は、難解語「メジャー」を言い換え表現「国際石油資本」に置き換える。この際の置き換え後のテキストは、「長年/、/国際石油資本/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」となる。
【0046】
さらに、置き換え後のテキストに対して難解語を検索した結果、難解語「OPEC]は関連度が閾値0.5以上であるので、言い換えられないと判定される。その結果、関連度が閾値0.5以下の全ての難解語を言い換え表現に置き換えたテキスト「長年、国際石油資本は中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。」が結果テキストとして出力手段106からユーザに提示される。
【0047】
こうすることで、カテゴリとの関連度が高く、ユーザが、カテゴリに対して容易に予想できるために理解、または、聞き取れる語彙は言い換えないので、全難解語が詳細な情報に言い換えられたテキストよりも冗長でないテキストをユーザに提示することができる。
【0048】
(関連度を動的に算出する例)
また、変換手段105は、単語分割手段103から入力される単語分割後のテキスト中の難解語の関連度を難解語辞書104Aから参照するようにしたが、カテゴリとカテゴリに属するテキストを対応付けて記憶するテキストデータベースが存在する場合、単語分割手段103から入力される単語分割後のテキスト中の語彙とカテゴリとの関連度をテキストデータベースを参照して求め、求めた関連度が特定閾値以下の語彙を言い換えるようにしてもよい。
【0049】
図5は、そのための文書処理装置の構成の一例を示す機能ブロック図である。図1に示される文書処理装置と比べて、関連度を求める関連度算出手段109が追加される。この構成における難解語辞書は、予め関連度を記憶している必要がないので、例えば図2に示される構成の難解語辞書を用いることができる。
【0050】
またここで、コンテンツDB100がテキストデータベースの一例である。
【0051】
コンテンツDB100は、具体的一例として、(カテゴリ、カテゴリに属するテキスト)として、((スポーツ、松上がメジャーでホームラン50本達成)、(経済、NPO団体数が300を突破)、…)を記憶している。
【0052】
また、関連度算出手段109は、具体的一例としては、カテゴリCと語彙Wの関連度をカテゴリCが与えられた場合の語彙Wの条件付き確率P(W|C)と定義し、カテゴリCで語彙Wが存在するテキスト数mとカテゴリCに属するテキスト数nをテキストデータベースから求めて、関連度、つまり条件付き確率P(W|C)を、P(W|C)=m/nに従って算出する。この他にも一般的な関連度の算出方法として、相互情報量、Dice−coefficient、重み付きDice−coefficient、t−score、χ二乗値、対数尤度比などを利用してもよい。
【0053】
そして、変換手段105は、入力テキスト中の、前記算出された関連度が予め定められた閾値以下の語彙の言い換えを行う。
【0054】
こうすることで、カテゴリとの関連度が高く、ユーザがカテゴリに対して容易に予想できるために理解または、聞き取れる語彙は言い換えないので、全難解語が詳細な情報に言い換えられたテキストよりも冗長でないテキストをユーザに表示することができ、さらに、カテゴリと難解語との全関連度を事前に準備しなくてもよく、システム設計者の負担を軽減することができる。また、テキストデータベースの更新間隔が短い場合などでも、カテゴリと難解語との関連度をテキストデータベースの変更に合わせて動的に求めることができる。
【0055】
なお、難解語辞書に、例えば図4に示される関連度を記憶できる構成を採用し、関連度算出手段109が求めた関連度で、難解語辞書の関連度を更新しても構わない。求めた関連度が記録されることによって、関連度の算出頻度をある程度低減するために役立つ。 (難解語辞書を編集可能とする例)
また、上記実施例の文書処理装置は、難解辞書記憶手段104に記憶される難解語辞書を変更することができる辞書編集手段をさらに含むようにしてもよい(図示省略)。こうすることで、ユーザは、カテゴリに属する難解語や言い換え表現などを変更、追加、削除することができる。
【0056】
(難解語に文脈条件を対応付ける例)
また、難解語辞書104Aは、カテゴリ毎に、意味が難解である難解語と難解語を別の表現で言い表す言い換え表現とを対応付けるようにしたが、さらに、難解語が使用される文脈上の条件である文脈条件とを対応付けて記憶するようにしてもよい。この場合、変換手段105における言い換え判定手段107は、単語分割後のテキストとテキストに対応するカテゴリが入力されると、入力されるカテゴリに対応する難解語辞書104Aの難解語と文脈条件を参照し、単語分割後のテキスト中に文脈条件に合う難解語が存在すると、その難解語を言い換えると判定し、言い換え手段108は、その難解語に対応する言い換え表現を難解語辞書104Aから取得して、入力されるテキスト中の難解語を言い換え表現に置き換え、この処理を入力されるテキスト中の全難解語に対して行った後のテキストを結果テキストとして出力手段106からユーザに提示する。
【0057】
具体的な一例として、文脈条件を品詞とし、難解語辞書104Aは、(カテゴリ、(難解語、文脈条件、言い換え表現))として、(経済、(NPO,名詞−固有名詞−組織、非営利組織)、(OPEC、名詞−固有名詞−組織、石油輸出国機構)、(メジャー、名詞−一般、国際石油資本)、(メジャー、名詞−形容動詞語幹、有名)、…)、(スポーツ、(MLB、名詞−固有名詞−組織、メジャーリーグベースボール)、(NFL、名詞−固有名詞−組織、ナショナルフットボールリーグ)、(NHL、名詞−固有名詞−組織、ナショナルホッケーリーグ)、…)、…、を記憶するとする。この場合の難解語辞書104Aの内容は図6のようになる。さらに、変換手段105における言い換え判定手段107は、単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力されると、カテゴリ「経済」に対応する図6に示す難解語辞書104Aの難解語と文脈条件、((NPO,名詞−固有名詞−組織)、(OPEC、名詞−固有名詞−組織)、(メジャー、名詞−一般)、(メジャー、名詞−形容動詞語幹)、…)を参照し、単語分割後のテキストに、文脈条件が合う難解語を検索する。
【0058】
検索の結果、入力されるテキスト中の語彙「メジャー」の品詞が前後のテキストより「名詞−一般」であると推定され、難解語辞書104Aの難解語「メジャー」の文脈条件「名詞−一般」と合うので、語彙「メジャー」は文脈条件「名詞−一般」に従って言い換えると判定される。言い換え手段108は、語彙「メジャー」を文脈条件「名詞−一般」の難解語「メジャー」の言い換え表現「国際石油資本」に置き換える。この際の置き換え後のテキストは、「長年/、/国際石油資本/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」となり、さらに、語彙「OPEC」に対しても同様の処理が行われ、結果テキストとして、テキスト「長年、国際石油資本は中東における石油生産の99%以上を掌握していましたが、石油輸出国機構の出現などにより原油価格決定権も奪われてしまいました。」が出力手段106からユーザに提示される。
【0059】
また、変換手段105における言い換え判定手段107は、単語分割後のテキスト「日本/の/首相/は/、/メジャー/に/なり/つつ/ある/。」とテキストに対応するカテゴリ「経済」が入力されると、カテゴリ「経済」に対応する図6に示す難解語辞書104Aの難解語と文脈条件、((NPO,名詞−固有名詞−組織)、(OPEC、名詞−固有名詞−組織)、(メジャー、名詞−一般)、(メジャー、名詞−形容動詞語幹)、…)を参照し、単語分割後のテキストに、文脈条件が合う難解語を検索する。
【0060】
検索の結果、入力されたテキスト中の語彙「メジャー」の品詞が前後のテキストより「名詞−形容動詞語幹」であると推定され、難解語辞書104Aの難解語「メジャー」の文脈条件「名詞−形容動詞語幹」と合うので、語彙「メジャー」は文脈条件「名詞−形容動詞語幹」に従って言い換えると判定される。言い換え手段108は、語彙「メジャー」を文脈条件「名詞−形容動詞語幹」の難解語「メジャー」の言い換え表現「有名」に置き換える。この際の置き換え後のテキストは、「日本/の/首相/は/、/有名/に/なり/つつ/ある/。」となり、さらに、置き換え後のテキストに難解語を検索しても存在しないとすると、テキスト「日本の首相は、有名になりつつある。」を結果テキストとして出力手段106からユーザに提示する。
【0061】
また、本具体例では、変換手段105が、単語分割後のテキスト中に存在する語彙に対する文脈条件として品詞を推定していたが、単語分割手段103から単語分割後のテキストとテキストに対するカテゴリと、さらにテキストを単語分割する際に生じる品詞情報も入力されるようにし、この入力される品詞情報を文脈条件としてそのまま利用しても良い。こうすることで、難解語が使用される文脈に従って難解語の言い換え表現を変更するようにしたので、多義性のある難解語に対する言い換えにおいても、文脈に従い最適な言い換え表現を選択することができる。
【0062】
(言い換えの具体例)
ここまでに、変換手段105における言い換え手段108は、難解語を難解語辞書に示される言い換え表現に置き換えるとして説明した。
【0063】
図7は、入力されるテキストと、置き換えによる言い換えを行った結果のテキストとのユーザへの提示例を示す図である。
【0064】
別法として、言い換え手段108は、難解語に言い換え表現を付加するようにして言い換えを行ってもよい。この場合には、変換手段105は、単語分割手段103から入力される単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」において、難解語「メジャー」に対して言い換え表現「国際石油資本」を、難解語「OPEC」に対して言い換え表現「石油輸出国機構」を付加し、結果テキストとして「長年、メジャー(国際石油資本)は中東における石油生産の99%以上を掌握していましたが、OPEC(石油輸出国機構)の出現などにより原油価格決定権も奪われてしまいました。」や「長年、国際石油資本であるメジャーは中東における石油生産の99%以上を掌握していましたが、石油輸出国機構であるOPECの出現などにより原油価格決定権も奪われてしまいました。」などのように出力手段106からユーザに提示する。
【0065】
図8は、入力されるテキストと、言い換え表現の付加による言い換えを行った結果のテキストとのユーザへの提示例を示す図である。こうすることで、ユーザは本来使われている単語と共にその意味を理解することができる。
【0066】
また、難解語辞書104Aの言い換え表現として、図や写真、イラストが含まれる場合、変換手段105は、難解語に対して難解語に対応する言い換え表現である図や写真、イラストを例示するようにしてもよい。具体的な一例として、変換手段105は、単語分割手段103から単語分割後のテキスト「なまはげ/が/家庭/を/回っ/た」とテキストに対応するカテゴリとが入力され、入力されるカテゴリに対応する難解語辞書104Aに語彙「なまはげ」が難解語として定義され、言い換え表現として難解語「なまはげ」の写真が格納されている場合、難解語の注釈として写真を提示するようにする。この場合のユーザへの提示例は図9のようになる。こうすることで、ユーザに難解語を複数の手段で説明することができるので、ユーザは難解語を容易に理解することができる。
【0067】
(言い換え後のテキストを音声によって提示する例)
また、変換手段105は、難解語を言い換え表現に置き換えて結果テキストとして出力手段106からユーザに提示するようにしたが、結果テキストを表す音声をユーザに提示することも考えられる。
【0068】
図10は、そのための文書処理装置の構成の一例を示す機能ブロック図である。図1に示される文書処理装置と比べて、言い換え手段108が音声合成手段111と音声DB112とを備え、及び出力手段106が図示しないスピーカを備える点で異なる。ここで、言い換え手段108が、合成音声生成手段の一例である。
【0069】
言い換え手段108は、ここまでの説明と同様にして難解語の言い換えを行った後、さらに、その言い換え後のテキストを表す音声を生成し、出力手段106は、生成された音声をユーザに提示する。音声の生成には周知の音声合成技術を適宜用いることができるが、一例としては、音声DB112に予め音素片データを記憶させておき、音声合成手段111が好適な音素片データを結合することによって、音声を生成してもよい。
【0070】
さらに、言い換え後のテキストを音声データに変換する際に難解語に対応する音声が強調されるように音声データに変換し、スピーカからその音声データを再生することが好ましい。再生音声の強調方法としては、発声速度を遅く再生、イントネーションを変更、再生音量を大きくする、再生音声の音程を高くする、複数回繰り返すなどが考えられる。このような強調処理は、音声合成手段111によって行われる。こうすることで、難解語に対応する音声が強調されるので、ユーザは難解語を容易に聞き取ることができる。
【0071】
(ユーザ別の難解語辞書を用いる例)
また、難解語辞書104Aは、カテゴリ毎に、意味が難解である難解語と難解語を別の表現で言い表す言い換え表現とを対応付けるようにしたが、さらにユーザ別にカテゴリと難解語と言い換え表現とを対応付けるようにしてもよい。図11はユーザを識別するユーザ識別子とカテゴリと難解語と言い換え表現とを対応づけた難解語辞書104Aの内容を示すものである。この場合、変換手段105は、さらに、ユーザ識別子を取得するユーザ識別子取得手段を含み、単語分割後のテキストとカテゴリが入力され、さらにユーザ識別子取得手段からユーザ識別子が入力さると、ユーザ識別子とカテゴリに対応した難解語辞書を利用して、入力されるテキスト中の難解語を対応する言い換え表現に言い換えるようにしてもよい。こうすることで、ユーザに適応して、難解語を言い換え提示することができる。
【0072】
(難解語にユーザによる使用頻度を対応付ける例)
また、難解語辞書104Aは、カテゴリ毎に、意味が難解である難解語と難解語を別の表現で言い表す言い換え表現とを対応付けるようにしたが、さらに、難解語毎にユーザの使用頻度を格納するようにしてもよい。この場合、変換手段105は、単語分割後のテキストとテキストに対応するカテゴリが入力されると、入力されるカテゴリに対応する難解語辞書104Aの難解語と使用頻度を参照し、単語分割後のテキスト中に特定閾値以下の使用頻度の難解語が存在すると、その難解語に対応する言い換え表現を難解語辞書104Aから取得して、入力されるテキスト中の難解語を言い換え表現に置き換え、この処理を入力されるテキスト中の全難解語に対して行った後のテキストを結果テキストとして出力手段106からユーザに提示する。具体的な一例として、難解語辞書104Aは、(カテゴリ、(難解語、使用頻度、言い換え表現))として、(経済、(NPO、0.7、非営利組織)、(OPEC、0.9、石油輸出国機構)、(メジャー、0.4、国際石油資本)、…)、(スポーツ、(MLB、0.7、メジャーリーグベースボール)、(NFL、0.9、ナショナルフットボールリーグ)、(NHL、0.9、ナショナルホッケーリーグ)、…)、…、を記憶するとする。この場合の難解語辞書104Aの内容は図12のようになる。ここで、使用頻度の値が高い程、使用頻度が高いことを表す。さらに、変換手段105は、単語分割手段103から単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力されると、カテゴリ「経済」に対応する図12に示す難解語辞書104Aの難解語と使用頻度、((NPO、0.7)、(OPEC、0.9)、(メジャー、0.4)、…)を参照し、単語分割後のテキストに、使用頻度が特定の閾値(ここでは一例として値を0.5とする)以下の難解語を検索する。検索の結果、まず、使用頻度が閾値0.5以下の難解語「メジャー」が検索され、難解語「メジャー」を言い換え表現「国際石油資本」に置き換える。この際の置き換え後のテキストは、「長年/、/国際石油資本/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」となる。さらに、置き換え後のテキストに対して難解語を検索した結果、難解語「OPEC]は使用頻度が閾値0.5以上であるので、言い換えられない。その結果、使用頻度が閾値0.5以下の全ての難解語を言い換え表現に置き換えたテキスト「長年、国際石油資本は中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。」を結果テキストとして出力手段106からユーザに提示する。こうすることで、カテゴリにおける使用頻度が高いため、ユーザがカテゴリに対して容易に予想できるために理解、または、聞き取れる語彙は言い換えないので、全難解語が詳細な情報に言い換えられたテキストよりも冗長でないテキストをユーザに提示することができる。
【0073】
(難解語の使用頻度を学習する例)
また、変換手段105は、上記実施例での動作以外に、さらに、ユーザが注釈やイラストや言い換え表現が付加される難解語を提示された回数に適応するため、入力されるテキスト中に存在する難解語に対する使用頻度の値を上げるようにしてもよい。この使用頻度の値を更新する機能を持った変換手段105が、使用頻度学習手段の一例である。
【0074】
具体的な一例として、単語分割手段103から単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力され、語彙「メジャー」と「OPEC」が難解語として言い換え表現「国際石油資本」と「石油輸出国機構」が付与され、結果テキストとして、「長年、国際石油資本であるメジャーは中東における石油生産の99%以上を掌握していましたが、石油輸出国機構であるOPECの出現などにより原油価格決定権も奪われてしまいました。」が出力手段106からユーザに提示される場合、カテゴリ「経済」の難解語「OPEC」と「メジャー」の使用頻度に値「0.1」を加える。この場合の難解語辞書104Aの内容は図13のようになる。また同様の効果は、入力テキスト中に存在する難解語以外の難解語に対する使用頻度の値を下げるようにすることでも得られる。具体的な一例として、上記例の場合、カテゴリ「経済」の難解語「OPEC」と「メジャー」以外の難解語の使用頻度を「0.1」減らす。この場合の難解語辞書104Aの内容は図14のようになる。また、他の方法として、一定時間毎に使用頻度を減らすようにしてもよい。こうすることで、注釈やイラストや言い換え表現が付加される難解語をユーザに提示した回数に難解語の使用頻度を適応でき、ユーザに一定回数以上提示される注釈などの冗長な情報を省略してユーザに提示することができる。
【0075】
(使用頻度に応じて異なる言い換え表現を用いる例)
また、難解辞書記憶手段104は、カテゴリ毎に難解語と言い換え表現を対応付ける難解語辞書104Aを記憶するようにしたが、別法として、この難解語辞書104Aを、カテゴリ毎に難解語と難解語のユーザの使用頻度と言い換え表現を識別する言い換え表現識別子とを対応付けて記憶する難解語使用頻度辞書104Bと、言い換え表現識別子に対して、難解語のユーザの使用頻度と使用頻度に対応する言い換え表現との対を複数対応付けて記憶する言い換え辞書104Cとに分けて表して記憶するようにしてもよい(図示省略)。
【0076】
この場合、変換手段105における言い換え判定手段107は、単語分割後のテキストとテキストに対応するカテゴリが入力されると、入力されるカテゴリに対応する難解語使用頻度辞書104Bの難解語を参照し、単語分割後のテキスト中の難解語を検索し、言い換え手段108は、検索される難解語に対応する使用頻度と言い換え表現識別子を難解語使用頻度辞書104Bから取得し、取得した言い換え表現識別子と使用頻度に対応する言い換え表現を言い換え辞書104Cから取得し、検索される難解語を対応する言い換え表現に置き換え、この処理を入力されるテキスト中の全難解語に対して行った後のテキストを結果テキストとして出力手段106からユーザに提示する。
【0077】
この時の変換手段105の動作を図18のフローチャートを用いて説明する。具体的な一例として、難解語使用頻度辞書104Bは、(カテゴリ、(難解語、使用頻度、言い換え表現識別子))として、(経済、(松上、0.7、001)、(OPEC、0.9、002)、(メジャー、0.4、003)、…)、(スポーツ、(MLB、0.7、101)、(NFL、0.9、102)、(NHL、0.9、103)、…)、…、を記憶するとする。この場合の難解語使用頻度辞書104Bは図15のようになる。ここで、使用頻度の値が高い程、使用頻度が高いことを表す。また、言い換え辞書104Cは、(言い換え表現識別子、(使用頻度、言い換え表現))として、(001、(0.9以上、松上)、(0.5以上0.9未満、松上電器)、(0.5未満、松上電器産業))、(002、(002、(0.8以上、OPEC)、(0.8未満、石油輸出国機構))、…、を記憶するとする。この場合の言い換え辞書104Cは図16のようになる。そして、変換手段105は、単語分割手段103から単語分割後のテキスト「松上/が/新/製品/を/発売/。」とテキストに対応するカテゴリ「経済」が入力されると(ステップS201)、カテゴリ「経済」に対応する図15に示す難解語使用頻度辞書104Bの難解語(松上、OPEC、メジャー、…)を参照して、単語分割後のテキスト中の難解語「松上」を検索し(ステップS202、ステップS203)、難解語使用頻度辞書104Bから、検索される難解語「松上」に対応する使用頻度「0.7」と言い換え表現識別子「001」を取得する(ステップS204)。さらに、言い換え辞書104Cから、取得した言い換え表現識別子「001」と使用頻度「0.7」に対応する言い換え表現「松上電器」を取得し(ステップS205)、単語分割後のテキスト中の難解語「松上」を言い換え表現「松上電器」に置き換え(ステップS206)、さらに他の難解語が存在しない場合は(ステップS203)、難解語を言い換え表現に置き換えたテキスト「松上電器が新製品を発売。」を結果テキストとして出力手段106からユーザに提示する。こうすることで、ユーザの使用頻度に応じて難解語を言い換え表現に置き換えるので、ユーザは理解し易く、全単語が詳細な情報に言い換えられたテキストよりも冗長でないテキストをユーザに提示することができる。
【0078】
(難解語及び言い換え表現それぞれの使用頻度を学習する例)
また、難解語辞書104Aは、カテゴリ毎に、意味が難解である難解語と難解語を別の表現で言い表す言い換え表現とを対応付けるようにしたが、さらに、難解語と言い換え表現毎にユーザの使用頻度を格納するようにしても良い。この場合、変換手段105は、単語分割後のテキストとテキストに対応するカテゴリが入力されると、入力されるカテゴリに対応する難解語辞書104Aの難解語を参照して、単語分割後のテキスト中の難解語を検索し、検索される難解語に対応する難解語の使用頻度と言い換え表現と言い換え表現の使用頻度を取得する。そして、難解語の使用頻度よりも言い換え表現の使用頻度が大きい場合、入力されるテキスト中の難解語を言い換え表現に置き換え、この処理を入力されるテキスト中の全難解語に対して行った後のテキストを結果テキストとして出力手段106からユーザに提示する。具体的な一例として、難解語辞書104Aは、(カテゴリ、(難解語、難解語の使用頻度、言い換え表現、言い換え表現の使用頻度))として、(経済、(NPO、0.7、非営利組織、0.3)、(OPEC、0.9、石油輸出国機構、0.2)、(メジャー、0.4、国際石油資本、0.6)、…)、…、を記憶するとする。この場合の難解語辞書104Aの内容は、図17のようになる。ここで、使用頻度の値が高い程、使用頻度が高いことを表す。さらに、変換手段105は、単語分割手段103から単語分割後のテキスト「長年/、/メジャー/は/中東/における/石油/生産/の/99/%/以上/を/掌握/し/て/い/まし/た/が/、/OPEC/の/出現/など/により/原油/価格/決定/権/も/奪わ/れ/て/しまい/まし/た/。」とテキストに対応するカテゴリ「経済」が入力されると、図17に示す難解語辞書104Aの難解語(NPO、OPEC、メジャー、…)を参照して、単語分割後のテキスト中の難解語を検索し、まず、難解語「メジャー」を検索する。そして、難解語「メジャー」に対応する難解語の使用頻度「0.4」と言い換え表現「国際石油資本」と言い換え表現の使用頻度「0.6」を取得し、難解語の使用頻度「0.4」よりも言い換え表現の使用頻度「0.6」の方が大きいので、テキスト中の難解語「メジャー」を言い換え表現「国際石油資本」に置き換える。さらに、単語分割後のテキスト中の難解語を検索すると、難解語「OPEC」が検索されるが、難解語「OPEC」に対応する難解語の使用頻度「0.9」が、言い換え表現「石油輸出国機構」の言い換え表現使用頻度「0.2」よりも大きいので、難解語「OPEC」は言い換え表現に置き換えない。そして、他の難解語が存在しない場合は、テキスト「長年、国際石油資本は中東における石油生産の99%以上を掌握していましたが、OPECの出現などにより原油価格決定権も奪われてしまいました。」を結果テキストとして出力手段106からユーザに提示する。こうすることで、提示されるテキストはユーザの使用頻度が高い語彙で構成されるので、ユーザに理解し易く、聞き取り易いテキストを提示することができる。
【0079】
(その他の変形例)
また、カテゴリ取得手段102は、テキスト中のカテゴリをそのまま取得するようにしたが、カテゴリを含まないテキストに含まれる単語を用いて生成した単語ベクトルとカテゴリを表現する単語ベクトルとの距離を求めることでテキストの属するカテゴリを推定するようにしてもよい。こうすることで、カテゴリが含まれない入力テキストにも対応することができる。
【0080】
また、カテゴリ取得手段102は、カテゴリの概念構造を保持し、取得したカテゴリに対応する下位概念の複数のカテゴリを変換手段105に出力するようにしてもよい。具体的な一例として、カテゴリ取得手段102は(上位概念、下位概念)として((スポーツ、(野球、サッカー、水泳))、(カーレース、(F1、インディーカーレース、GT))、…)を記憶しているとすると、カテゴリ取得手段102は、カテゴリ「スポーツ」が入力されるとカテゴリ「野球、サッカー、水泳」を変換手段105に出力する。こうすることで、難解語辞書104Aは、カテゴリ「野球、サッカー、水泳」に対して難解語を記憶しておけば、カテゴリ「スポーツ」に対して難解語を記憶する必要がない。つまり、概念の上下関係に従うカテゴリ同士で重複する難解語を保持する必要がなくなり、難解辞書記憶手段の容量が少なくて済む。
【0081】
また、難解語辞書104Aに格納される難解語として、形態素や単語の原型と活用形を格納するようにしてもよい。こうすることで、活用される形態素や単語に対しても言い換え表現へ置き換えることができる。
【0082】
以上のように、本実施形態によれば、テキストが属するカテゴリに対して難解語を設定することができ、カテゴリに対してユーザの予想外の語彙を言い換えや説明、または、強調して提示することができるので、ユーザは、テキストに含まれる難解語を容易に理解、または、聞き取ることができる。
【産業上の利用可能性】
【0083】
本発明は、テキストを表示する際、カテゴリに対してユーザの予想外の語彙を言い換えや説明、または、強調することができ、ハードディスクレコーダやDVDレコーダ、TV、オーディオコンポなどのコンテンツの内容をユーザに提示する機器や、インターネットにアクセスしてWEB上のコンテンツを表示することができる端末等において有用である。
【図面の簡単な説明】
【0084】
【図1】文書処理装置の一構成例を示す機能ブロック図
【図2】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図3】文書処理装置の動作の一例を示すフローチャート
【図4】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図5】文書処理装置の一変形例を示す機能ブロック図
【図6】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図7】置き換えによる言い換えの一例を示す図
【図8】言い換え表現の付加による言い換えの一例を示す図
【図9】文書処理装置の表示手段に表示される内容の一例を示す図
【図10】文書処理装置の一変形例を示す機能ブロック図
【図11】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図12】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図13】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図14】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図15】文書処理装置に用いられる難解語使用頻度辞書の内容の一例を示す図
【図16】文書処理装置に用いられる言い換え辞書の内容の一例を示す図
【図17】文書処理装置に用いられる難解語辞書の内容の一例を示す図
【図18】文書処理装置の動作の一例を示すフローチャート
【符号の説明】
【0085】
100 コンテンツDB
101 取得手段
102 カテゴリ取得手段
103 単語分割手段
104 難解辞書記憶手段
104A 難解語辞書
104B 難解語使用頻度辞書
104C 言い換え辞書
105 変換手段
106 出力手段
107 言い換え判定手段
108 言い換え手段
109 関連度算出手段
110 関連度更新手段
111 音声合成手段
112 音声DB




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013