米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 独立行政法人通信総合研究所

発明の名称 文章分類方法及び装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2003−108568(P2003−108568A)
公開日 平成15年4月11日(2003.4.11)
出願番号 特願2001−294806(P2001−294806)
出願日 平成13年9月26日(2001.9.26)
代理人 【識別番号】100090893
【弁理士】
【氏名又は名称】渡邊 敏
【テーマコード(参考)】
5B075
5B091
【Fターム(参考)】
5B075 ND02 NK02 NK32 NR02 NR12 NS01 
5B091 AA15 BA03 CA02 CA26
発明者 乾 裕子 / 井佐原 均
要約 課題
文章表現から文章意図を判定し、文章を該文章意図に従い分類する方法及び装置を提供すること。

解決手段
文章中の文末表現、副詞、感情語を抽出し、文末表現タグ、副詞タグ、感情語タグの少なくともいずれかに基づいて、抽出された文末表現、副詞、感情語から文章意図を判定し、文章を該文章意図に従い分類する。
特許請求の範囲
【請求項1】文章表現から文章意図を判定し、文章を該文章意図に従い分類する文章分類方法であって、文章を読取る文章読取りステップ、該文章中から回答者の意図を表明するモダリティ表現としての文末表現、程度表現としての副詞、感情表現や価値判断を示す形容詞や動詞の少なくとも一つを抽出する表明態度表現抽出ステップ、該当文章中から回答者の意図の動機や関心を示す表現としての原因・理由、条件表現を抽出する関心表現抽出ステップ、文章意図を、上記モダリティ表現から、文末表現タグ、副詞タグ、感情語タグの少なくともいずれかに基づいて判定する文章意図判定ステップ、該文章を、上記文章意図に従い分類する文章分類ステップの各ステップを有することを特徴とする文章分類方法。
【請求項2】文章表現から文章意図を判定し、文章を該文章意図に従い分類する文章分類装置であって、該装置が、文章を読取る文章読取り手段と、該文章中から回答者の意図を表明するモダリティ表現としての文末表現、程度表現としての副詞、感情表現や価値判断を示す形容詞や動詞の少なくとも一つを抽出する表明態度表現抽出手段と、該当文章中から回答者の意図の動機や関心を示す表現としての原因・理由、条件表現を抽出する関心表現抽出手段と、文章意図を、上記モダリティ表現から、文末表現タグ、副詞タグ、感情語タグの少なくともいずれかに基づいて判定する文章意図判定手段と、該文章を、上記文章意図に従い分類する文章分類手段とを備えることを特徴とする文章分類装置。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、文章表現から文章意図を判定し、文章を文章意図に従い分類する方法、及びその方法を実施する装置に関するものである。
【0002】
【従来の技術】自由記述アンケートは、選択型回答と異なり、回答者の自由な意見を集約できる効果があるため社会的にも注目されている。従来の高頻出語等をキーワードにした分析に加え、回答者の印象、不満を示す表現に注目した研究なども進められているが、自由回答の分析方法は現時点で十分に確立されていない。テキストからの情報抽出や、要約、自動分類などの要素技術が蓄積されてきた言語処理技術を用いれば上記の問題を解決できるが、一方、言語処理で主に対象としているテキストは新聞データが多く自由記述アンケートのテキストに関する特性は明らかになっていない。
【0003】そのため、自由記述アンケートの回答内容に従った分類は人手による作業が中心となり、作業コストの大きさに加え、分類者の主観的な判断で分類されるため、分類結果の客観性や正確性が懸念されおり、自由記述アンケートは十分に活用されていないのが現状である。
【0004】
【発明が解決しようとする課題】そこで、本発明は、上記従来技術が有している問題を鑑みて創出されたものであり、文末表現タグ、副詞タグ、感情語タグに基づいて、自由記述アンケートの回答文の文章表現から回答文の意図を判定し、回答文を意図に従い分類する方法及び装置を提供することを課題とする。
【0005】
【問題を解決するための手段】上記の目的を達成するために、本発明の文章分類方法は、以下の特徴を備える。すなわち、本発明は文章表現から文章意図を判定し、文章を該文章意図に従い分類する文章分類方法である。そして、次の各ステップを有する。
(1) 文章を読取る文章読取りステップ、(2) 該文章中から回答者の意図を表明するモダリティ表現としての文末表現、程度表現としての副詞、感情表現や価値判断を示す形容詞や動詞の少なくとも一つを抽出する表明態度表現抽出ステップ、(3) 該当文章中から回答者の意図の動機や関心を示す表現としての原因・理由、条件表現を抽出する関心表現抽出ステップを経た上で、文章意図を、上記表明態度表現の文末表現タグ、程度タグ、感情タグ、価値判断タグの少なくともいずれか一つ、および関心表現の原因タグ、条件タグ、前提タグのいずれかに基づいて判定する文章意図判定ステップ。(4) 該文章を、上記文章意図に従い分類する文章分類ステップ。
【0006】本発明は、次のような文章分類装置として提供することもできる。すなわち、文章表現から文章意図を判定し、文章を該文章意図に従い分類する文章分類装置である。本装置は、次の各手段を備える。
(1) 文章を読取る文章読取り手段。
(2) 該文章中から回答者の意図を表明するモダリティ表現としての文末表現、程度表現としての副詞、感情表現や価値判断を示す形容詞や動詞の少なくとも一つを抽出する表明態度表現抽出手段。
(3) 該当文章中から回答者の意図の動機や関心を示す表現としての原因・理由、条件表現を抽出する関心表現抽出手段。
(4) 文章意図を、上記表明態度表現の文末表現タグ、程度タグ、感情タグ、価値判断タグの少なくともいずれか一つ、および関心表現の原因タグ、条件タグ、前提タグのいずれかに基づいて判定する文章意図判定手段。
(5) 該文章を、上記文章意図に従い分類する文章分類手段。
【0007】そして、文章読み取り手段は、例えばインターネットにおいて収集されたテキストデータを取り込む機能でもよいし、手書きで書かれた文章を文字認識を行ってテキストデータとして取り込む機能を用いてもよい。また、文章分類手段による分類では、文章を分類し、文章そのものを出力してもよいし、各分類に相当する文章の数を出力してもよい。
【0008】
【発明の実施の形態】以下、本発明による文章分類方法の実施形態を説明する。なお、実施形態は、本発明の主旨から逸脱しない限り適宜設計変更可能なものである。文章中における文末表現、副詞、感情語のモダリティ表現は文章作成者の意図を適切に表現していることから、本装置は、文章作成者の意図を表現する意図タグとして、文末表現タグ、副詞タグ、感情語タグを用いる。各タグは、「要求」を意図する要求文末表現タグ、要求副詞タグ、要求感情語タグ、「肯定」を意図する肯定文末表現タグ、肯定副詞タグ、肯定感情語タグ、「否定」を意図する否定文末表現タグ、否定副詞タグ、否定感情語タグに分類されている。
【0009】自由記述アンケートの回答には、手書き或いはワープロ等で記述されたハガキ、手紙、封書、FAX等により収集された書面による回答と、E-mail、WWWサイトへの書込み等により収集されたテキストデータによる回答がある。本装置は、同時に複数の自由記述アンケートの回答文をテキストデータより読取る。このため、予め書面による回答文はOCRによりテキストデータに変換されていなければならない。本装置に、書面による回答文をOCRによりテキストデータに変換する手段を有することとしてもよい。
【0010】次に、読取られた回答文から、モダリティ表現としての文末表現、副詞、感情語を抽出する。抽出された文末表現、副詞、感情語の少なくともいずれかに前記意図タグが用いられているかどうか判別し、意図タグが用いられている場合は、該回答文は該意図タグの意図する文であると判定され、判定された意図に従い「要求」「肯定」「否定」の意図ごとに分類される。
【0011】回答文中にいずれの意図タグも用いられていない場合は、抽出された文末表現、副詞、感情語の少なくともいずれかが前記意図タグに言い換えられるかを判別し、言い換えられる場合は、該回答文は該意図タグの意図する文であると判定され、判定された意図に従い「要求」「肯定」「否定」の意図ごとに分類される。
【0012】抽出された文末表現、副詞、感情語がいずれの意図タグにも言い換えられない場合には、回答文の意図は文脈や該回答文の前後文の文末表現、副詞、感情語に依存すると考えられるため、該回答文の文末表現、副詞、感情語と、文脈や前後文の文末表現、副詞、感情語を複合的に判断することで、意図を判定することができる。
【0013】「要求」「肯定」「否定」のいずれの意図にも判定されない回答文は、「判定不可」として分類される。
【0014】本発明に係る上記文末表現タグを決定するにあたり、実験として以下の分析・検討を行った。分析対象とした自由記述アンケートは、将来的な道路計画に市民の声を活かす目的で行われた全国規模のアンケート調査で得た回答であり、回答者数は35,674人、回答数は延べ113,316件である。意見は、ハガキ、封書、FAX、電子メールによる回答の他、WWWサイトへの書込みによって収集されている。回答方法は、予め設定された道づくりに関する12個のテーマの中から各自関心の高いテーマを選択し120字程度で回答されている。
【0015】自由記述アンケートを分析するにあたり、まず予備調査として既存の助詞・助動詞相当表現事例と意味がどのように分布するのかを調べ、この結果から、個々の回答に付与された意味タグが回答の意図を示すものとして妥当かどうか検討した。
【0016】表1に日本語表現文型の内容、表2に表現の意味の差異を示す。
【表1】

【表2】

実際の用例から複合辞(助詞・助動詞相当表現)を集めた『日本語表現文型』では、720例の基本的表現(助詞相当466、助動詞相当254)を中心に、助詞相当を格助詞、副助詞、係助詞等、また助動詞相当を禁止、可能、許可、推量、提案、要求等それぞれの意味機能にしたがって分類し、延べ1659語の表現事例を挙げている(表1)。これら1659語の表現事例を見出し語として、それぞれに割り当てられた意味機能を意味タグとして電子データ化した。(以下、表現データと呼ぶ)。表1に挙げられた意味機能とそれぞれの意味を担う表現の数から、これらが網羅的なデータであることがわかるが、意味の違いが生じる条件や例えば「なければならない」の「義務、責任、当然、決意、強制」「義務、当然」のように意味が多義の場合の判断条件は明記されていない(表2)。
【0017】予備調査では、表現データの見出し語が回答にどのように分布するかを観察するために、見出し語と回答文の文末表現のパタンマッチングを行った。対象とした回答文は、上述した自由記述アンケートのうち、手紙で回答された回答数3116件、8328文である。これらに対し、文末から最長一致法で見出し語に相当する表現部分を取出し、見出し語の意味タグを自動的に付与した。マッチしたデータ3472文の中で、高頻度の見出し語と意味タグの関係を表3に示す。
【表3】

表3において、二重線以下の見出し語は『日本語表現文型』の見出し語としては記述されていないが、参照事例として比較対照されている表現であるため、表現データに登録されているものである。
【0018】表3から、アンケートの回答文に関する特徴が下記に述べるように客観的に明らかになった。願望、提案、要求を示す表現が多く、特に「てほしい」という直接的な要求表現で示されることが多い。推量、推測、推定などの表現は比較的少ない。意思表現も表現データに示す割合からすると比較的少ないと考えられる。
【0019】しかし、同時に下記に述べるような問題点も明らかになった。アスペクトと示される表現を持つ文では回答は何を意図しているのか判断できない。また、これらの表現は他の意味タグと同様に扱ってよいのか不明である。「適当、願望、提案、勧誘、勧告」「要求、依頼」「義務、当然、当為、必然、必要、勧告、主張」「願望、勧誘」等の意味の違いは回答の意図の違いとしても現れるのか不明である。意味タグがついていないにもかかわらず頻出する表現をどう扱うのか不明である。助動詞相当表現「う」として取扱われているものの多くはパタンマッチングによる誤りで「と思う」の活用語尾である。しかし、表現データには明示されていない「と思う」は頻出する表現であり、どのような意図を示すのか疑問である。
【0020】上記の問題を明確にし、一貫性のあるタグ判定を行うために以下の分析を行った。表3で示されている直接的要求表現「てほしい」への言い換え可否を調べることで、等価な意図であるかを判定する。また、なぜ言い換え可否の差が生じるのか、言い換えられない回答文は何も要求していないのかを検討する。
【0021】以下、分析手順を説明する。
(1)回答文を「てほしい」という表現に言い換えられることが可能かどうか検討する。
(2)回答文に含まれる見出し語を下記のいずれかに分ける。
■要求表現(ある見出し語を含む回答文のうち9割以上に対して「てほしい」への言い換えが可能だったもの)
■要求以外の表現(ある見出し語を含む回答文のうち9割以上に対して「てほしい」への言い換えが不可能だったもの)
■上記■、■いずれにもあてはまらず言い換え可能と不可能な場合が文脈に応じて生じる表現(3)上記■〜■それぞれについて下記を検討する。
■「てほしい」への言い換えを考える際、等価な働きをする文末表現は表現データが見出し語とる単位でよいかどうか検討する。
■回答の意図が要求以外の何であるかを調べる。或いは「てほしい」に言い換えられなくても要求の可能性もあるかどうか検討する。例えばすべきである/なければならない/等の他の表現との言い換えが可能であるかどうか検討する。
■回答の意図の違いと表層条件の関連性を調べる。
【0022】尚、(1)の言い換え可否の判断条件は、着目する意図表現から「てほしい」への機械的な置き換えではないため例#1のような言い換えも含む。
<言い換え可と判断する例>#1(思)う:歩行者は地下道を通るようにしたら渋滞が解消されると思う。→歩行者は地下道を通るようにし、渋滞を解消してほしい。
#2ないか:融雪により除雪できないか。→融雪により除雪してほしい。
#3もらいたい:高速道路の料金所はもっとすばやくスムーズに通れるように工夫してもらいたい。→高速道路の料金所はもっとすばやくスムーズに通れるように工夫してほしい。
<言い換え不可と判断する例>#4(思)う:交差点と踏切がいっしょになっている所は、渋滞しやすいと思う。
#5ないか:自動車の増産によって渋滞の発生が多くなっていないか。
#6ている:高速道路の建設は、止むを得ないと思っている。/たった一人の運転者の為に渋滞するのをよく経験している。
【0023】表4に分析手順(1)の分析結果を示す。回答文に頻出する見出し語を高頻度順に並べてある。「?」はもとの例えの意味がとれないもの、「?可」「?不可」はそれぞれどちらかといえば言い換え可能、不可能と考えられるが、いずれも可否を判断しにくい例である。「可」「不可」は比較的迷わず判断できる例である。これらの数字は、総出現数にあたる総計個数に対する割合で示されている。累計比率は回答に現れた表現のうち高頻度の上位22表現が3472文全体に対して占める割合である。
【表4】

【0024】以下に分析手順(2)の分析結果を示す。
■要求表現の文末表現(出題5回以上:9割可)
べきである/てもらいたい/を/ていただきたい/ようにする/ばいい/必 要である/べきです/がいい/すべきだ/てください/たらいい/ばよい/ よう/がよい/てくれ/させてほしい/といい/てもらう/ほうがいい/も のか/ように/たいものです/ほうがよい#7べきである:人、自転車、車の通行区分を明確にするべきである。
#8を:都市へのより良いアクセスとともに高齢者に歩きやすい道を。
■要求以外の表現の文末表現(出題5回以上:9割不可)
た/ております/から/れている/について/てくる/ことがある/ため/ まい/ので#9た:先日、湖に行った。/自分で車にのってみて、危険であると分かるようになりました。
#10から:どうしても車が必要な場合もあるのだから。
■文脈に応じて可否のわかれるもの(出題5回以上)
(思)う/する/うか/ている/ています/ではないか/こと/のでは/の です/べきだ/ないか/ものです/が/なければならない/だろう/ていな い/ばど/しかない/ないかな/ものである/で/てしまう/かな/たらよ い/ていく/はず#11する(可):道幅の狭い所では、右折禁止にする。
#12する(不可):道は人々のものであるという基本理念を再認識せねばならないことを痛感する。
#13なければならない(可):公共交通機関をより充実させなければならない。
#14なければならない(不可):スピードをだして追い越さなければならい。
【0025】上記の分析結果に基づき、分析手順(3)について検討する。■に挙げた言い換え可能な25表現のうち、表現データの単位で不十分だと思われるものは「ものか」(6例)である。4例が「できないものか」、あとの2例が「ならないものか」「のはいかがなものか」等否定、疑問表現を伴って現れることにより、これらの表現自体は反語的表現となり要求として成り立っている。否定や疑問がつかない場合は、「〜するものか」のように相手の言葉、考えに対する強い反対、否定、ある動作・作為を行わないことへの固い決意を示すことになる。また、「がいい」(18例)は「方がいい」の形が15例あり、「(名詞)がいい」は3例だけであるため、この表現が要求に結びつくと判断するためにはさらに事例を集める必要がある。「べきである」「べきです」は「てほしい」に文脈依存せず言い換え可能な表現となっているが、類似表現である「べきだ」は文脈依存の結果が出ているため、これらに対する他事例の更なる検討も必要である。
【0026】■に挙げた事例#9、10からも分かるように、「てほしい」への言い換え不可の表現を含む文は、自分の経験や現状認識など要求の導入になりうるもの、また要求の根拠が述べられているものが多い。従って、要求と根拠、現状認識と要求のように回答が二文以上の文から成るとき、「てほしい」への言い換え不可の文が頻出すると考えられる。実際に、一文の回答と二文以上から成る回答との間でその差を調べてみると表5で示すような結果が得られた。
【0027】
【表5】

【0028】すなわち、一文の回答は9割近くが「てほしい」に言い換え可能な表現であるのに対し、二文以上の場合は要求とはことなる意味役割の文を含むことを示す。この差は、副詞節等で因果関係を一文で表現している複文の扱いを二文以上と考えることにより、更に明確になると考えられる。一文でも、「高速道路を使わないからどうでもいい」「運転者や歩行者、自ら問題が多いと思う」「歩道が狭い」等明確な要求でなくても、不満を表すことによって現状に対する満足度の低さを示す場合もある。二文以上から成る回答文の談話構造、明確な要求でない場合の解答の意図については、更に検討が必要である。
【0029】■に挙げた表現では、「てほしい」への言い換え可否が文脈依存の場合、可否を決める条件は共起する表現であることも多い。例えば「思う」は、先に挙げた「たらいい/べきだ/でもいい」などと結びつく場合は殆ど言い換え可であるのに対し、「(形容詞)と思う」は27例中24例、「(動詞)と思う」は36例中30例が言い換えが不可である。一方、直前が動詞や形容詞であっても「〜(ば/と/たら)〜と思う」のように条件表現を作る副詞節と共起する場合には言い換え可となることが多い。文脈依存によって言い換え可否が分かれる表現の場合、更に詳細な共起表現などの制約によって回答者の意図を示す表現を取り出すことができると考えられる。
【0030】文末を「てほしい」という要求表現に言い換えることができるかどうかを分析することで、表現自体が固有に要求を示す場合、示さない場合、文脈に依存する場合等が明らかになった。
【0031】以上の分析により、「てほしい」という文末表現を要求文末表現タグとして決定することができた。
【0032】
【発明の効果】本発明の文章分類方法及び装置は、上述の構成を備えるので、以下の効果を奏する。本発明の文章分類方法によれば、文章意図を、文末表現タグ、副詞タグ、感情語タグの少なくともいずれかに基づいて判定し、文章を該文章意図に従い分類する構成をとるので、自由記述アンケートの回答文の意図に従った分類において、人手による分類作業は不要となり、分類者の判断主観性が排除されるので、客観的に正確で効率よく回答文の分類ができ、また、分類作業コストの低減に寄与する。このため、自由記述アンケートの活用が更に大きく期待される。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013