米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 松下電器産業株式会社

発明の名称 機械翻訳装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−160716
公開日 平成7年(1995)6月23日
出願番号 特願平5−305107
出願日 平成5年(1993)12月6日
代理人 【弁理士】
【氏名又は名称】小鍜治 明 (外2名)
発明者 沼田 泰之
要約 目的
機械翻訳装置において、翻訳結果における訳語を、高速に、かつ正確に他の訳語と入れ換える編集機能を提供することを目的とする。

構成
原文を記憶する手段(原文記憶手段1)を持ち、その原文を翻訳する手段(翻訳手段2)を持ち、翻訳結果である訳文テキストを記憶する手段(訳文記憶手段3)を持ち、文単位の翻訳の際に得られる原単語とその訳語の対応情報を文単位で管理する対訳情報を記憶する手段(翻訳情報記憶手段6)を持ち、翻訳情報に基づいて訳文テキスト中の訳語を指定された訳語で置き換える手段(編集手段4)を持ち、原文を入力したり、訳文テキスト修正の指示を出したりするユーザインタフェース5を持つ。
特許請求の範囲
【請求項1】文単位で、各単語の原単語とその訳語のペアの翻訳情報を保存する手段と、ユーザが訳語変更のために変更対象となる原単語とそれに対する新たな訳語を指定する手段と、ユーザにより指定された原単語をキーとして翻訳情報内の原単語を検索する検索手段と、上記検索手段による検索の結果、ユーザが指定した原単語を原文内に含む文の訳文にアクセスする手段と、上記訳文内の文字列に対してユーザが指定した新訳語文字列で検索する検索手段と、上記訳文の部分文字列をユーザが指定した文字列で置換する手段を備える機械翻訳装置。
【請求項2】請求項1記載の機械翻訳装置において、訳文文字列中に翻訳情報を備える機械翻訳装置。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、機械翻訳によって得られた訳文中の不適切な訳語を、効率的に修正する機械翻訳装置に関するものである。
【0002】
【従来の技術】まず、本発明の背景である機械翻訳における訳語の問題について述べる。英語は多義語であり、特に英日翻訳を行う場合、単語単位の訳出は、機械翻訳における大きな問題の1つとなっている。たとえば、springという単語は、「バネ、泉、春」といった全く概念の異なる訳を持つが、現在の機械翻訳の技術レベルにおいて、自動的に適切な訳語を選択することは非常に難しい。
【0003】英文We need the spring.に対し、springの訳の違いにより、・私達は、バネが必要だ。
【0004】・私達は、泉が必要だ。
・私達は、春が必要だ。
が得られるが、この違いは、ユーザにとって非常に重大である。人間は、文の持つ全体的な意味や、文脈における文の位置付け等を考慮しながら適切な訳語を選択しているが、機械翻訳は、文単位の翻訳であり、訳語の選択の問題は、当面、容易には解決されない問題であった。
【0005】よって、機械翻訳の結果に対し、ユーザは少なくとも訳語の修正という作業が必要となるわけであるが、現在の翻訳機が提供する訳語の修正手段は、必ずしもユーザにとって満足のいくものではない。
【0006】従来、機械翻訳装置によって得られた翻訳結果における訳語を修正する方法として、(1).エディタによって修正する(逐次,一括)
(2).ユーザ辞書登録後に文章全体を翻訳しなおす(3).一文翻訳時に後編集機能で訳語選択し、学習させた後、文章全体を再翻訳させるといったものがある。(1)のエディタによる修正の中でも、訳文をエディタ上で読みながら、訳語を随時修正していく方法は、最も効率が悪い。また、エディタの機能(検索,置換)にたよる方法があるが、逐次的な方法は、各単語単位で検索しては確認する必要があり時間がかかる。更に、バッチ的な置換の場合、文字列ベースによる検索のため、以下に述べるように、不要な置き換えが発生する。
【0007】その不要な置き換えの1つは、「At that time, the interval is 〜」といった英文に対する「その時間隔が〜(At that time, the interval is 〜)」といった訳文を含む翻訳結果文書に対して、「時間→タイム」という訳語の置き換えが要求された場合、その要求がtime以外の英単語に基づいたものであったとしても、訳文テキストに対する字面ベースの置換のために、「そのタイム隔が〜」という訳になってしまう。
【0008】もう1つの不要な置き換えは、翻訳機の誤った訳語選択に依存するものである。たとえば、次のような翻訳結果が同一文書中にあるとする。
【0009】The processes execute the system call.「進行は、システムコールを実行する。」
The work is going on according to plan.「仕事は計画通り進行しています。」
ここでは、process,goに対して、それぞれ「進行」「進行する」という訳が与えられている。ユーザにとって、goに対する「進行する」という訳は適切であるが、processに対する「進行」という訳は、「プロセス」とすべきであった場合、字面ベースの一括変換を行うと、前者は、「プロセスは、システムコールを実行する。」と適切な結果が得られるが、副作用的に、後者は、「仕事は計画通りプロセスしています。」という誤った訳となってしまう。そして、この一括置換の問題は、この誤った置換に、ユーザが気付くタイミングが存在しないことである。
【0010】(2)の「ユーザ辞書登録後に文章全体を翻訳しなおす」という方法は、多くの場合、ユーザ辞書登録自体が大変であり、しかも、文章全体を翻訳しなおすという時間的なコストが大き過ぎ、(3)の「1文翻訳時に後編集機能で訳語選択し、学習させた後、文章全体を再翻訳させる」というのも、1文翻訳をすること自体が繁雑であり、文章全体を翻訳しなおすという点は、(2)と同様である。
【0011】
【発明が解決しようとする課題】「従来の技術」で述べたように、機械翻訳による翻訳結果に対する訳語変更は容易ではなく、再翻訳は多くの時間がかかる。更にユーザ辞書登録も、操作が面倒であるという問題が点を有していた。
【0012】
【課題を解決するための手段】本発明は、文単位で各単語の原単語とその訳語のペアの翻訳情報を保存する手段と、ユーザが訳語変更のために変更対象となる原単語とそれに対する新たな訳語を指定する手段と、ユーザにより指定された原単語をキーとして翻訳情報内の原単語を検索する検索手段と、上記検索手段による検索の結果、ユーザが指定した原単語を原文内に含む文の訳文にアクセスする手段と、上記訳文内の文字列に対してユーザが指定した新訳語文字列で検索する検索手段と、上記訳文の部分文字列をユーザが指定した文字列で置換する手段を備える。
【0013】
【作用】訳文を構成する訳語に対する原単語を記憶しておき、その情報に基づいて訳語の入れ替えを行うため、テキストエディタによる検索・置換のような副作用もなく、適切にかつ効率的に、訳語の入れ替えを行う。
【0014】
【実施例】以下、図面に基づいて、本発明の機械翻訳装置の一実施例について詳細に説明する。
【0015】図1は、単語単位の訳語が、いかなる原単語に由来するものであるかを、文単位で記憶・管理する翻訳情報テーブルである。同図では、文番号10と20の情報のみを描いているが、実際は、すべての文に対して、同様な訳語情報を持つ。各レコード(行)は、3つのフィールド(欄)から構成されており、それぞれのフィールドは、文番号,原単語(訳のもととなった英単語),訳語を記憶している。つまり、各レコードは、「第○行の○○という単語を○○と訳した」という情報を表わしている。したがって、同図は、・文10では、processを「進行」と訳している・文10では、executeを「実行する」と訳している・文10では、system callを「システムコール」と訳している・文20では、workを「仕事」と訳している・文20では、goを「進行する」と訳している・文20では、planを「計画」と訳していると読む。この翻訳情報テーブルは、ある英単語を他の訳語に置き換える際に参照される。
【0016】図2は、本発明の一実施例における機械翻訳装置の機能ブロック図である。1は、キーボードなどによってシステムに取り込まれた翻訳対象英文をテキストとして記憶する原文記憶手段、2は、原文記憶手段1に記憶された英文を翻訳するための翻訳手段、3は、翻訳手段2によって翻訳された結果の訳文をテキストとして、かつ、1訳文を1レコード形式(1英文に対する訳文を1レコードとする。文ごとに長さは異なるため可変長となる。ここでは、1レコードの終端コードとして、改行コードがあるものとする。)で記憶する訳文記憶手段、4は、訳文記憶手段3に記憶された訳文テキストを修正する(指定されたN番目の文テキスト内において、指定された部分文字列を検索し、指定された部分文字列で置換する)ための編集手段、5は、原文入力、翻訳指示、編集指示操作等を行わせるのに必要となるユーザインタフェースである。6は、翻訳手段2が翻訳する過程で生成した翻訳情報を記憶する翻訳情報記憶手段であり、編集手段4は、この情報を参照しながら、訳文記憶手段3中の訳文テキストを修正する。
【0017】次に、図4を参照して、本実施例の手続き(アルゴリズム)を説明する。ステップ1Aでは、訳語変更を希望する原単語と新訳語とを獲得する。まず、訳語変更フェーズにおいて、ユーザインタフェース5を通じ、ユーザから、・訳語変更を希望する原単語・上記原単語に対して新たに希望する訳語(新訳語)
の2つのデータを得る。上述の例では、訳語変更を希望する原単語がprocessであり、(誤った訳語(旧訳語)が「進行」であり、)新たに希望する訳語(新訳語)が「プロセス」である。
【0018】ステップ1Bでは、図1の翻訳情報テーブルにおける原単語が検索される。翻訳情報テーブルの原単語欄の値(文字列)が、ユーザが指定した原単語文字列(この例では、process)と一致するレコードを求める。求めたレコードの文番号欄の値から、その原単語を含む文番号がわかる。例では、結果として、10番目の文に、processが含まれていることがわかる。
【0019】ステップ1Cは、訳文における訳語文字列の検索と置換である。訳文記憶手段3の10番目のレコードであるところの10番目の訳文「進行は、システムコールを実行する。」にアクセスし、編集手段4によって、その中に含まれる訳語文字列「進行」を求め、その文字列を、ユーザから得た新訳語「プロセス」に置換する。本実施例では、結果として、「プロセスは、システムコールを実行する。」を、新たな訳文として得る。
【0020】本実施例では、20番目の文に、「仕事は計画通り進行しています。」という「進行」という訳語を含む訳文が存在するにもかかわらず、その訳文に対する原文内での原単語を考慮したロジックとなっているため、この訳文は、編集の対象外となり、エディタによる単純な文字列ベースの検索・置換に見られる誤った置換(副作用)は、抑制できる。
【0021】次に、本発明の機械翻訳装置の他の実施例について説明する。図3は、本発明の他の実施例の機械翻訳装置の機能ブロック図である。1の「原文記憶手段」、2の「翻訳手段」、5の「ユーザインタフェース」の役割は、前述の実施例と同様である。7は、翻訳結果記憶手段であり、後で述べるように、テキストデータとして、翻訳結果の訳文と、その訳文を構成する各単語の訳語情報を持っている。8は、訳文文字列生成手段であり、翻訳結果記憶手段7から、訳文文字列のみを生成する。9は、翻訳結果記憶手段7の訳語に関する情報を更新する翻訳結果修正手段である。
【0022】この翻訳情報の記憶方法(データ表現)の表現は、訳文文字列中において、単語単位で、対応する原単語を併記するというものであり、具体的には、以下の通りである。
【0023】翻訳対象原文として、「You like a car.」という英文が、その翻訳結果として、「貴方は自動車が好きです。」という訳文があったとする。従来的な方法や前述の実施例では、これらの原文と訳文は、たとえばファイルにより、また、たとえば、奇数行と偶数行といった方法で、論理的に分離されており、翻訳情報は、これらの原文,訳文データとは、明らかに別の表現手段(テーブル)等により、維持されている。
【0024】本実施例では、上記翻訳結果(訳文テキスト)中に、語単位の対訳情報を、「{貴方[you]}は{自動車[car]}が好きです。」といった形式で保存する。ここで、{,{,[,]等の記号は、特に、これに限ったものではない。当然、訳文には現われないと確信できる符号が使われる。
【0025】以下、このデータに対する訳語修正手続きを、図5のフローチャートによって説明する。
【0026】あらかじめ、ユーザにより指定された原単語とその新訳語は、それぞれ、「car」と「車」であったとする。したがって、訳文テキスト中の[]内の文字列とcarを比較する。一致する文字列が[]内に見つかった場合には、[]の直前の文字列({XXX[car]}のXXXの部分)を、「車」に置き換えることになる。
【0027】まず、ステップ2Aにおいて、翻訳結果記憶手段9から、1文を取り出す。その1文が、「{私[I]}は{飛行機[airplane]}が好きです。」であったとする。
【0028】ステップ2Bにおいて、原単語carで検索する。該当なしであるから、残りの翻訳結果の有無を調べる。残り2文あるとする。したがって、もう一度、ステップ2Aにおいて、翻訳結果記憶手段9から、1文を取り出す。
【0029】次は、「{貴方[you]}は{自動車[car]}が好きです。」再び、ステップ2Bにおいて、原単語carで検索する。今度は、{自動車[car]}が見つかる。そこで、ステップ2Cにおいて、「自動車」を「車」に置き換える。
【0030】その結果、「{貴方[you]}は{車[car]}が好きです。」が得られる。再度、ステップ2Bにおいて、同一文の翻訳結果中において、原単語carが検索される。もはや、この文の翻訳結果には、原単語としてcarは含まれていないので、次の文の翻訳結果を取り出す。もちろん、この段階で、残りの翻訳結果がなければ、この検索・置換処理は終了する。
【0031】最後に、さらに、ステップ2Aにおいて、翻訳結果記憶手段9から、1文を取り出す。次は、「{彼[he]}は{黒い[black]}{自動車[car]}と{白い[white]}{自動車[car]}が好きです。」であるとする。最初に、ステップ2Bとステップ2Cによって、「黒い自動車」は「黒い車」に置き換えられる。再び、ステップ2Bにおいて、「白い自動車」に対応する{自動車[car]}が見つかるので、この部分を対象として、ステップ2Cで、{車[car]}に置き換える。この結果、「{彼[he]}は{黒い[black]}{車[car]}と{白い[white]}{車[car]}が好きです。」という翻訳結果に更新される。訳文文字列生成手段8は、この翻訳結果に対して、記号{と}、及び[]部分を取り除くことにより、「彼は黒い車と白い車が好きです。」という訳文テキストを得る。
【0032】
【発明の効果】本発明においては、機械翻訳の結果として得られた訳文における不適切な訳語を、効率的に修正できる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013