Warning: fopen(data/log202007070146.log): failed to open stream: No space left on device in /home/jp321/public_html/header.php on line 106

Warning: flock() expects parameter 1 to be resource, boolean given in /home/jp321/public_html/header.php on line 107

Warning: fclose() expects parameter 1 to be resource, boolean given in /home/jp321/public_html/header.php on line 112
隠蔽文章抽出方法及び装置 - 独立行政法人通信総合研究所
米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 計算機;電気通信 -> 独立行政法人通信総合研究所

発明の名称 隠蔽文章抽出方法及び装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2003−141106(P2003−141106A)
公開日 平成15年5月16日(2003.5.16)
出願番号 特願2001−335566(P2001−335566)
出願日 平成13年10月31日(2001.10.31)
代理人 【識別番号】100090893
【弁理士】
【氏名又は名称】渡邊 敏
【テーマコード(参考)】
5B009
【Fターム(参考)】
5B009 TB13 
発明者 滝澤 修 / 山村 明弘
要約 課題
暗号として一般的に用いられる自然言語のテキストを、埋め込んだ複数のテキストから簡便に復号することのできる隠蔽文章抽出方法及び装置を提供すること。

解決手段
複数のテキスト3をテキスト入力部4から装置1内に入力し、CPU5によって各テキストから1文字ずつ取り出し文字組を構成する。文字組に含まれる文字列で外部記憶装置7に記録される形態素データテーブル9のデータと一致するものを抽出し、配列する。このときできた文字組配列テーブルで2文字以上の形態素が連続して配列された部分を秘密テキスト2としてCRT8から出力する。
特許請求の範囲
【請求項1】複数の異なるテキストを入力し、該テキストを複数組み合わせることにより有意な1つ以上の秘密テキストを抽出する隠蔽文章抽出方法であって、複数のテキストを順次又は並行して入力するテキスト入力ステップ、複数のテキストから少なくとも各1文字を抽出し、それらを組み合わせる文字組作成ステップ、該文字組作成ステップによる文字組が、1つ以上の文字から構成される文字単位のデータベース情報である文字単位テーブルに記載された文字組と一致するか否かを判定する文字単位一致性判定ステップ、一致性判定によって一致した文字単位を順次配列し、文字単位配列テーブルを作成する文字単位配列ステップ、該文字単位配列テーブルから、2文字以上の文字から構成される文字単位が所定の閾値以上の割合で出現する場合に、該出現箇所及びその近傍を秘密テキストとして抽出する秘密テキスト抽出ステップの各ステップを有することを特徴とする隠蔽文章抽出方法。
【請求項2】前記文字組作成ステップにおいて、複数のテキストから、各テキストにおける所定の行位置・列位置・文字順位・文字列順位の少なくともいずれかにおいて同一な1文字をそれぞれ抽出する請求項1に記載の隠蔽文章抽出方法。
【請求項3】前記文字単位が、形態素である請求項1又は2に記載の隠蔽文章抽出方法。
【請求項4】前記文字単位テーブルが形態素のデータベース情報を含むと共に、各形態素につき品詞情報を備える構成であって、前記秘密テキスト抽出ステップにおいて、2文字以上の文字から構成される形態素が2個以上連続して出現する一方、該出現箇所及びその近傍の各形態素の品詞関係が、文法上不自然でない場合のみ秘密テキストとして抽出する請求項3に記載の隠蔽文章抽出方法。
【請求項5】複数の異なるテキストを入力し、該テキストを複数組み合わせることにより有意な1つ以上の秘密テキストを抽出する隠蔽文章抽出装置であって、複数のテキストを順次又は並行して入力するテキスト入力手段と、複数のテキストから少なくとも各1文字を抽出し、それらを組み合わせる文字組作成手段と、1つ以上の文字から構成される文字単位のデータベース情報である文字単位テーブルと、該文字単位テーブルが含むいずれかの文字単位が、前記文字組作成手段によって作成された文字組と一致するか否かを判定する文字単位一致性判定手段と、一致性判定によって一致した文字単位を順次配列し、文字単位配列テーブルを作成する文字単位配列手段と、該文字単位配列テーブルから、2文字以上の文字から構成される文字単位が所定の閾値以上の割合で出現する場合に、該出現箇所及びその近傍を秘密テキストとして抽出する秘密テキスト抽出手段とを備えることを特徴とする隠蔽文章抽出装置。
【請求項6】前記文字組作成手段において、複数のテキストから、各テキストにおける所定の行位置・列位置・文字順位・文字列順位の少なくともいずれかにおいて同一な1文字をそれぞれ抽出する請求項5に記載の隠蔽文章抽出装置。
【請求項7】前記文字単位が、形態素である請求項5又は6に記載の隠蔽文章抽出装置。
【請求項8】前記文字単位テーブルが形態素のデータベース情報を含むと共に、各形態素につき品詞情報を備える構成において、前記秘密テキスト抽出手段が、2文字以上の文字から構成される形態素が2個以上連続して出現する一方、該出現箇所及びその近傍の各形態素の品詞関係が、文法上不自然でない場合のみ秘密テキストとして抽出する請求項7に記載の隠蔽文章抽出装置。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、情報を隠蔽した対象から該情報を抽出する装置に係るものである。より詳しくは、有意な文章を分散して隠蔽した複数のテキストを複合的に処理し、当該秘密テキストを抽出する隠蔽文章抽出装置の発明に関する。
【0002】
【従来の技術】複数のメンバーが分散して保有する情報を合わせた場合にのみ秘密情報を復号できる秘密分散法は、メンバーが合意、集合した時に初めて秘密情報へのアクセスが可能となるので、秘密の保持に有効な手法である。秘密分散法の従来の実施形態としては、計算機を使わずに人間の視認によって復号可能な暗号として視覚復号型秘密分散法があり、その研究・実用化が進められている。
【0003】例えば、「視覚復号型秘密分散法の拡張構成方式」(参考文献1)によれば、複数の画像を一組のスライド内に隠す方式を開示し、重ね合わせるスライドの枚数によって異なった画像の再現を実現している。また、特開2001−274971号公報は、様々な情報を複数分散して記録し、それを容易に再生することも可能な画像生成システム等を開示している。該システムは、埋め込むべき埋込画像と、カラー又は濃淡のある被埋込画像とを入力し、埋込画像を分散させたシェアパターンを生成して被埋込画像に埋め込み、シェア画像を生成するシステムである。埋込画像はシェア画像を重ね合わせることによって視覚的に認知することができる。
【0004】
【参考文献1】 「視覚復号型秘密分散法の拡張構成方式」、加藤 拓・今井秀樹:電子情報通信学会論文誌 A Vol.J79-A No.8 pp.1344-1351、1996年8月【0005】このように秘密分散法を利用する産業上の方法としては従来視覚的に復号するものが主であり、秘密分散法を自然言語のテキストに適用し、有意な秘密テキストを復号する方法・装置は提供されていなかった。
【0006】
【発明が解決しようとする課題】本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、その目的は、暗号として一般的に用いられる自然言語のテキストを、埋め込んだ複数のテキストから簡便に復号することのできる隠蔽文章抽出方法及び装置を提供することである。
【0007】
【課題を解決するための手段】本発明は、上記の課題を解決するために、次のような隠蔽文章抽出方法を創出する。すなわち、複数の異なるテキストを入力し、該テキストを複数組み合わせることにより有意な1つ以上の秘密テキストを抽出する隠蔽文章抽出方法を提供する。そして、本方法は次の各ステップを有する。
(1) 複数のテキストを順次又は並行して入力するテキスト入力ステップ。
(2) 複数のテキストから少なくとも各1文字を抽出し、それらを組み合わせる文字組作成ステップ。
(3) 該文字組作成ステップによる文字組が、1つ以上の文字から構成される文字単位のデータベース情報である文字単位テーブルに記載された文字組と一致するか否かを判定する文字単位一致性判定ステップ。
(4) 一致性判定によって一致した文字単位を順次配列し、文字単位配列テーブルを作成する文字単位配列ステップ。
(5) 該文字単位配列テーブルから、2文字以上の文字から構成される文字単位が所定の閾値以上の割合で出現する場合に、該出現箇所及びその近傍を秘密テキストとして抽出する秘密テキスト抽出ステップ。
【0008】前記文字組作成ステップにおいて、複数のテキストから、各テキストにおける所定の行位置・列位置・文字順位・文字列順位の少なくともいずれかにおいて同一な1文字をそれぞれ抽出する隠蔽文章抽出方法を提供することもできる。
【0009】前記文字単位が、形態素である構成でもよい。さらに、文字単位テーブルが形態素のデータベース情報を含むと共に、各形態素につき品詞情報を備える構成であって、秘密テキスト抽出ステップにおいて、2文字以上の文字から構成される形態素が2個以上連続して出現する一方、該出現箇所及びその近傍の各形態素の品詞関係が、文法上不自然でない場合のみ秘密テキストとして抽出してもよい。
【0010】本発明では、次のような隠蔽文章抽出装置を提供することもできる。該装置には、複数のテキストを順次又は並行して入力するテキスト入力手段を備え、秘密テキストを埋め込んだテキストを装置に入力する。そして、複数のテキストから少なくとも各1文字を抽出し、それらを組み合わせる文字組作成手段によって、複数のテキストにまたがる文字組を作成する。本装置には1つ以上の文字から構成される文字単位のデータベース情報である文字単位テーブルを備え、該文字単位テーブルが含むいずれかの文字単位が、この文字組の含む文字列と一致するか否かを判定する文字単位一致性判定手段によって、文字単位か否か、又はその態様を判断する。
【0011】文字単位配列手段は、一致性判定によって一致した文字単位を順次配列し文字単位配列テーブルを作成する。該文字単位配列テーブルから、2文字以上の文字から構成される文字単位が所定の閾値以上の割合で出現する場合に、該出現箇所及びその近傍を秘密テキストとして抽出する秘密テキスト抽出手段とを備える。
【0012】前記文字組作成手段において、複数のテキストから、各テキストにおける所定の行位置・列位置・文字順位・文字列順位の少なくともいずれかにおいて同一な1文字をそれぞれ抽出する構成でもよい。
【0013】前記文字単位が、形態素であってもよい。この場合、一致性判定においては1文字の形態素と、複数文字の形態素とを区別し、文字組中の1文字と1文字の形態素が一致した場合には一致しなかったものと扱うこともできるし、文字組中の2文字以上の文字が2文字以上からなる形態素と一致する場合には、1文字の一致よりも優先して文字単位配列テーブルに記載してもよい。
【0014】前記文字単位テーブルが形態素のデータベース情報を含むと共に、各形態素につき品詞情報を備える構成において、前記秘密テキスト抽出手段が、2文字以上の文字から構成される形態素が2個以上連続して出現する一方、該出現箇所及びその近傍の各形態素の品詞関係が、文法上不自然でない場合のみ秘密テキストとして抽出する構成でもよい。
【0015】
【発明の実施の形態】以下、本発明の実施方法を図面に示した実施例に基づいて説明する。なお、本発明の実施形態は以下に限定されず、適宜変更可能である。図1は本発明に係る隠蔽文章抽出装置(1)の概要を示す説明図である。あらかじめ任意の方法で秘密テキスト(2)を埋め込まれた複数のテキスト(3)(3)(3)を、本装置のテキスト入力部(4)を介して入力する。テキスト入力部(4)ではスキャナを利用して光学的に入力、文字データ化することもできるし、フロッピー(登録商標)ディスクなどの記録媒体、インターネット等のネットワークからのダウンロード、メール受信等の方法によって本装置(1)内に入力する。
【0016】本発明では複数のテキスト(3)(3)(3)から入力する構成であって、それらは自然言語によるテキストである。そして、予め秘密テキストを共有すべきメンバーに配布されているものとする。テキスト入力部(4)から入力された複数のテキスト(3)(3)(3)は、CPU(5)における演算に用いるためにROM・RAM(6)などのメモリに蓄積されるか、ハードディスク・CD−ROM等の外部記憶装置(7)に記録される。
【0017】CPU(5)は複数のテキスト(3)(3)(3)から、各テキスト毎(3)に1文字を抽出し、ROM・RAM(6)に順次蓄積する。このとき、抽出する順序についてはあらかじめ各テキストの序列を定めておく。例えば、10名のメンバーに10通の文書を配布する場合に、会員番号1の者に1番目の文書、会員番号2の者に2番目の文書を配布することで、テキスト内に明らかな序列情報を含めなくとも、序列を定めることは容易である。
【0018】本実施例では、各テキストの同一位置の文字を順次抽出する場合を示す。すなわち、1番目のテキストの1行1列の文字から、2番目のテキストの1行1列、3番目のテキストの1行1列、と抽出する。そして、最後のテキストの1行1列を抽出した後、再び1番目のテキストの1行2列の文字を抽出する。これを全文書の全文字を抽出するまで繰り返す。これにより、各テキストから順に1文字ずつを抽出した文字組が作成され、該文字組はROM・RAM(6)や、外部記憶装置(7)に格納される。
【0019】ここまでの流れをより具体化するために、実際に10枚のテキストから文字組を作成する過程を次に示す。図2ないし図11は、サンプルとして用いたテキストであり、これには予め秘密テキストが分散的に埋め込まれている。図に明らかなように各テキストはそれぞれ有意な文章であり、研究所報の内容をデータベース化したものから、秘密テキストを埋め込むのに適した10個の文章をコンピュータ処理により選んで作成している。
【0020】ここで、前述した文字の抽出方法に従い、1番目のテキスト(21)の1番目の文字「最」から、2番目のテキスト(22)の「永」、3番目のテキスト(23)の「と」、と順に抽出する。その結果、「最永と皆ここ(**<近年こさのの1**月は・・・」と続く文字組を得る。この抽出を少なくともいずれかのテキストにおいて最後尾の文字を抽出するまで行うと、通常は意味をなさない文字列が作成される。
【0021】本発明による抽出装置は、このように予め抽出方法を定めておき、それに従って抽出する一方、言語内容を解析して有意な情報か否かを判断することができる。ここで秘密テキスト(2)として埋め込まれているのは「盛岡駅前が会場です。」というテキストであり、10個のテキストを列を揃えて記述すると視覚的に図12のように埋め込まれていることが分かる。
【0022】しかしながら、正しい順序で、文字の大きさや改行位置などの表示方法を揃えずに各文書を見渡すと、埋め込まれている秘密テキストは容易に知ることができない。まして、各文書を1枚ずつ受け取ったメンバーは、自分の持つテキストだけで、秘密テキストの内容を知ることは不可能である。この分散的な秘密テキストの埋込方法は、メンバーの大部分が集合して初めて解析される可能性のある手法であり、その秘密保持機能は高い。
【0023】次に、本発明の要部となる各テキストからの秘密テキストの抽出方法について説述する。上記図12で示すように各テキストの書式を揃え、正しい順序で文字の列位置を揃えると初めて秘密テキストが現れるが、通常各テキストを人間が分析しても秘密テキストを抽出することは極めて難しい。特に、これまで述べたような最初の文字からの文字順位に限らず、所定の書式下における行位置・列位置、或いは最初の単語からの単語順位、さらにその組み合わせなどによって埋め込み位置を変化させた場合に、その抽出は人手によっては不可能である。
【0024】本発明では、この抽出をCPU(5)により文字組の含む文字或いは文字列が、外部記憶装置(7)に予め記録される形態素データテーブル(9)のデータと一致するか否かを照合し、一致するものを順にROM・RAM(6)や外部記憶装置(7)に蓄積する。これを文字単位配列テーブルと呼ぶ。照合にはコンピュータ処理における一般的な文字列の比較方法を用いるが、着目文字の前後と組み合わせた時に、形態素データテーブル(9)のデータと一致するかを中心に照合する。
【0025】有意でないテキストの場合、2文字以上の形態素が偶然に現れる確率は低いため、1文字の形態素が連続することが多い。そのため、各文字が形態素であるか否かを照合した場合には多くが1文字ずつの形態素であると判定され、その1文字から成る形態素の配列が蓄積されることになる。文字組の1文字に着目してその前後の文字と組み合わせた文字列が、形態素と一致するか照合し、一致する場合にはさらにその前後の文字と組み合わせてより文字数の多い形態素との一致を照合する。このように照合すると、文字数の多い形態素から優先的に構成され、前後の文字と組み合わせても形態素を構成しない場合にだけ1文字の形態素として文字単位配列テーブルに記録されることになる。
【0026】本実施例では、さらに形態素データテーブル(9)にその形態素の品詞等の情報を含むので、文字単位配列テーブルは図13のように構成される。図13に示される形態素(50)は、10番目のテキスト(30)の107文字目にある「な」(40)から始まり、1番目のテキスト(21)の108文字目「数」(41)と続く。品詞等情報(51)はそれぞれ助動詞、名詞(一般)であることを示す。このように文字単位配列テーブル(9)を構成すると2文字以上の文字で構成される形態素は数が多くなく、偶然「山河」(42)などが現れても、そのあとには「程」(43)と続き、有意なテキストとはならない。
【0027】本発明では、このように配列したときに2文字以上の形態素がある閾値よりも多く出現するのは極めて稀であることに着目し、その例として、2文字以上の形態素が連続した場合に有意なテキストと判断し、抽出する技術を開発した。すなわち、この条件に合致するのは、「盛岡」(44)、「駅前」(45)と続くのが初めてであり、1文字の形態素「が」(46)を挟み、続いて「会場」(47)、「です」(48)と連続する。このことから、「盛岡」(44)から「です」(48)までを有意な秘密テキスト(2)として抽出すればよいことになる。
【0028】上記に加え、形態素は1文字で構成されていても有意なテキストの一部を構成する可能性はあるので、抽出された部分の前後の形態素、「た」や「。」を含めて抽出してもよい。さらにその前後に2文字以上の形態素が存在する場合には、それを含めることもできる。このような形態素データテーブル(9)のデータとの照合には、既存の形態素解析技術を用いることも可能である。
【0029】2文字以上の形態素が連続した場合に抽出する構成は、例えば3連続した場合と変更してもよいし、あるいは所定の形態素の連続パターンに該当するものを抽出する構成にしてもよい。例えば、上記で「です」(48)に続く1文字の形態素「。」(49)は必ず追加して抽出するように構成することもできる。さらに、例えば連続する5形態素のうち、2文字以上で構成される形態素が3個以上の場合に(すなわち3/5を閾値としてそれより多い出現割合の場合に)、有意な秘密テキストとして抽出することもできる。
【0030】さらに、品詞等情報(51)を備えることで、文法的に正しい(自然な)連続を検出し、該当するときに抽出すると、より精度を向上させることができる。例えば、「盛岡」(44)と「駅前」(45)はいずれも名詞で、その連続は自然である。「駅前」(45)−「が」(46)−「会場」(47)と続く名詞−格助詞−名詞の連続も自然である。このように自然な連続の場合には抽出し、自然とは言えない場合には抽出を中止することで、精度の高い秘密テキスト(2)の抽出を実現できる。
【0031】抽出された秘密テキスト(2)はCRT(8)を用いて出力する。これにより予め秘密テキスト(2)を埋め込んだ複数のテキスト(3)(3)(3)から本装置(1)を経て秘密テキスト(2)を出力することが可能となる。出力の形態はCRT(8)による表示に限らず、プリンタによる印字や、ネットワーク上でデータとして復号することもできる。
【0032】本発明においては、必ずしも形態素に限らず、任意の文字単位データテーブルを用いて照合することもできる。例えば、言語的には意味を有しない文字列を備え、それに該当するときのみ抽出することもできる。この場合、該文字単位データテーブルを知らない者は抽出することが全く不可能な上に、人手によっての照合はデータ数が多いと事実上不可能になり、隠蔽性能は高くなる。
【0033】入力するテキスト(3)(3)(3)の数は任意であり、必ずしも秘密テキストが埋め込まれていないテキストを混ぜておいても構わない。例えば「盛岡駅前が会場です。」の場合に、その前後にダミーのテキストを加えておき、より抽出を難しくすることもできる。さらに、埋め込む秘密テキスト(2)は1文でなく、複数を埋め込み、抽出することも同様の構成で可能である。
【0034】
【発明の効果】本発明は、以上の構成を備えるので、次の効果を奏する。すなわち、秘密テキストを複数の文章に隠蔽することで漏洩の危険を分散することが出来る一方、抽出が困難な問題を解決し、正確な秘密テキストの抽出を実現することができる。特に、秘密分散法を自然言語のテキストに適用し、それを自動的に抽出することが可能となるので、秘密分散法によるテキストへの隠蔽方法の普及に寄与する。このように、本発明は、暗号として一般的に用いられる自然言語のテキストを、埋め込んだ複数のテキストから簡便に復号することのできる隠蔽文章抽出方法及び装置を実現するものである。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013