米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> ヤマハ株式会社

発明の名称 話者認識方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−10995(P2007−10995A)
公開日 平成19年1月18日(2007.1.18)
出願番号 特願2005−191892(P2005−191892)
出願日 平成17年6月30日(2005.6.30)
代理人 【識別番号】100098084
【弁理士】
【氏名又は名称】川▲崎▼ 研二
発明者 川▲原▼ 毅彦
要約 課題
登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる。

解決手段
登録者は、登録者の識別子を入力した後、所定の文言を複数回発音する。
特許請求の範囲
【請求項1】
音声の特徴量を記憶した記憶部に記憶されている特徴量であって入力された識別子に対応付けて前記記憶部に記憶されている特徴量と、入力された音声の特徴量との距離が予め定められた閾値以下である場合に、入力された音声の発音者が登録者であると認識する話者認識方法であって、
発音者を一意に識別する識別子が入力される識別子入力ステップと、
発音者の音声が複数回入力される音声入力ステップと、
前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、
前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、
前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、
前記平均特徴量算出ステップによって求められた平均値を、前記識別子入力ステップにて入力された識別子と対応付けて前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップと
を有する話者認識方法。
【請求項2】
前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量毎に、前記複数特徴量記憶ステップによって共に記憶された他の複数特徴量の平均値との距離を求め、求めた距離の最大値を閾値とする閾値算出ステップを有し、
前記特徴量記憶ステップは、前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて前記記憶部に記憶させること
を特徴とする請求項1に記載の話者認識方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声によって個人を認識する技術に関する。
【背景技術】
【0002】
個人の特徴を利用して個人の認識を行う技術の中には、音声により個人を認識する技術がある(例えば、特許文献1、非特許文献1参照)。音声を用いて個人認識を行う場合、まず、個人の音声からケプストラム等の特徴量を抽出して登録する。そして、認識を行う場合には、登録されている音声の特徴量と、話者が発した音声の特徴量との類似度を求め、この類似度がある閾値よりも高いか低いかを見ることにより、音声を発した話者が登録されている人物であるか否かを判定する。
【特許文献1】特開平9−127973号公報
【非特許文献1】松井知子、「HMMによる話者認識」、信学技法、社団法人電子情報通信学会、平成8年1月、p17−24
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、人間が音声を発する際には、同じ言葉を複数回発しても違いが生じることがあるため、話者の音声から特徴量を抽出して登録する際には、話者の平均的な特徴量とは異なる特徴量が登録されてしまう虞がある。このように話者の平均的な特徴量とは異なる特徴量が登録されてしまうと、登録されている個人が音声を発しても登録されている人物であると認識されなくなる可能性が高くなり、正確に個人を認識することができなくなってしまう。
【0004】
本発明は、上述した背景の下になされたものであり、登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述した課題を解決するために本発明は、音声の特徴量を記憶した記憶部に記憶されている特徴量であって入力された識別子に対応付けて前記記憶部に記憶されている特徴量と、入力された音声の特徴量との距離が予め定められた閾値以下である場合に、入力された音声の発音者が登録者であると認識する話者認識方法であって、発音者を一意に識別する識別子が入力される識別子入力ステップと、発音者の音声が複数回入力される音声入力ステップと、前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、前記平均特徴量算出ステップによって求められた平均値を、前記識別子入力ステップにて入力された識別子と対応付けて前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップとを有する話者認識方法を提供する。
【0006】
本発明においては、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量毎に、前記複数特徴量記憶ステップによって共に記憶された他の複数特徴量の平均値との距離を求め、求めた距離の最大値を閾値とする閾値算出ステップを設け、前記特徴量記憶ステップは、前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて前記記憶部に記憶させるようにしてもよい。
【発明の効果】
【0007】
本発明によれば、登録者の音声の本来の特徴が記憶され、この記憶された特徴量で話者の認識を行うので認識誤りが発生する虞が低減する。
【発明を実施するための最良の形態】
【0008】
以下、図面を参照して本発明の実施形態について説明する。
[実施形態の構成]
図1は、本実施形態に係る音声照合装置の要部のハードウェア構成を示したブロック図である。図1に示したように、音声照合装置の各部は、バス101に接続されており、このバス101を介して各部間でデータの授受を行う。
【0009】
音声入力部106は、マイクロホン(図示略)を備えており、マイクロホンに入力された音声を表す音声データを生成する。表示部108は、例えば、液晶ディスプレイ装置等の表示装置を具備しており、CPU102の制御の下、文字やグラフィック等の各種表示を行う。情報入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
【0010】
記憶部105は、データを永続的に記憶する装置として、例えばハードディスク装置(図示略)を具備しており、このハードディスク装置においては、各種データを記憶する領域として、バッファ領域A1と、登録領域A2とが設けられている。バッファ領域A1は、CPU102が各種処理を行う際に使用するデータの一時的な記憶領域として使用される。また、登録領域A2は、CPU102が話者を認識する処理を行う際に使用するデータを記憶する領域として使用される。図2は、登録領域A2に記憶される登録テーブルTB1のフォーマットを例示した図である。この登録テーブルTB1は、「識別子」というフィールドと、「閾値」というフィールドと、「特徴量」というフィールドとを有している。これらのフィールドにおいて、「特徴量」フィールドには音声の特徴量を表すデータが格納され、また、「識別子」フィールドには、個人を一意に識別する識別子が格納される。また、「閾値」フィールドには、話者が予め登録されている個人であるか否かを判断する際に用いる閾値が格納される。
【0011】
ROM103は制御プログラムを記憶している。そしてCPU102はROM103に記憶されている制御プログラムに従って各部を制御する。図3は、CPU102が行う処理について、その機能構成を示した機能ブロック図である。CPU102が制御プログラムを実行することにより、図3に示した各部が実現する。
【0012】
ここで、図3に示した各機能ブロックについて説明する。情報入力部107には、話者を一意に識別する識別子が入力される。この入力された識別子は、話者が登録されている個人であるか否かを判断する時(以下、照合時と称する)には情報取得部50へ送られ、話者の音声の特徴量を登録する時(以下、登録時の称する)には、情報作成部40へ送られる。
【0013】
音声入力部106に入力された音声は、音声データに変換されて発話区間抽出部10へ送られる。発話区間抽出部10は、音声データを受取ると話者の音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去し音声データを生成して特徴量抽出部20へ送る。なお、後述するように、登録時にはユーザは同じ単語を複数回発音するが、一回の発音毎に単語の発話区間が抽出され、音声データが特徴量抽出部20へ送られる。
【0014】
特徴量抽出部20は、送られた音声データが示す音声から音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する。なお、特徴量の種類については、ケプストラムが良く知られているが、ケプストラムに限定されるものではなく、ケプストラム以外の他の特徴量であってもよい。なお、特徴量抽出部20で生成された特徴量データVは、登録時には発音毎に記憶部105のバッファ領域A1に記憶され、照合時には特徴量比較部60へ送られる。
【0015】
発話選択部30は、話者の平均的な特徴量を得られるようにするために、バッファ領域A1に記憶された特徴量データVの中で他の特徴量データとの距離が大きい特徴量データを消去する。
情報作成部40は、バッファ領域A1に記憶された特徴量データVを平均化した平均特徴量データVAを求めると共に、照合時に用いられる閾値tを求める。そして、情報入力部107から送られた識別子と、平均特徴量データVAと、求めた閾値tとを対応付けて登録テーブルTB1に格納する。
【0016】
情報取得部50は、情報入力部107から識別子が送られると、送られた識別子に対応付けられて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出し、読み出した閾値tと平均特徴量データVAとを特徴量比較部60へ送る。
特徴量比較部60は、特徴量抽出部20から送られる特徴量データVが示す特徴量と、情報取得部50から送られた平均特徴量データVAが示す特徴量との距離を求め、この距離が情報取得部50から送られた閾値tよりも大きいか小さいかを見ることにより、話者が登録されている個人であるか否かを判定する。そして、特徴量比較部60は、比較結果を示す結果データを表示部108へ送る。表示部108では、送られた結果データが示す結果に基づいて、話者が登録されている個人であるか否かを表示する。
【0017】
[実施形態の動作]
次に本実施形態の動作について説明する。なお以下の説明においては、まず登録時の動作について説明し、次に照合時の動作について説明する。
【0018】
[登録時の動作]
まず、音声の特徴量を登録しようとする者(以下、登録者と称する)は、情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「登録ボタン」をクリックする操作を行う。登録ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図4:ステップS10)。この後、登録者を一意に識別する識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS11;YES)、登録者が所定の言葉を発音した回数を示すカウンタnが初期化(n=0)される(ステップS12)。そして、所定の言葉(例えば、登録者の氏名等)を発音するように要求する画面(図10参照)が表示され(ステップS13)、入力された識別子がRAM104に記憶される。
【0019】
図10に例示した画面が表示された後、登録者は所定の言葉を発音する。登録者が発した音声が音声入力部106に入力されると、入力された音声の音声データが音声入力部106から出力される。CPU102は、音声データが出力されると(ステップS14;YES)、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS15)。そしてCPU102は、ステップS15で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS16)。次にCPU102は、カウンタnの値に1を加え(ステップS17)、生成した特徴量データVを記憶部105のバッファ領域A1に記憶する(ステップS18)。なお、バッファ領域A1に特徴量データVを記憶する際には、図11に例示したように、配列V[n](nはカウンタnの値)に記憶する。
【0020】
CPU102は、特徴量データVをバッファ領域A1に記憶させると、登録者が所定の言葉を所定回数(所定値N回)発音したか否かを判断する(ステップS19)。CPU102は、カウンタnの値が所定値Nであるか否かを判断し、カウンタnの値が所定値N未満である場合には(ステップS19;NO)、図10の画面における「登録完了までに行う発音の回数」の部分の数値を所定値N−カウンタnの値に変更して表示し、所定の言葉の発音を要求する。一方、カウンタnの値が所定値Nとなった場合には(ステップS19;YES)、次の処理を行う。
【0021】
次にCPU102は、記憶された特徴量データVが示す特徴量毎に他の各特徴量データが示す特徴量との距離を求め、求めた距離の平均値を求める処理を行う。まずCPU102は、カウンタiの値を初期化(i=1)し(図5:ステップS20)、距離D[i]の値を初期化(D[i]=0)する(ステップS21)。次にCPU102は、カウンタjの値を初期化し(j=1)(ステップS22)、特徴量データV[i]が示す特徴量(iはカウンタiの値)と特徴量データV[j]が示す特徴量(jはカウンタjの値)との距離を求め、求めた距離を距離D[i]に格納されている値に加算する(ステップS23)。
CPU102はステップS23の処理が終了すると、カウンタjの値を1増加させ(ステップS24)、カウンタjの値が所定値Nとなったか否かを判断する(ステップS25)。CPU102は、カウンタjの値が所定値Nとなっていない場合には(ステップS25;NO)、カウンタjの値が所定値NとなるまでステップS23,ステップS24の処理を繰り返す。一方、カウンタjの値が所定値Nとなった場合には(ステップS25;YES)、距離D[i]の値をバッファ領域A1に記憶された特徴量データの数である前記所定値Nで除算し、特徴量データV[i]が示す特徴量と他の特徴量データが示す特徴量との距離の平均値を求め、求めた値を距離D[i]に格納する(ステップS26)。
【0022】
CPU102は、ステップS26の処理が終了すると、カウンタiの値を1増加させ(ステップS27)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS28)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS28;NO)、カウンタiの値が所定値NとなるまでステップS21〜ステップS27の処理を繰り返す。
【0023】
一方、カウンタiの値が所定値となった場合には(ステップS28;YES)、まずCPU102は、カウンタiの値を初期化(i=1)する(図6:ステップS29)。そして、CPU102はステップS21〜ステップS28の処理で求めた距離の平均値D[i]と、距離の限界閾値Tとを比較する(ステップS30)。ここで、限界閾値Tは予め定められた固定値である。
CPU102は、距離の平均値D[i]が限界閾値T未満である場合には(ステップS30:NO)、ステップS33へ処理を進める。一方、CPU102は、距離の平均値D[i]が限界閾値T以上の場合には(ステップS30;YES)、バッファ領域A1から特徴量データV[i]を消去する(ステップS31)。
【0024】
次にCPU102は、ステップS13〜ステップS19の処理によって値がNとなったカウンタnから1を減算し、減算結果をカウンタnの値とする(ステップS32)。そしてCPU102は、カウンタiの値を1増加させ(ステップS33)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS34)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS34;NO)、カウンタiの値が所定値NとなるまでステップS30〜ステップS33の処理を繰り返す。
【0025】
一方、カウンタiの値が所定値Nとなった場合には(ステップS34;YES)、カウンタnの値が所定値Nと同じであるか判断する(ステップS35)。ここで、CPU102は、カウンタnの値が所定値Nと同じでない場合には(ステップS30〜ステップS34の処理において、バッファ領域A1に記憶された特徴量データVを消去した場合)、図12に例示したように、バッファ領域A1に記憶された特徴量データの並べ替えを行った後(ステップS36)、ステップS13へ処理の流れを戻す。
【0026】
一方、CPU102は、カウンタnの値が所定値Nと同じである場合には(ステップS35;YES)、閾値tの値を初期化(t=0)し(図7:ステップS37)、カウンタiの値を初期化(i=1)する(ステップS38)。次にCPU102は、特徴量データV[i]以外の特徴量データを平均化したデータVaを求める(ステップS39)。そして、特徴量データV[i]が示す特徴量と、データVaが示す特徴量の距離D[i]を求め(ステップS40)、求めた距離D[i]が閾値tより大きいか判断する(ステップS41)。
ここで、CPU102は、閾値tの値が距離D[i]の値未満である場合には(ステップS41;YES)、閾値t=距離D[i]とする(ステップS42)。一方、CPU102は、閾値tの値が距離D[i]の値以上である場合には(ステップS41;NO)、ステップS43へ処理を進める。
【0027】
次にCPU102は、カウンタiの値を1増加させ(ステップS43)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS44)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS44;NO)、カウンタiの値が所定値となるまでステップS39〜ステップS43の処理を繰り返す。一方、カウンタiの値が所定値Nである場合には(ステップS44;YES)、CPU102は、バッファ領域A1に記憶されている特徴量データVの平均値である平均特徴量データVAを求める(ステップS45)。そして、情報入力部107から入力された識別子と、ステップS45で求めた平均特徴量データVAと、ステップS38〜ステップS44の処理で求めた閾値tとを対応付けて登録テーブルTB1に格納する(ステップS46)。なお、CPU102は、閾値tと平均特徴量データVAとを格納する際、情報入力部107から入力された識別子が既に登録テーブルTB1にある場合には、既に格納されている識別子に対応付けて格納されている閾値tと平均特徴量データVAとを新たに求めた閾値tと平均特徴量データVAとに更新し、情報入力部107から入力された識別子が登録テーブルTB1に格納されていない場合には、入力された識別子と閾値tおよび平均特徴量データVAとを新たに登録テーブルTB1に格納する。
【0028】
以上説明したように本実施形態によれば、登録者の音声の平均的な特徴量が登録者の音声の特徴量として記憶される。また、話者が予め登録されている個人であるか否かを判断する際に用いる閾値は、登録者の音声の特徴量を基にして登録者毎に求められる。
【0029】
[照合時の動作]
次に照合時の動作について説明する。まず、話者は情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「話者判定ボタン」をクリックする操作を行う。話者判定ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図13:ステップS50)。この後、話者により識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS51)、入力された識別子がRAM104に記憶される。
【0030】
この後、CPU102は、RAM104に記憶された識別子を登録テーブルTB1において検索する(ステップS52)。ここで、RAM104に記憶された識別子と同じ識別子が見つからなかった場合には(ステップS53;NO)、CPU102は、識別子が登録されていない旨のメッセージを表示部108に表示させて(ステップS54)処理を終了する。一方、CPU102は、RAM104に記憶された識別子と同じ識別子を見つけた場合には(ステップS53;YES)、検索した識別子に対応付けて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出す(ステップS55)。そして、所定の言葉(例えば、登録者の氏名等)の発音を要求する画面を表示し(ステップS56)、音声が入力されるのを待つ(ステップS57)。
【0031】
この後、話者が所定の言葉を発音し、話者が発した音声が音声入力部106に入力されると(ステップS57;YES)、入力された音声の音声データが音声入力部106から出力される。CPU102は、この音声データのうち、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS58)。そしてCPU102は、ステップS58で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS59)。
【0032】
次にCPU102は、特徴量データVが表す特徴量と平均特徴量データVAが表す特徴量との距離を求める(ステップS60)。そして、求めた距離が登録テーブルTB1から読み出した閾値t以下である場合(特徴量データVと平均特徴量データVAの距離が近い場合)には(ステップS61;YES)、CPU102は話者が登録者であると判断し、判断結果を表示部108に表示させる(ステップS62)。一方、求めた距離が登録テーブルTB1から読み出した閾値tより大きい場合(特徴量データVと平均特徴量データVAの距離が遠い場合)には(ステップS61;NO)、CPU102は話者が登録者ではないと判断し、判断結果を表示部108に表示させる(ステップS63)。
【0033】
以上説明したように本実施形態によれば、記憶されている登録者の音声の平均的な特徴量を基にし、登録者固有の閾値を用いて話者の認識が行われるので、登録されている個人が発音した際に、登録されている人物ではないと判断される可能性が低くなる。
【0034】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
【0035】
パーソナルコンピュータ装置にマイクロホンを接続し、上述したプログラムをパーソナルコンピュータ装置において実行することにより、パーソナルコンピュータ装置で話者の認識を行うようにしてもよい。また、パーソナルコンピュータ装置だけではなく、マイクロホンを備えたPDA(Personal Digital Assistance)や携帯電話機等において上述したプログラムを実行させ、話者の認識を行うようにしてもよい。
【0036】
上述した実施形態においては、閾値tは音声の特徴量のみから算出しているが、音声照合装置の使用環境やマイクロホンの性能に合わせて閾値tに所定の定数を加算するようにしてもよい。
また、上述した実施形態において音声照合装置は、閾値tを算出せず平均特徴量データVAのみを算出するようにしてもよい。この場合には、閾値tは情報入力部107から入力するようにしてもよい。
また、上述した実施形態においては、ステップS35の処理を行わず、ステップS34の後、ステップS37の処理を実行するようにしてもよい。
【図面の簡単な説明】
【0037】
【図1】本発明の実施形態に係る音声照合装置のハードウェア構成を示したブロック図である。
【図2】登録テーブルTB1のフォーマットを例示した図である。
【図3】CPU102が行う処理についての機能構成を示した機能ブロック図である。
【図4】登録時にCPU102が行う処理の流れを示したフローチャートである。
【図5】登録時にCPU102が行う処理の流れを示したフローチャートである。
【図6】登録時にCPU102が行う処理の流れを示したフローチャートである。
【図7】登録時にCPU102が行う処理の流れを示したフローチャートである。
【図8】表示部108に表示される画面を例示した図である。
【図9】表示部108に表示される画面を例示した図である。
【図10】表示部108に表示される画面を例示した図である。
【図11】バッファ領域に記憶されるデータのイメージを例示した図である。
【図12】バッファ領域に記憶されたデータの並べ替えを説明するための図である。
【図13】照合時にCPU102が行う処理の流れを示すフローチャートである。
【符号の説明】
【0038】
10・・・発話区間抽出部、20・・・特徴量抽出部、30・・・発話選択部、40・・・情報作成部、50・・・情報取得部、60・・・特徴量比較部、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・音声入力部、107・・・情報入力部、108・・・表示部。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013