米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 日本放送協会

発明の名称 音声認識装置及び音声認識プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−233149(P2007−233149A)
公開日 平成19年9月13日(2007.9.13)
出願番号 特願2006−56235(P2006−56235)
出願日 平成18年3月2日(2006.3.2)
代理人 【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
発明者 今井 亨 / 佐藤 庄衛
要約 課題
高精度に音声認識を実現する。

解決手段
入力音声から音響的特徴の異なる1又は複数の話者クラスタによる音声認識を行う音声認識装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定手段と、予め設定される前記話者クラスタの音響モデル及び言語モデルから生成された正解単語探索用の探索ネットワークと、前記入力音声に対する前記話者クラスタ属性の制約情報とに基づいて、連続音声認識を行う連続音声認識手段とを有することにより、上記課題を解決する。
特許請求の範囲
【請求項1】
入力音声から音響的特徴の異なる1又は複数の話者クラスタによる音声認識を行う音声認識装置において、
前記入力音声を音響特徴量に変換する音響分析手段と、
前記音響分析手段により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定手段と、
予め設定される前記話者クラスタの音響モデル及び言語モデルから生成された正解単語探索用の探索ネットワークと、前記入力音声に対する前記話者クラスタ属性の制約情報とに基づいて、連続音声認識を行う連続音声認識手段とを有することを特徴とする音声認識装置。
【請求項2】
音声の音響的特徴を表現する1又は複数の話者クラスタからなる音響モデルと、予め設定された単語間の遷移を表現する言語モデルとを有し、
前記話者クラスタの音響モデルを、前記言語モデル及び予め話者クラスタ毎に設定された単語辞書にしたがって探索ネットワークへ展開するネットワーク展開手段を有することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記ネットワーク展開手段は、
発話始端の認識開始状態から全ての話者クラスタの単語辞書始端への遷移、同じ話者クラスタの単語辞書間で言語モデルにしたがった遷移、話者クラスタ属性の変化に応じて各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移、発話終端で各話者クラスタの単語辞書終端から認識終了状態への遷移、及び次の発話のために認識終了状態から認識開始状態への遷移のうち、少なくとも1つの遷移を可能とする探索ネットワークを構成することを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記話者クラスタ属性同定手段は、
前記入力音声に対して話者クラスタが変化した時刻情報及び/又は変化後の話者クラスタの属性情報を出力することを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。
【請求項5】
前記連続音声認識手段は、
前記話者クラスタ属性が変化した場合に、前記探索ネットワークにおける変化前の話者クラスタの単語辞書終端から変化後の話者クラスタの単語辞書始端への遷移を可能にすると共に、変化前の話者クラスタの単語辞書を継続して探索対象とすることを特徴とする請求項2乃至4の何れか1項に記載の音声認識装置。
【請求項6】
入力音声から音響的特徴の異なる1又は複数の話者クラスタによる音声認識を行う音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、
前記入力音声を音響特徴量に変換する音響分析処理と、
前記音響分析処理により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定処理と、
予め設定される前記話者クラスタの音響モデル及び言語モデルから生成された正解単語探索用の探索ネットワークと、前記入力音声に対する前記話者クラスタ属性の制約情報とに基づいて、連続音声認識を行う連続音声認識処理とをコンピュータに実行させるための音声認識プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識プログラムに係り、特に高精度な音声認識を実現するための音声認識装置及び音声認識プログラムに関する。
【背景技術】
【0002】
放送番組の字幕制作やメタデータ制作等に用いられる音声認識では、男女の話者が混在した音声の認識性能の向上が重要である。
【0003】
そこで、従来より音響的特徴の異なる複数の話者クラスタの音声認識には、性別等に依存しない唯一の音響モデルを利用した手法や、連続音声認識の前処理で性別等の話者クラスタ属性を予め決定しておく手法が知られている(例えば、特許文献1、非特許文献1参照。)。また、別の手法としては、男女等の複数の話者クラスタの音響モデルを単語辞書上で並列に動作させるが1発話内での異なる話者クラスタの単語辞書間の遷移を許さない手法が知られている(例えば、特許文献2参照、非特許文献2参照。)。
【特許文献1】特開2003−99083号公報
【非特許文献1】F.Kubala,et al.,”The 1996 BBN Byblos HUB−4 Transcription System”,DARPA Speech Recognition Workshop,pp.90−93,1997.
【特許文献2】特開2005−345772号公報
【非特許文献2】山本博史他、「日英音声翻訳システム「ATR−MATRIX」における音声認識部分の構造と制御方法」、日本音響学会講演論文集、2−Q−21、pp.161−162、1998.3.
【発明の開示】
【発明が解決しようとする課題】
【0004】
上述した従来の音声認識手法のうち、性別等に依存しない唯一の音響モデルを利用した手法の場合、学習音声の全ての話者クラスタを無視してグローバルな唯一の音響モデルを予め学習しておき、この音響モデルのみを用いて音声認識を行うため、認識時には話者クラスタを考慮する必要がなく非常に簡易に実現可能である。しかしながら、性別依存音響モデル等の話者クラスタを考慮した場合に比べて、一般に認識率が低いため実用上問題がある。
【0005】
また、上述した連続音声認識の前処理で性別等の話者クラスタ属性を予め決定しておく手法の場合、話者クラスタ全体の音響的特徴を表現する音響モデルの尤度比較による手法や、複数の話者クラスタの音響モデルを用いた音素認識による手法がある。
【0006】
ここで、前者の場合には、各発話の冒頭のスピーチ区間で話者クラスタ属性を決定するが、1発話内にわたってその話者クラスタ属性を仮定するため、1発話中に男女の音声が混在し易い対談等の音声や、背景雑音等の影響によって誤った話者クラスタ属性を仮定してしまった場合には認識率が低下してしまう。
【0007】
また、後者の場合、1発話の入力音声の全てが得られた後に最終的な音素認識結果及び話者クラスタ属性が決定されるため、話し始めてから即座に音声認識に取り掛かることができず、生放送番組の字幕制作等、オンライン処理且つ少ない時間遅れが要求されるアプリケーションでは実用上問題がある。
【0008】
更に、上述した男女等の複数の話者クラスタの音響モデルを単語辞書上で並列に動作させるが1発話内での異なる話者クラスタの単語辞書間の遷移を許さない手法の場合、複数の話者クラスタの可能性が考慮されているのは各発話の冒頭だけであり、音声認識処理が進むにつれて入力音声にマッチしない話者クラスタは次第に探索対象から除外されていくため、1発話中に男女の音声が混合し易い対談等の音声では認識率が低下してしまう問題がある。
【0009】
本発明は、上述した問題点に鑑みなされたものであり、高精度に音声認識を実現するための音声認識装置及び音声認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【0011】
請求項1に記載された発明は、入力音声から音響的特徴の異なる1又は複数の話者クラスタによる音声認識を行う音声認識装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定手段と、予め設定される前記話者クラスタの音響モデル及び言語モデルから生成された正解単語探索用の探索ネットワークと、前記入力音声に対する前記話者クラスタ属性の制約情報とに基づいて、連続音声認識を行う連続音声認識手段とを有することを特徴とする。
【0012】
請求項1記載の発明によれば、高精度に音声認識を実現することができる。
【0013】
請求項2に記載された発明は、音声の音響的特徴を表現する1又は複数の話者クラスタからなる音響モデルと、予め設定された単語間の遷移を表現する言語モデルとを有し、前記話者クラスタの音響モデルを、前記言語モデル及び予め話者クラスタ毎に設定された単語辞書にしたがって探索ネットワークへ展開するネットワーク展開手段を有することを特徴とする。
【0014】
請求項2記載の発明によれば、入力音声の内容に対応させて高精度な探索ネットワークを生成することができる。また、この探索ネットワークを用いて入力音声に対して高精度に音声認識を実現することができる。
【0015】
請求項3に記載された発明は、前記ネットワーク展開手段は、発話始端の認識開始状態から全ての話者クラスタの単語辞書始端への遷移、同じ話者クラスタの単語辞書間で言語モデルにしたがった遷移、話者クラスタ属性の変化に応じて各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移、発話終端で各話者クラスタの単語辞書終端から認識終了状態への遷移、及び次の発話のために認識終了状態から認識開始状態への遷移のうち、少なくとも1つの遷移を可能とする探索ネットワークを構成することを特徴とする。
【0016】
請求項3記載の発明によれば、それぞれの状態遷移を行うことにより、探索ネットワークの高精度化を図ることができる。
【0017】
請求項4に記載された発明は、前記話者クラスタ属性同定手段は、前記入力音声に対して話者クラスタが変化した時刻情報及び/又は変化後の話者クラスタの属性情報を出力することを特徴とする。
【0018】
請求項4記載の発明によれば、連続音声認識をする前段階で話者クラスタの変化部分を把握することができるため、より高精度に音声認識を実行することができる。
【0019】
請求項5に記載された発明は、前記連続音声認識手段は、前記話者クラスタ属性が変化した場合に、前記探索ネットワークにおける変化前の話者クラスタの単語辞書終端から変化後の話者クラスタの単語辞書始端への遷移を可能にすると共に、変化前の話者クラスタの単語辞書を継続して探索対象とすることを特徴とする。
【0020】
請求項5記載の発明によれば、音響的特徴の異なる複数の話者クラスタの各音声に対して、高精度に音声認識を行うことができる。これにより、1発話中に複数の話者クラスタの音声が混在した場合でも、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現することができる。
【0021】
請求項6に記載された発明は、入力音声から音響的特徴の異なる1又は複数の話者クラスタによる音声認識を行う音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、前記入力音声を音響特徴量に変換する音響分析処理と、前記音響分析処理により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定処理と、予め設定される前記話者クラスタの音響モデル及び言語モデルから生成された正解単語探索用の探索ネットワークと、前記入力音声に対する前記話者クラスタ属性の制約情報とに基づいて、連続音声認識を行う連続音声認識処理とをコンピュータに実行させる。
【0022】
請求項6記載の発明によれば、高精度に音声認識を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に音声認識処理を実現することができる。
【発明の効果】
【0023】
本発明によれば、高精度に音声認識を実現することができる。
【発明を実施するための最良の形態】
【0024】
<本発明の概要>
本発明は、1又は複数の話者クラスタの音響モデルを利用しつつ、1発話中での複数の話者クラスタの単語間の遷移を可能とし、例えば1発話中に男女の音声が混在し易い対談等の音声においても、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現するものである。
【0025】
具体的には、男性と女性、高齢者と成人と子供等、複数の話者クラスタの音響モデルを言語モデル及び単語辞書にしたがって並列に探索ネットワークを展開する。また、例えば入力音声の話者クラスタ属性が甲から乙に変化した時に、探索ネットワークにおける話者クラスタ甲の単語辞書終端から話者クラスタ乙の単語辞書始端への遷移を可能にすると共に、話者クラスタ甲の単語辞書を継続して探索対象とすることにより、1発話中に混在する複数の話者クラスタの柔軟な並列音声認識を実現する。
【0026】
以下に、上記のような特徴を有する本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
【0027】
<音声認識装置:装置構成>
図1は、本発明における音声認識装置の一構成例を示す図である。図1に示す音声認識装置10は、ネットワーク展開手段11と、音響分析手段12と、話者クラスタ属性同定手段13と、連続音声認識手段14とを有するよう構成されている。
【0028】
ネットワーク展開手段11は、1又は複数の話者クラスタの音響モデル21と、言語モデル22とを利用して、各話者クラスタの単語辞書による探索ネットワーク23を展開し、展開した探索ネットワーク23を連続音声認識手段14に出力する。
【0029】
ここで、話者クラスタの音響モデル21は、例えば話者クラスタ数を2(A,B)とした場合、話者クラスタAを男性、話者クラスタBを女性、あるいは話者クラスタAを成人、話者クラスタBを子供、あるいは話者クラスタAを広帯域音声、話者クラスタBを狭帯域音声とする等、任意に設定することができる。なお、本発明では、これに限定されず、例えば上述した話者クラスタを組み合わせて3以上の話者クラスタ数にしてもよく、また単数であってもよい。
【0030】
また、音響モデルの単位は、音素、音節、環境依存、環境非依存等、任意に設定することができ、例えば隠れマルコフモデルに代表される確率統計モデル(例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、1988)等を利用することができる。また、言語モデル22は、例えば単語単位のN−gramモデル等を任意に設定することができる。なお、ネットワーク展開手段11における探索ネットワーク23についての詳細は後述する。
【0031】
音響分析手段12は、音声認識対象となる入力音声24を音響特徴量25に変換し、変換した音響特徴量25を話者クラスタ属性同定手段13及び連続音声認識手段14に出力する。ここで、音響特徴量25は、各話者クラスタの音響モデル21を学習するために使用した音響特徴量と同じ構成とし、例えば周波数特性を表すケプストラム、短時間パワー、それらの動的特徴量等とすることができる。
【0032】
また、話者クラスタ属性同定手段13は、オンライン且つリアルタイムで入力音声における時刻情報等に基づく各区間に対する話者クラスタの属性を求める。また、話者クラスタ属性同定手段13は、入力音声24に対して話者クラスタが変化した時刻情報及び/又は変化後の話者クラスタの属性情報等の話者クラスタの変化情報を話者クラスタ属性26として連続音声認識手段14に出力する。これにより、連続音声認識をする前段階で話者クラスタの変化部分を把握することができるため、より高精度に音声認識を実行することができる。なお、話者クラスタ属性同定手段13における話者クラスタの属性同定手法についての詳細は後述する。
【0033】
連続音声認識手段14は、探索ネットワーク23、音響特徴量25、及び話者クラスタ属性26を入力し、探索ネットワーク23上の各単語の音素等にリンクした音響モデルにより、音響特徴量25に対する尤度を逐次算出する。
【0034】
なお、連続音声認識手段14は、探索ネットワーク23において言語モデル22にしたがった遷移である場合は、言語的なスコア付けも行って入力音声24の発話内容に最も適した単語の文字列を音声認識結果27として出力する。
【0035】
ここで、連続音声認識手段14は、発話始端において、全ての話者クラスタの単語辞書の全ての単語始端で尤度の算出を開始する。このとき、連続音声認識手段14は、より多くの入力音声に対して尤度計算が進むと、入力音声にマッチしない話者クラスタの単語の音響モデルの尤度が低くなるため、次第に探索対象から除外していく。
【0036】
ただし、連続音声認識手段14は、話者クラスタ属性26により1発話内で話者クラスタに変化が生じたことを認識すると、その変化した異なる話者クラスタの単語辞書の始端への遷移を許すと共に、探索対象に残っている話者クラスタの探索経路も全て保持する。したがって、1発話内の複数の話者クラスタの音声認識を高精度に実現することができる。
【0037】
つまり、本発明では、話者クラスタ属性26で話者クラスタの属性が指定されている場合、その指定された単語辞書だけを残して他の話者クラスタの探索を中止するのではなく、可能性のある新たな話者クラスタと、すでに探索中の話者クラスタ両方との単語辞書を探索対象とする。そのため、計算量の増加を抑えつつ、1発話中での複数の話者クラスタの混在の可能性を話者クラスタ同定よりも詳細な連続音声認識で考慮することができる。
【0038】
上述した音声認識装置10の構成により、複数の話者クラスタの高精度な音響モデルを利用しつつ、1発話中での複数の話者クラスタの単語間の遷移を可能とし、1発話中に男女の音声が混在しやすい対談等の音声においても、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現することができる。
【0039】
なお、上述した音声認識装置10では、ネットワーク展開手段11により話者クラスタの音響モデル21と言語モデル22とから探索ネットワーク23を展開していたが、本発明においてはこの限りではなく、例えば予め展開された探索ネットワーク23を連続音声認識手段14や他の蓄積手段(図示せず)に蓄積しておいてもよい。
【0040】
<探索ネットワーク23>
ここで、ネットワーク展開手段11における探索ネットワーク23の展開内容について説明する。図2は、話者クラスタ数が2の場合の探索ネットワークの一例を示す図である。また、図3は、各話者クラスタの単語辞書の内部構造の一例を示す図である。
【0041】
ネットワーク展開手段11から出力される探索ネットワーク23は、例えば図2に示すように認識開始状態31と、話者クラスタAの音響モデルにリンクした単語辞書32と、話者クラスタBの音響モデルにリンクした単語辞書33と、認識終了状態34とを有するよう構成することができる。
【0042】
ここで、使用する単語辞書は、例えば認識語彙の全ての単語について音素等の発音記号を展開したネットワークであり、連続音声認識時の正解単語探索には、各音素が対応する音響モデルによって、入力音声の音響特徴量に対する尤度計算が行われる。
【0043】
また、単語辞書は、各単語の先頭部分の音素を共有する木構造辞書や、各単語の音素が単語毎に独立した線形辞書で構成することができる。例えば、木構造辞書の場合の単語辞書は、図3に示すように、各単語の音素単位の発音記号を木構造でネットワーク上に展開(例えば、単語「赤(/a/k/a/)」と単語「秋(/a/k/i/)」とは音素/a/と/k/を共有)し、それぞれの音素は対応する音響モデルにリンクしている。
【0044】
認識開始状態31から全ての話者クラスタ32、33の全ての単語の先頭音素へは、発話始端の認識開始直後に制約なしで遷移することができる(図2に示す矢印*1)。また、話者クラスタAの単語辞書32の終端からは、後続の単語を認識するために同じ話者クラスタAの単語辞書32の始端へ言語モデル22にしたがって遷移することができる(図2に示す矢印*2)。
【0045】
また、話者クラスタAの単語辞書32の終端からは、話者クラスタ属性の変化にしたがって異なる話者クラスタBの単語辞書33の始端へ遷移することができる(図2に示す矢印*3)。
【0046】
また同様にして、話者クラスタBの単語辞書33の終端からは、後続の単語を認識するために同じ話者クラスタBの単語辞書33の始端へ言語モデル22にしたがって遷移することができる(図2に示す矢印*2)。また、話者クラスタBの単語辞書33の終端からは、話者クラスタ属性の変化にしたがって、異なる話者クラスタAの単語辞書32の始端へ遷移することができる(図2に示す矢印*3)。
【0047】
また、発話終端では、各話者クラスタの単語辞書32、33の終端から認識終了状態34へ遷移することができる(図2に示す矢印*4)。更に、認識終了状態34からは、次の発話を認識するために認識開始状態31へ遷移することができる(図2に示す矢印*5)。なお、上述した発話の始端と終端とは、累積音素尤度を利用して迅速且つ高精度に検出することができる。
【0048】
このように、ネットワーク展開手段11は、上述したように発話始端の認識開始状態から全ての話者クラスタの単語辞書始端への遷移、同じ話者クラスタの単語辞書間で言語モデルにしたがった遷移、話者クラスタ属性の変化に応じて各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移、発話終端で各話者クラスタの単語辞書終端から認識終了状態への遷移、及び次の発話のために認識終了状態から認識開始状態への遷移のうち、少なくとも1つの遷移を可能とする探索ネットワークを構成することで、それぞれの状態遷移を行って探索ネットワークの高精度化を図り、この探索ネットワーク23を用いて高精度な音声認識を実現することができる。
【0049】
<話者クラスタの属性同定手法>
次に、話者クラスタ属性同定手段13における話者クラスタ属性同定手法について説明する。話者クラスタ属性同定手法としては、例えば話者クラスタ数が2(男性、女性)とした場合、逐次確定処理(例えば、特開2001−92496号公報)により、男性、女性の音素認識を並列して行い確定したお互いの結果(スコア)から良い方の音声認識結果を出力する男女並列音素認識等の手法により、少ない遅れ時間で複数話者クラスタのサブワードレベル(例えば、音素、音節、トライフォン等)の音声認識を行い、入力音声のどこからどこまでがどの話者クラスタに属するのかを同定することができる。
【0050】
また、男女間遷移が可能で枝刈り共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者クラスタ属性を同定する手法がある。ここで、上述の内容について図を用いて説明する。なお、以下の例では、クラスタ属性の一例として男女並列の性別依存音響モデルによる音素認識を利用し、入力音声からの時間遅れの少ない発話区間検出を実行する例を示す。
【0051】
<発話区間検出>
図4は、男女並列音素認識のネットワークの一例を示す図である。図4に示すように、男女間遷移が可能で枝刈り共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出する。
【0052】
具体的には、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境非依存音響モデルと、同様に学習した女性の音響モデルから、音素バイグラムを利用して、図4に示すような音素ネットワークを構成する。ここで、性別g∈{0(男性),1(女性)}毎の非音声モデルをsilとし、それ以外の音素モデルをphg,iとする。
【0053】
ここで、発話の始端検出開始時刻τから現時刻tまでの入力音声の特徴ベクトル列をxτとし、最尤音素列及び始端の非音声モデルの累積音素対数尤度をそれぞれ以下に示す(1)、(2)式で表す。
【0054】
【数1】


ここで、発話始端では最尤音素列の累積尤度の対数値Lと、始端の非スピーチ音響モデルの累積尤度の対数値Lとの差が一定の閾値θstartを超えた時、すなわち(L−L)>θstartとなる時、最尤音素列始端の非音声モデルの終端から一定の時間長tstart遡った時刻を発話始端とする。
【0055】
なお、発話始端を検出するまでの長い非音声を吸収するため、始端検出条件が時間長tidle継続して満たされなかった場合、音素認識をリセットし、始端検出開始時刻τを更新する。また、音素認識中は、男女の音素モデル間の遷移を許可し、そのときのペナルティ(重み)を累積音素対数尤度に加える。
【0056】
次に、終端の非音声モデルと最尤音素列の累積音素対数尤度を、それぞれ以下に示す(3)、(4)式で表す。
【0057】
【数2】


このとき、終端が非スピーチ音響モデルとなる最尤音素列のうち、最大の累積尤度の対数値Lと、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値Lとの差が一定の閾値θendを越えた状態で、更に時間長tend1を継続して超えた場合、すなわちtend1継続して(L−L)>θendが一定の時間長tend1継続して満たされた場合、現時刻tから時間長tend2(tend2<tend1)遡った時刻を発話終端とする。
【0058】
これにより、発話始端及び発話終端の時刻及び/又はその区間のクラスタ属性を検出することができる。なお、上述したtstart及びtend2は、0以上で任意に設定することができる。もちろん、この他にも音声パワーを用いた手法等の発話区間検出手法を用いることができる。
【0059】
このようにして得られた発話始端及び発話終端の時刻情報や属性情報に基づいて、音響特徴量25に対する上述した話者クラスタ属性26を同定することができる。ここで、図5は、話者クラスタ属性の一例を示す図である。
【0060】
例えば、図5に示すように話者クラスタ属性は、入力音声の音響特徴量Xの列X,…,Xに対して、話者クラスタが男性と女性の場合、XからXまでは男性、Xt+1からXまでは女性、Xk+1からXまでは男性といった話者クラスタの属性情報や各音響特徴量における時間情報により構成される。
【0061】
なお、上述した話者クラスタ属性は、本発明においては男性、女性に限定されず、例えば高齢者と成人と子供とを属性分けしてもよく、これらを男性と女性とで組み合わせて、詳細な属性分けを行ってもよい。
【0062】
これにより、複数の話者クラスタの高精度な音響モデルを利用しつつ、1発話中での複数の話者クラスタの単語間の遷移を可能とし、1発話中に男女の音声が混在しやすい対談等の音声においても、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現することができる。
【0063】
<実行プログラム>
ここで、上述した音声認識装置10は、上述した専用の装置構成等を用いて本発明における音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラム(音声認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る音声認識処理を実現することができる。
【0064】
<ハードウェア構成>
ここで、本発明における音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図6は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
【0065】
図6におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、メモリ装置45と、各種制御を行うCPU(Central Processing Unit)46と、ネットワーク接続装置47とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
【0066】
入力装置41は、ユーザが操作するキーボード及びマウス等のポインティングデバイス及び音声入力デバイスを有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置42は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、CPU46が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。
【0067】
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。
【0068】
また、ドライブ装置43は、本発明に係る実行プログラムを記録媒体48に記録することができる。これにより、その記録媒体48を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に音声認識処理を実現することができる。
【0069】
補助記憶装置44は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置44は、上述した話者クラスタの音響モデル21や言語モデル22、探索ネットワーク23、入力音声24、音響特徴量25、話者クラスタ属性26、及び音声認識結果27等を蓄積する蓄積手段として用いることもできる。
【0070】
CPU46は、OS(Operating System)等の制御プログラム、及び補助記憶装置44から読み出されメモリ装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、音声認識処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また格納することもできる。
【0071】
ネットワーク接続装置47は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。
【0072】
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した音声認識処理を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。
【0073】
<音声認識処理手順>
次に、本発明における実行プログラム(音声認識プログラム)を用いた音声認識処理手順についてフローチャートを用いて説明する。図7は、音声認識処理手順の一例を示すフローチャートである。
【0074】
図7において、まずプログラム開始直後に複数の話者クラスタの音響モデルと言語モデルを利用して、探索ネットワークを展開する(S01)。なお、ここまでの処理は、前処理として予め処理されていてもよい。
【0075】
次に、音声入力があるか否かを判断し(S02)、音声が入力された場合(S02において、YES)、1フレーム分の音響特徴量の算出に必要な例えば25ミリ秒程度の短い区間の音声をデジタル入力し(S03)、音響分析を行う(S04)。次に、入力音声の各区間の話者クラスタ属性を同定する(S05)。
【0076】
ここで、S05により同定した話者クラスタ属性において、属性に変化があったか否かを判断し(S06)、属性変化があった場合(S06において、YES)、変化した異なる他の話者クラスタの単語辞書への遷移を許可する(S07)。また、属性変化がなかった場合(S06において、NO)、又はS07の処理が終了後、探索ネットワーク上の各単語の音響モデルで尤度を逐次算出する(S08)。なお、S08の処理においては、言語モデルによるスコアも加味して尤度を算出する。
【0077】
ここで、音声認識処理を終了するか否かを判断し(S09)、終了しない場合(S09のおいて、NO)、S02に戻り、以後同様の処理を継続し連続した音声認識処理を実行する。また、S02の処理において、音声入力がない場合(S02において、NO)、つまり発話終了である場合、又はS09の処理において、音声認識処理を終了する場合(S09においてYES)、認識結果の単語列を出力し(S10)、処理を終了する。もちろん、上述した逐次確定処理により、発話終了前に、認識の途中結果の単語列を逐次出力することも可能である。
【0078】
上述したように、音声認識プログラムを用いた音声認識処理により、迅速且つ高精度に音声認識を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。
【0079】
<音声認識結果の比較例>
ここで、従来手法と本発明手法とにおける音声認識結果の比較例について説明する。一例として男女の音声が混在するニュース番組の対談等の音声認識を行った結果、従来手法である性別に依存しない唯一の音響モデルを利用した場合の単語誤認識率は12.2%(入力音声の時間長に対する認識処理時間の比=認識処理実時間比0.81倍)であった。また、男女別々の音響モデルを並列に動作させると、1発話中の男女の単語間の遷移を許さなかった場合の単語誤認識率は11.9%(認識処理実時間比0.93倍)、同様にして男女の単語間の遷移を制約なしで常に許す場合の単語誤認識率は11.3%(認識処理実時間比1.28倍)であった。
【0080】
これに対し、本発明である男女の単語間の遷移を性別属性の制約にしたがって許可/不許可の設定をした場合の単語誤認識率は11.1%であり、認識処理実時間比は0.93倍にまで改善し、特に認識率と処理時間において本発明の効果が示された。
【0081】
すなわち、男女音声の認識では、性別非依存の音響モデルよりも性別依存音響モデルを男女並列に動作させ、発話中の男女間遷移を許可する方が誤認識率は低く、更に音素認識による性別属性の制約により誤認識率と認識時間が改善した。
【0082】
上述したように本発明によれば、高精度に音声認識を実現することができる。具体的には、本発明は、複数の話者クラスタの音響モデルを言語モデル及び単語辞書にしたがって並列に探索ネットワークへ展開し、入力音声の話者クラスタ属性の制約を利用して、1発話中での異なる話者クラスタの単語間の遷移を可能とすることにより、1発話中に複数の話者クラスタの音声が混在した場合でも、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現することができる。
【0083】
これにより、例えば男性と女性、高齢者と成人と子供等、話者の声の音響的特徴が複数想定され、予め話者の声の音響的特徴を限定することのできない状況や、複数の音響的特徴の音声が1発話中に混在する状況、あるいは生放送番組の字幕制作等のオンライン処理且つ少ない時間遅れが要求される音声認識で、本発明を適用することができる。
【0084】
また、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。
【0085】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【図面の簡単な説明】
【0086】
【図1】本発明における音声認識装置の一構成例を示す図である。
【図2】話者クラスタ数が2の場合の探索ネットワークの一例を示す図である。
【図3】各話者クラスタの単語辞書の内部構造の一例を示す図である。
【図4】男女並列音素認識のネットワークの一例を示す図である。
【図5】話者クラスタ属性の一例を示す図である。
【図6】本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
【図7】音声認識処理手順の一例を示すフローチャートである。
【符号の説明】
【0087】
10 音声認識装置
11 ネットワーク展開手段
12 音響分析手段
13 話者クラスタ属性同定手段
14 連続音声認識手段
21 音響モデル
22 言語モデル
23 探索ネットワーク
24 入力音声
25 音響特徴量
26 話者クラスタ属性
27 音声認識結果
31 認識開始状態
32、33 単語辞書
34 認識終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013