米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> シャープ株式会社

発明の名称 音声認識装置およびプログラム記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−42885(P2001−42885A)
公開日 平成13年2月16日(2001.2.16)
出願番号 特願平11−215138
出願日 平成11年7月29日(1999.7.29)
代理人 【識別番号】100062144
【弁理士】
【氏名又は名称】青山 葆 (外1名)
【テーマコード(参考)】
5D015
【Fターム(参考)】
5D015 AA02 BB01 GG01 GG04 HH11 
発明者 本田 和正 / 鶴田 彰 / 赤羽 俊夫
要約 目的


構成
特許請求の範囲
【請求項1】 少なくとも、音節あるいは音素を含むサブワードを単位として構成された音響モデルを格納する音響モデル格納部と、上記音響モデル格納部に格納された音響モデルを用いて算出した尤度に基づいて入力音声を認識する音声認識部と、特定話者の入力音声に基づいて特定語彙の音響モデルの学習を行って上記音響モデル格納部の内容を更新するモデル学習部を有する音声認識装置において、上記学習が行われた特定語彙の音響モデルで成る語彙モデルを格納する語彙モデル格納部と、上記音声認識部で得られた上位から所定数の認識候補の何れかが上記語彙モデル格納部に格納されている語彙モデルに該当する場合は、上記音響モデル格納部および語彙モデル格納部に基づいて、尤度再計算用モデルを作成するモデル作成部と、上記モデル作成部によって作成された尤度再計算用モデルを用いて、上記語彙モデルに該当する認識候補の尤度を再計算する尤度再計算部を備えたことを特徴とする音声認識装置。
【請求項2】 請求項1に記載の音声認識装置において、上記モデル学習部は、話者および語彙に依存しない汎用の音響モデルに基づく学習対象語彙の各サブワードに関する尤度が、比較語彙の対応するサブワードに関する尤度よりも低くなる場合に、当該汎用の音響モデルのみに対して学習を行うようになっていることを特徴とする音声認識装置。
【請求項3】 請求項1に記載の音声認識装置において、上記モデル学習部は、無音と判断したサブワードに対しては学習を行わないようになっていることを特徴とする音声認識装置。
【請求項4】 請求項1に記載の音声認識装置において、上記モデル作成部は、モデル作成対象認識候補の各サブワードに対応する音響モデルを、上記音響モデル格納部に格納された話者および語彙に依存しない汎用の音響モデルと上記語彙モデル格納部に格納された話者および語彙に依存する語彙モデルとの何れかから順次選択し、この選択された音響モデルを連結することによって上記尤度再計算用モデルを作成するようになっていることを特徴とする音声認識装置。
【請求項5】 請求項4に記載の音声認識装置において、上記モデル作成部は、上記所定数の認識候補のうち上記モデル作成対象認識候補と当該モデル作成対象認識候補を除いて最も尤度の高い認識候補とのサブワードを比較し、同一のサブワードである場合には上記音響モデル格納部に格納された上記汎用の音響モデルから該当する音響モデルを選択する一方、異なるサブワードである場合には上記語彙モデル格納部に格納された語彙モデルから該当する音響モデルを選択するようになっていることを特徴とする音声認識装置。
【請求項6】 コンピュータを、音節あるいは音素を含むサブワードを単位として構成された音響モデルを記憶する音響モデル記憶手段と、上記音響モデルを用いて算出した尤度に基づいて入力音声を認識する音声認識手段と、特定話者の入力音声に基づいて特定語彙の音響モデルの学習を行って上記音響モデル記憶手段による記憶内容を更新するモデル学習手段と、上記学習が行われた特定語彙の音響モデルで成る語彙モデルを記憶する語彙モデル記憶手段と、上記音声認識部で得られた上位から所定数の認識候補の何れかが上記語彙モデルに該当する場合は、上記音響モデル記憶手段によって記憶されている話者および語彙に依存しない汎用の音響モデルと、上記語彙モデル記憶手段によって記憶されている話者および語彙に依存する音響モデルとに基づいて、尤度再計算用モデルを作成するモデル作成手段と、上記モデル作成部によって作成された尤度再計算用モデルを用いて、上記語彙モデルに該当する認識候補の尤度を再計算する尤度再計算手段として機能させる音声認識プログラムを記録したことを特徴とするコンピュータ読み出し可能なプログラム記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】この発明は、人から発声された音声を認識する音声認識装置、および、音声認識処理プログラムが記録されたプログラム記録媒体に関する。
【0002】
【従来の技術】コンピュータを用いた音声認識には隠れマルコフモデル(以下HMMと言う)が広く用いられている。HMMとは、複数個の状態を持つ非決定性確率有限オートマトンであり、非定常信号源を定常信号源の連結で表す統計的信号源モデルとして用いられる。
【0003】図6は、音響モデルとしてのHMMの例である。HMMは、遷移する状態の集まりとして表され、確率としては、状態の遷移の確率を表す遷移確率と、状態が遷移するときに出力される観測ベクトルの確率である出力確率とから成る。上記各状態は、閉鎖,破裂,摩擦および定常母音を含むイベントに対応する。また、上記出力確率は、遷移に伴って出力される信号の揺らぎの確率として定義される。
【0004】ところで、こうした統計的モデルを用いる音声認識装置においては、発声の変動を確率的に標準パターンの中に含めるために、上記音響モデルのパラメータの学習を行う必要がある。パラメータの学習には不特定話者の音声で学習を行う方法があり、広く用いられている。
【0005】しかしながら、不特定話者の音声によってパラメータ学習を行う場合には、話者間の発声の差を含んだままの音響モデルが構築されることになり認識率が劣化する。特に、音素の類似した単語に関しては非常に認識率が低くなってしまう。そこで、このような認識率の劣化を防ぐために音響モデルを、未知話者に適応させる技術がある。
【0006】ここで、上記適応とは、一般に、不特定話者による初期学習に用いるよりも小量の適応用データを用いて、音声認識装置を未知話者に適応させることを意味する。適応には、大きく分けて教師あり話者適応教師無し話者適応とがある。上記教師あり話者適応は、決まった適応用の語彙を発声して学習を行って話者適応を行う方法である。また、教師無し話者適応は、任意の音声から学習を行って話者適応を行う方法である。一般に、教師あり話者適応の方が、効果が高いためによく使用される。以下、従来の教師あり話者適応による音声認識装置について説明する。
【0007】図5は、従来の音声認識装置の一例を示すブロック図である。音声認識装置1に入力された話者の発声は、A/D変換部2に入力されてディジタル化される。このディジタル化された音声波形は音響分析部3に入力されて、20msec〜40msecの比較的短時間の時間窓を掛けると共に、8msec〜16msec毎に上記時間窓をシフトする短時間スペクトル分析の手法によって音響分析が行われる。
【0008】上記時間窓のタイプとしては、方形窓,ハニング窓あるいはハミング窓等が用いられ、通常はハミング窓が良く用いられる。これらの窓によって切り出された音声波形から、切り出された時間長を有するフレームと呼ばれる単位毎の特徴ベクトルの時系列が求められる。特徴ベクトルは、その時刻における音声スペクトルの特微量を抽出したもので、通常10次元〜100次元である。上記HMMを用いた音声認識では、特徴量としてLPC(線形予測)ケプストラム係数が広く用いられている。
【0009】モデル格納部5には、上記HMMが格納されている。尚、上記HMMは認識単位毎に用意される。認識単位としては、音素や単語が広く用いられている。ここでは、認識単位が音素である場合を例に挙げて説明する。例えば100単語の認識候補から1単語の正解を求める場合、認識候補単語の音素列が辞書4に格納されており、全ての音素のHMMがモデル格納部5に記憶されている。そして、モデル作成部9によって、辞書4に格納されている全認識候補単語の音素列に基づいてモデル格納部5から上記音素列を構成する各音素のHMMを読み出して連結し、上記各認識候補単語のHMMを作成する。ここでは、100単語分のHMMを作成することになる。
【0010】音声は、図6における初期状態から最終状態までの状態遷移の間に、HMMから出力されるシンボルの時系列として表される。したがって、上記初期状態の確率をある値に定め、状態遷移毎に、出力確率および遷移確率を掛けることによって、発声がその音響モデル(HMM)から発生される確率を求めることができる。逆に発声を観測した場合、その発声があるHMMから発生されたと仮定するとその発生の確率を計算できることになる。
【0011】上記HMMによる音声認識においては、各認識候補単語に対してHMM列を用意しておき、発声が入力されると、各々のHMM列に基づいて入力発声が発生される確率(生起確率)を求め、最大となるHMM列を発生源と決定し、そのHMM列に対応する認識候補単語をもって認識結果とするのである。
【0012】ここで、上記出力確率には離散確率分布表現と連続確率分布表現とがあるが、ここでは連続確率分布表現を例にとって説明する。この連続確率分布表現においては、混合正規分布、すなわち複数の正規分布を重み付き加算した分布が使用される。また、各正規分布は、特徴ベクトルと同じ次元数を持つ多次元の正規分布である。出力確率,遷移確率および複数の正規分布の重み等のパラメータは、HMMに学習音声を与えることによって、バウム−ウェルチアルゴリズムと呼ばれるアルゴリズムによって不特定話者の音声で予め学習(初期学習)されている。
【0013】認識部6では、上記音響分析部3によって求められた特徴ベクトルの時系列を入力とし、認識対象単語に対応するHMM総てに関してその生起確率を求め、最も高い生起確率を呈するHMM列に対応する単語を認識結果とする。すなわち、t(=1,2,…,I)をフレーム番号として、特徴ベクトルの時系列として表現された入力系列を、 X=xvec1,xvec2,xvec3,…,xvect,…,xvecI …(1)
とする。尚、vectは多次元のベクトルである。以下、ベクトルxをvecと表記する。さらに、モデルMの初期状態の集合をSとし、最終状態の集合をFとする。また、i,jを状態番号として、j番目の状態の遷移系列をj=qoj,q1j,q2j,…,qtj,…,qIj …(2)
と表す。式(2)において、tjは、t番目の入力記号xvectによって遷移した状態を表す。ここで、qoj∈Sであり、qIj∈Fである。さらに、初期状態の初期確率をπi:Σqisπi=1で表し、状態qiから状態qjへの遷移確率をaijとし、そのときにxveciが出力される出力確率をbij(xveci)とすると、入力系列の生起確率(尤度)P(X|M)は、
で表される。式(3)の演算を、モデル作成部9で作成した単語単位でのHMM列の総てに関して行い、最も高い生起確率(尤度)Pを呈するHMM列に対応する認識候補単語を認識結果として、認識結果出力部8に出力するのである。
【0014】上記認識結果出力部8は、認識結果を画面上に出力する。あるいは、認識結果に対応した制御命令を別の装置に送出する。
【0015】以上、上記HMMを用いた音声認識装置1の構成および音声認識方法について説明した。次に、この音声認識装置1に対する話者適応について説明する。ここでは、HMMにおける各状態の出力確率の分布をM個の多次元正規分布の和で表した場合の、教師あり話者適応の一例について説明する。
【0016】上記HMMの話者適応時には、通常、出力確率分布の平均ベクトルのみを学習する。これは、出力確率分布の平均ベクトルが最も認識性能に影響があると考えられるからである。
【0017】以下、上記モデル格納部5に格納されているHMMを話者適応させる場合について説明する。最初に、認識時と同様に、A/D変換部2および音響分析部3によって、話者適応単語の音声波形からフレーム毎の特徴ベクトルの時系列が得られる。教師あり話者適応の場合には正解の音素列(入力音素列)は分かっているので、辞書4から読み出した正解単語の音素列に基づいてモデル作成部9で適応単語のHMM列を作成する。次に、モデル学習部7によって、以下に詳述するようなHMMのパラメータの更新を行う。ここでは、HMMの出力確率分布の平均ベクトルのみを更新する。
【0018】ここで、α(i,t)を、xvectを出力とし且つ状態qiに在る確率と定義する。また、β(i,t)を、状態qiに在ってxvectを出力してから{xvec(t+1),xvec(t+2),…,xvecI}を出力する確率であると定義する。このとき、γ(i,j,t)を、xvectを出力して状態qiから状態qjへ遷移する確率であるとすると、γ(i,j,t)は γ(i,j,t)={α(i,t-1)ijij(xvect)β(j,t)}/P(xvec|M) …(4)
で表される。尚、上記モデルのパラメータθは、θ={aij,bij(xvect),πi}である。
【0019】いま、出力確率の分布はM個の多次元正規分布で表されているので、
で表される。ここで、
である。この場合、出力確率分布のm番目の多次元正規分布の平均ベクトルの適応後の値をμvecijmとすると
である。但し、 γ(i,j,t,m)=α(i,t-1)ijλijmijm(xvect)β(j,t) …(9)上記の適応によるパラメータの更新は1発声ごとには行わない。適応のための発声がN回あったとすると、
のようにして更新する。パラメータμvecijmの更新を行ったHMMはモデル格納部5に格納される。
【0020】以上、上記話者適応におけるHMMの学習について説明した。HMMの話者適応に関しては、特開平6−12093号公報に開示されているように、複数のHMMの情報を用いて、話者適応に用いる発声の誤認識率が最小になるように話者適応する方法等がある。
【0021】上記の説明は、認識単位が音素の場合の例である。認識単位を音素としたHMMを用いた場合には、適応した音素については高い尤度を出力するようになる。ところが、適応しなかった音素については尤度が変わらないために、適応されていない音素が発声された場合でも適応した音素の尤度の方が高くなってしまうことがある。認識単位を単語とした場合にも同様の問題がある。つまり、適応した単語については高い尤度を出力するが、適応していない単語が発声された場合でも適応した単語の尤度の方が高くなってしまうことがある。
【0022】このように、未知話者の音声データを用いて上記HMMの適応を行った場合には、話者適応時の学習データに出現しなかった、あるいは、小量しか出現しなかった音素や単語の適応をどのようにするかという問題がある。
【0023】上述した特開平6−12093号公報においては、話者適応していない音素や単語を認識する事については考慮されてはいない。この問題に関して、音素の類似度や音素間距離を利用してモデルパラメータを内挿する適応手法もよく利用されている。しかしながら、適応されなかった音素に関しては適応前より尤度が低くなってしまうという悪影響が出る場合もある。さらに、これらの適応手法においては、音素の類似した単語に関しては認識率の改善があまりみられない。
【0024】また、特開平7―261787号公報に開示されているように、複数のHMMを重み付けして連結することによって認識精度を向上させるという手法や、特開平8−110791号公報に開示されているように、精度の低いHMMと高いHMMとの複数のHMMを用いて、精度は劣るが計算量の少ないHMMで尤度計算をし、認識結果の上位候補に関して精度の高いHMMで更に尤度を計算して認識精度を向上させる手法が存在する。しかしながら、これらの手法は既に話者適応されたHMMを用いるもので、HMMの話者適応そのものに関しては考えられていない。
【0025】さらに、特開平9−171393号公報に開示されているように、補助HMMと認識対象単語毎に有しているHMMとの両方のHMMを用いて尤度計算をする手法もある。ところが、この手法においては、認識結果が曖昧である場合に話者適応済のHMMを使用するので、上記の問題は全く解決されない。また、語頭や語尾のみ異なる単語には効果があるが、それ以外の音素が類似した単語も数多くあるので有効な手法であるとは言えない。
【0026】
【発明が解決しようとする課題】ところで、上記従来の音声認識装置においては、上述したごとく、不特定話者の音声でパラメータ学習(初期学習)を行ったHMMでは認識率が低いという問題がある。また、それを補うために未知話者に適応させた場合には、適応した音素や単語には高い尤度を出力できるのではあるが、適応した音素や単語が他の適応していない音素や単語の発声に悪影響を与える場合があるという問題がある。また、類似した単語の認識率も向上しないという問題がある。
【0027】以下、上述の問題点について具体例を挙げて説明する。ここで、100単語程度の認識対象単語の中から1つの正解単語を求めるものとする。その場合、辞書には認識対象単語の音素列が記憶されており、その中には認識対象単語まつだますだとの音素列も含まれているとする。尚、認識対象単語まつだの音素列を{/m/,/a/,/ts/,/u/,/d/,/a/}で表し、認識対象単語ますだの音素列を{/m/,/a/,/s/,/u/,/d/,/a/}で表す。以下、この単語まつだと単語ますだとを認識する場合を例に挙げる。
【0028】既に、不特定話者によって上記初期学習されているHMMを、上記特開平6−12093号公報等によって新たに単語単位での話者適応(以下、上記初期学習と区別して単語学習と言う)を行っているものとする。このとき、(1) 単語まつだと単語ますだとが共に単語学習されている(2) 単語まつだと単語ますだとのうち、何れか一方のみが単語学習されている(3) 単語まつだと単語ますだとが共に単語学習されていないという3つの場合がある。
【0029】そして、(1)の場合では、単語学習の効果が発揮されて高い認識率で単語まつだと単語ますだを認識できることが期待される。また、(3)の場合では、単語学習は行われていないものの不特定話者によって初期学習されているHMMで認識されるので、単語学習による悪影響が出ることはない。ところが、(2)の場合では、単語学習が行われていない単語が発声されたときに問題が生じることがある。
【0030】すなわち、単語まつだでのみ単語学習されている場合に、[ますだ]という発声があった場合を考える。この2単語は、音素/ts/と音素/s/との部分だけが異なり、他の音素は同じである。仮に発声の単音[s]の部分において、単語学習された単語まつだのHMMを用いて計算した音素/ts/の尤度よりも、未単語学習の単語ますだのHMMを用いて計算した音素/s/の尤度の方が高かったとしても、その他の音素の部分において、単語学習された単語まつだのHMMを用いて計算した尤度が、未単語学習の単語ますだのHMMを用いて計算した尤度よりも高くなってしまうため、尤度の合計で単語まつだの方が上回り、結果的に認識結果をまつだと誤ってしまう場合が生ずる。
【0031】話者適応などの学習においては、大量のデータを用いて学習することが困難であるために、上記のような問題の解決は重要である。そこで、単語学習後のHMMをそのまま使用することをしないで、特開平7−261787号公報のような複数のHMMを重み付けして連結する手法を適応して、単語学習前のHMMと単語学習後のHMMとを重み付けして連結する場合を考える。ところが、その場合には、単語学習前後のHMM間の重みをどのように変化させるかという問題があり、その重みの設定しだいでは認識率が低下する事も考えられる。
【0032】同様に、上記単語学習後のHMMをそのまま使用することをせず、特開平8−110791号公報のように複数のHMMを用いて尤度の計算を複数回行う手法を適応して、単語学習前のHMMを用いて計算した尤度の高い単語の上位候補のみについて単語学習後のHMMを用いて尤度の再計算を行う場合を考える。ところが、その場合には、上記単語まつだと単語ますだとのように非常に類似した単語の場合には、二つの単語とも単語学習前のHMMを用いた尤度計算において上位候補に入ることが多い。したがって、上述の問題は解決しないし、単語学習していない単語について2度目の尤度計算をどのように行うかという問題もある。
【0033】そこで、この発明の目的は、単語を単位としてHMMのパラメータの学習(単語学習)を行う機能を備え、単語学習した単語の発声に対しては高い認識率を与えると共に、単語学習していない単語の発声に対して悪影響を与えず、類似した単語に対する認識率を向上させることができる音声認識装置を提供することにある。
【0034】
【課題を解決するための手段】上記目的を達成するため、第1の発明の音声認識装置は、少なくとも、音節あるいは音素を含むサブワードを単位として構成された音響モデルを格納する音響モデル格納部と,上記音響モデル格納部に格納された音響モデルを用いて算出した尤度に基づいて入力音声を認識する音声認識部と,特定話者の入力音声に基づいて特定語彙の音響モデルの学習を行って上記音響モデル格納部の内容を更新するモデル学習部を有する音声認識装置において、上記学習が行われた特定語彙の音響モデルで成る語彙モデルを格納する語彙モデル格納部と、上記音声認識部で得られた上位から所定数の認識候補の何れかが上記語彙モデル格納部に格納されている語彙モデルに該当する場合は,上記音響モデル格納部および語彙モデル格納部に基づいて,尤度再計算用モデルを作成するモデル作成部と、上記モデル作成部によって作成された尤度再計算用モデルを用いて,上記語彙モデルに該当する認識候補の尤度を再計算する尤度再計算部を備えたことを特徴としている。
【0035】上記構成によれば、上記音声認識部による認識結果における上位認識候補の何れかが、上記語彙モデル格納部に格納されている語彙モデルに該当する場合(つまり、学習済語彙である場合)には、モデル作成部によって、音響モデル格納部および語彙モデル格納部に基づいて、尤度再計算用モデルが作成される。したがって、尤度再計算対象語彙(学習済語彙)における類似語彙とは異なるサブワードでは上記語彙モデル格納部に格納された話者および語彙に依存する音響モデルを選択し、同一のサブワードでは上記音響モデル格納部に格納された話者および語彙に依存しない汎用の音響モデルを選択して上記尤度再計算用モデルを作成することが可能になる。
【0036】したがって、その場合には、尤度再計算部によって上記尤度再計算用モデルを用いて学習済語彙の尤度が再計算されることによって、学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことが防止され、誤認識が防止される。
【0037】また、上記第1の発明の音声認識装置は、上記モデル学習部を、話者および語彙に依存しない汎用の音響モデルに基づく学習対象語彙の各サブワードに関する尤度が、比較語彙の対応するサブワードに関する尤度よりも低くなる場合に、当該汎用の音響モデルのみに対して学習を行うように成すことが望ましい。
【0038】上記構成によれば、学習対象語彙の各サブワードに関する尤度が比較語彙の対応するサブワードに関する尤度よりも低くなる場合に、当該サブワードに関する汎用の音響モデルのみに対して学習が行われる。したがって、上記比較語彙を、上記学習対象語彙とは異なる語彙で最も尤度の高い類似語彙とすれば、上記類似語彙よりも尤度が高いサブワードに関する汎用の音響モデルはそのまま維持されるため、学習済語彙における類似語彙よりも尤度が高いサブワードに関する音響モデルが、当該類似語彙の認識時に与える悪影響が防止される。
【0039】また、上記第1の発明の音声認識装置は、上記モデル学習部を、無音と判断したサブワードに対しては学習を行わないように成すことが望ましい。
【0040】上記構成によれば、無音と判断されたサブワードに対する学習は行われない。したがって、無音であるサブワードに関する音響モデルが、学習されていない語彙の認識時に与える悪影響が防止される。
【0041】また、上記第1の発明の音声認識装置は、上記モデル作成部を、上記音響モデル格納部に格納された話者および語彙に依存しない汎用の音響モデルと上記語彙モデル格納部に格納された話者および語彙に依存する語彙モデルとの何れかからモデル作成対象認識候補の各サブワードに対応する音響モデルを順次選択し、この選択された音響モデルを連結することによって上記尤度再計算用モデルを作成するように成すことが望ましい。
【0042】上記構成によれば、モデル作成対象認識候補の各サブワードに対応する音響モデルは、上記音響モデル格納部に格納された話者および語彙に依存しない汎用の音響モデルと上記語彙モデル格納部に格納された話者および語彙に依存する語彙モデルとの何れかから選択されて連結される。したがって、モデル作成対象語彙における類似語彙とは異なるサブワードでは話者および語彙に依存する音響モデルを選択し、同一のサブワードでは話者および語彙に依存しない汎用の音響モデルを選択して上記尤度再計算用モデルを作成することが可能になる。
【0043】また、上記第1の発明の音声認識装置は、上記モデル作成部を、上記所定数の認識候補のうち上記モデル作成対象認識候補と当該モデル作成対象認識候補を除いて最も尤度の高い認識候補とのサブワードを比較し、同一のサブワードである場合には上記音響モデル格納部に格納された上記汎用の音響モデルから該当する音響モデルを選択する一方、異なるサブワードである場合には上記語彙モデル格納部に格納された語彙モデルから該当する音響モデルを選択するように成すことが望ましい。
【0044】上記構成によれば、上記語彙モデル格納部に格納されている語彙モデルに該当する認識候補(モデル作成対象語彙)における類似語彙とは異なるサブワードでは話者および語彙に依存する音響モデルを選択し、同一のサブワードでは話者および語彙に依存しない汎用の音響モデルを選択して、上記尤度再計算用モデルが作成される。
【0045】したがって、上記尤度再計算用モデルを用いて学習済語彙の尤度を再計算することによって、学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことが防止され、誤認識が防止される。
【0046】第2の発明のプログラム記録媒体は、コンピュータを、音節あるいは音素を含むサブワードを単位として構成された音響モデルを記憶する音響モデル記憶手段と、上記音響モデルを用いて算出した尤度に基づいて入力音声を認識する音声認識手段と、特定話者の入力音声に基づいて特定語彙の音響モデルの学習を行って上記音響モデル記憶手段による記憶内容を更新するモデル学習手段と、上記学習が行われた特定語彙の音響モデルで成る語彙モデルを記憶する語彙モデル記憶手段と、上記音声認識部で得られた上位から所定数の認識候補の何れかが上記語彙モデルに該当する場合は,上記音響モデル記憶手段によって記憶されている話者および語彙に依存しない汎用の音響モデルと,上記語彙モデル記憶手段によって記憶されている話者および語彙に依存する音響モデルとに基づいて,尤度再計算用モデルを作成するモデル作成手段と、上記モデル作成部によって作成された尤度再計算用モデルを用いて,上記語彙モデルに該当する認識候補の尤度を再計算する尤度再計算手段として機能させる音声認識プログラムを記録したことを特徴としている。
【0047】上記構成によれば、上記第1の発明と同様に、尤度再計算対象語彙(学習済語彙)における類似語彙とは異なるサブワードでは上記語彙モデル記憶手段によって記憶されている話者および語彙に依存する音響モデルを選択し、同一のサブワードでは上記音響モデル記憶手段によって記憶されている話者および語彙に依存しない汎用の音響モデルを選択して上記尤度再計算用モデルを作成することが可能になる。
【0048】したがって、その場合には、尤度再計算手段によって上記尤度再計算用モデルを用いた学習済語彙の尤度が再計算されることによって、学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことが防止され、誤認識が防止される。
【0049】
【発明の実施の形態】以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声認識装置におけるブロック図である。この音声認識装置11は、A/D変換部12,音響分析部13,認識部14,辞書15,HMM格納部16,モデル作成部17,モデル学習部18,モデル記憶部19,尤度再計算部20および認識結果出力部21で概略構成される。
【0050】上記A/D変換部12は、マイクロホンを含む音声入力装置を備えて、入力された音声をディジタル値に変換し、ディジタル化された音声信号を音響分析部13に出力する。上記ディジタル化された音声信号は振幅値の時系列である。
【0051】上記音響分析部13は、上記A/D変換部12でディジタル変換された入力信号からフレーム毎に特徴ベクトルを抽出し、入力系列Xを求めて認識部14およびモデル学習部18に出力する。ここで、上記入力系列Xは、t番目のフレームから抽出したパワー,LPCケプストラム係数(1次〜16次),前フレームのパワー,前フレームのLPCケプストラム係数(1次〜16次)の計34の要素からなる特徴ベクトル配列xvectの、全フレームに関する配列であって式(1)で表される。
【0052】上記認識部14は、上記モデル作成部17で作成された単語単位のモデルを用いて、音響分析部13で抽出された特徴ベクトルに基づいて、辞書15に記憶されている各単語の尤度を、図5に示す従来の音声認識装置1における認識部6と同様にして計算する。そして、尤度の高い5単語の音素表記を表す文字列と夫々の単語に関する尤度および特徴ベクトルとを尤度再計算部20に出力する。ここで、辞書15には、認識対象となるべき各単語の音素列が、音素表記としての文字の配列で記憶されている。
【0053】上記HMM格納部16には、上記モデル作成部17で使用される音響モデルが格納されている。ここで、上記音響モデル(以下、単にモデルと言う)としては、予めバウム−ウェルチアルゴリズムによって不特定話者の音声で初期学習された音素を単位とするHMMが用いられる。すなわち、HMM格納部16には、HMMの各状態における遷移確率と出力確率分布が全状態の配列として格納されている。尚、上記遷移確率は、各状態への遷移確率の配列として格納されている。また、上記出力確率は多次元の混合正規分布で表され、多次元正規分布夫々について混合の重みと平均ベクトルと分散ベクトルとの配列として格納されている。上記平均ベクトルと分散ベクトルとは、音響分析部13で求められる入力系列Xにおける各フレーム毎の要素数34と同じ数の要素を有している。
【0054】上記モデル作成部17は、上記認識部14及びモデル学習部18で用いるモデルを、辞書15に格納されている対象単語の音素表記列に基づいて、各対象単語を構成する音素のHMMをHMM格納部16から読み出して連結して作成する。また、尤度再計算部20で用いるモデルを、HMM格納部16とモデル記憶部19とに格納されているHMMから、後に詳述するようにして各音素のHMMを読み出して連結して作成する。
【0055】上記モデル学習部18は、教師単語の音声波形から音響分析部13で抽出された特徴ベクトルを用いて、モデル作成部17で作成された単語学習用モデルに対して単語学習を行う。そして、HMM格納部16にパラメータが更新されたHMMを格納する。尚、上記単語学習の方法は、図5に示す従来の音声認識装置におけるモデル学習部7と同様の方法を用いる。
【0056】上記モデル記憶部19には、上記モデル学習部18で単語学習が行われた学習済モデルが格納される。この学習済モデルの格納は、音素単位ではなく、単語学習が行われた単語に関して各音素の単語学習済HMMを連結したものを格納することによって行われる。ここで、各単語の学習済HMMにおける各状態の記憶構造はHMM格納部16と同じ記憶構造である。さらに、何れの学習済単語のモデルであるかを表すために、学習済単語の文字列も格納される。
【0057】上記尤度再計算部20は、上記認識部14で計算された尤度の高い5単語の中にモデル記憶部19に格納されている学習済モデルに対応する単語(つまり、単語学習した単語)があれば、モデル作成部17で作成されたモデルを受け取り、そのモデルを用いて尤度の再計算を行う。一方、単語学習した単語がなければ、尤度の再計算は行わない。
【0058】上記認識結果出力部21は、上記尤度再計算部20から出力される尤度(再計算尤度を含む)の高い5単語から、尤度の最も高い単語を認識結果として画面に出力する。
【0059】図2は、上記尤度再計算部20によって実行される尤度再計算処理動作のフローチャートである。以下、図2に従って、上記尤度再計算処理について詳細に説明する。ここで、尤度の高い5単語を、尤度の高い順にW1,W2,W3,W4,W5とする。尤度再計算部20に、認識部14から尤度の高い5単語の文字列および尤度が入力されると、尤度再計算処理動作がスタートする。
【0060】ステップS1で、単語の番号を表す変数iがに初期化される。ステップS2で、単語Wiの音素表記(文字列)に基づいて、モデル記憶部19に音素表記が同じ単語学習済モデル(HMM)が格納されているか否かが判別される。その結果、格納されていればステップS3に進む一方、格納されていなければステップS5に進む。
【0061】ステップS3で、単語Wiの音素表記を表す文字列と、単語Wiを除いて最も尤度の高い単語Wmaxの音素表記を表す文字列と、両単語Wi,Wmaxの特徴ベクトルがモデル作成部17に出力される。そうすると。モデル作成部17によって、後に詳述するようにして、尤度再計算に用いるモデルが作成される。尚、この尤度再計算用のモデルは、単語WiのHMMの各状態と音素表記が同じ状態には、単語学習していないHMMを用いて作成したモデルである。ステップS4で、モデル作成部17によって作成されたモデルを用いて尤度の再計算が行われる。尚、尤度の計算方法は上記従来の技術と同じ方法である。
【0062】ステップS5で、上記変数iの内容がインクリメントされる。ステップS6で、iが単語数以下であるか否かが判別される。その結果、以下であればステップS2に戻って次の単語に関する処理に移行する。一方、よりも大きければ尤度再計算処理動作を終了する。
【0063】図3は、上記モデル作成部17によって実行される尤度再計算用モデル作成処理動作のフローチャートである。以下、図3に従って、上記尤度再計算用モデル作成処理について詳細に説明する。尚、モデル作成部17によって実行される認識用モデル作成および単語学習用モデル作成は、上記従来の音声認識装置の場合と同じ方法であるから説明は省略する。
【0064】ここで、上記尤度再計算時には、上記尤度再計算部20から、モデルを作成すべき単語Wiの音素表記を表す文字列と、音素表記が単語Wiの状態と同じである状態には共通のHMMを与えるための比較に用いる単語Wmaxの音素表記を表す文字列が入力される。また、音響分析部13で抽出されたフレーム毎の特徴ベクトルが、尤度再計算部20を経由して入力される。尚、説明を分り易くするために、モデルを作成すべき単語をWM(図2における単語Wiに相当)とし、上記比較に用いる単語をWR(図2における単語Wmaxに相当)とする。上記モデル作成部17に、尤度再計算部20から単語WM,WRの文字列とフレーム毎の特徴ベクトルが入力されると、尤度再計算用モデル作成処理動作がスタートする。
【0065】ステップS11で、入力された両単語WM,WRに関する文字列と各フレーム毎の特徴ベクトルとから、両単語WM,WRに関する各フレーム毎の状態遷移を表す状態遷移系列QM,QRが求められる。ここで、両状態遷移系列QM,QRは、M={qM1,qM2,…,qMt,…,qMT} …(11)
R={qR1,qR2,…,qRt,…,qRT} …(12)
と表される。尚、両単語WM,WRの状態遷移系列QM,QRは、夫々についてビタビアルゴリズムと呼ばれるアルゴリズムを適用して状態遷移の探索を行うことによって求められる。
【0066】ステップS12で、フレームの番号を表す変数tがに初期化される。ステップS13で、qMt=qRtが成立するか否か(つまり、両状態遷移系列QM,QFにおけるt番目のフレームに関する状態が同じか否か)が判別される。その結果、qMt=qRtである場合にはステップS14に進む一方、qMt≠qRtである場合にはステップS15に進む。
【0067】ステップS14で、上記HMM格納部16から、状態qMtに該当する音素のHMMが読み出されて連結される。そうした後、ステップS16に進む。ステップS15で、モデル記憶部19に記憶された単語WMの学習済モデルから、状態qMtに該当する音素のHMMが読み出されて連結される。ステップS16で、上記変数tの内容がインクリメントされる。
【0068】ステップS17で、qM(t-1)=qMtが成立するか(つまり、同じ状態に遷移したか)否かが判別される。その結果、qM(t-1)=qMtである場合には上記ステップS16に戻って上記変数tの内容が再度インクリメントされる。一方、qM(t-1)≠qMtである場合には、他の状態に遷移したのでステップS18に進む。ステップS18で、tがフレーム総数以下であるか否かが判別される。その結果、以下であればステップS13に戻って次のフレームに関する処理に移行する。一方、よりも大きければステップS19に進む。ステップS19で、作成された尤度再計算用モデルが尤度再計算部20に送出される。そうした後、尤度再計算用モデル作成処理動作を終了する。
【0069】上述のことから、本実施の形態における上記尤度再計算部20は、学習済単語WMの尤度を、それ以外の単語で最も尤度の高い単語WRと同じ音素には単語学習しないHMMを与えた尤度再計算用モデルを用いて再計算することになる。したがって、学習済単語WMの尤度は、図5に示す従来の音声認識装置1による認識時のごとく学習済単語WM以外の単語で最も尤度の高い単語WRと同じ音素にも単語学習したHMMを与えたモデルを用いて計算した場合よりも低く、適性な値に修正される。
【0070】したがって、学習済単語WM以外の単語で最も尤度の高い単語WRを認識する際に、当該学習済単語WMのモデルにおける類似単語WRと同じ音素に与えられたHMMが悪影響を及ぼすことを無くして、単語WMと誤認識されることを防止できるのである。
【0071】図4は、上記モデル学習部18によって実行される単語学習処理動作のフローチャートである。以下、図4に従って、上記単語学習処理について詳細に説明する。尚、本実施の形態においては、認識部14による認識の際に誤認識が生じた場合に、教師あり単語学習を行う。その際に、認識結果第1位の認識候補単語と対応する状態の尤度を比較して、第1位の認識候補単語の尤度よりも低い状態のみを学習する。
【0072】ここで、上記単語学習時には、上記音響分析部13によって教師単語(学習対象単語)の音声波形から抽出された特徴ベクトルと、辞書15から読み出された学習対象単語の音素表記を表す文字列と、認識結果出力部21からそのバッファに格納されている上記認識結果のうちで最も尤度が高い単語の音素表記を表す文字列および特徴ベクトルが入力される。尚、説明を分り易くするために、学習対象単語をWLとし、認識結果で最も尤度が高い単語をWFとする。モデル学習部18に、上記両単語WL,WFの文字列と両単語WL,WFの音響ベクトルが入力されると、単語学習処理動作がスタートする。
【0073】ステップS21で、入力された両単語WL,WFに関する文字列と各フレーム毎の特徴ベクトルとから、両単語WL,WFに関する上記状態遷移系列QL,QFが求められる。ここで、両状態遷移系列QL,QFは、L={qL1,qL2,…,qLt,…,qLT} …(13)
F={qF1,qF2,…,qFt,…,qFT} …(14)
と表される。尚、両状態遷移系列QL,QFは、夫々についてビタビアルゴリズムと呼ばれるアルゴリズムを適用して状態遷移の探索を行うことによって求められる。
【0074】ステップS22で、フレームの番号を表す変数tがに初期化される。ステップS23で、学習対象単語WLに関して各状態毎の尤度値を格納しておくバッファBLに初期化される。同様に、最高尤度単語をWFに関して各状態毎の尤度値を格納しておくバッファBFに初期化される。ステップS24で、両単語WL,WFに関してt番目のフレームの尤度が計算される。ここで、両単語WL,WFに関する各フレーム毎の尤度を表す尤度系列PL,PFは、L={pL1,pL2,…,pLt,…,pLT} …(15)
F={pF1,pF2,…,pFt,…,pFT} …(16)
と表される。つまり、本ステップでは、LtおよびFtの計算が実行されるのである。尚、上記尤度の計算は上記従来の技術で説明した方法によって行う。
【0075】ステップS25で、上記バッファBLの内容にpLtが加算され、バッファBFの内容にpFtが加算される。ステップS26で、上記変数tの内容がインクリメントされる。
【0076】ステップS27で、qL(t-1)=qLtが成立するか(つまり、同じ状態に遷移したか)否かが判別される。その結果、qL(t-1)=qLtである場合には上記ステップ24に戻って尤度pLtおよびpFtの計算が継続される。一方、qL(t-1)≠qLtである場合には他の状態に遷移したのでステップS28に進む。ステップS28で、バッファBLの内容(直前状態での学習対象単語WLの尤度)が、バッファBFの内容(直前状態での第1位認識候補単語WFの尤度)以上であるか否かが判別される。その結果、BL≧BFであれば、学習対象単語WLの尤度の方が高いので、当該状態では単語学習の必要なしと判断する。そして、上記ステップS23に戻って当該フレームに関する処理に移行する。一方、BL<BFであれば、第1位認識候補単語の尤度の方が高いので、当該状態では単語学習の必要ありと判断する。そして、ステップS29に進む。
【0077】ステップS29で、(t−1)番目のフレームに対応する状態は無音区間であるか否かが判別される。その結果、無音区間である場合には、当該無音区間である状態に対して単語学習を行うと他の状態に悪影響を与える可能性があるので、上記ステップS23に戻って当該フレームに関する処理に移行する。ステップS30で、単語学習処理が実行される。尚、この場合の単語学習は、上記従来の技術で説明した方法によってL(t-1)についてのみ1発声毎に行われる。
【0078】ステップS31で、tがフレーム総数以下であるか否かが判別される。その結果、以下であればステップS23に戻って当該フレームに関する処理に移行する。一方、よりも大きければステップS32に進む。ステップS32で、単語学習されたモデルが出力される。そして、この出力によってHMM格納部16およびモデル記憶部19の内容が更新される。そうした後、単語学習処理動作を終了する。
【0079】このように、本実施の形態においては、尤度再計算部20を設ける。また、モデル学習部18からの単語学習済モデルをモデル記憶部19に格納しておく。そして、尤度再計算部20は、認識部14による認識の結果得られた上位5個の認識候補単語を受け取ると、上位から順にモデル記憶部19に格納されている単語学習済モデルに該当する認識候補単語を探す。そして、単語学習した認識候補単語WMと単語WM以外で最も順位が高い単語WRとを求め、両単語WM,WRの文字列をモデル作成部17に送出する。
【0080】そうすると、上記モデル作成部17は、両単語WM,WRの状態遷移系列を先頭から順次比較し、両状態が同じフレームに付いてはHMM格納部16から該当する音素のHMMを読み出して連結する。一方、両状態が同じではないフレームに付いてはモデル記憶部19で記憶されている単語WMの学習済モデルから該当する音素のHMMを読み出して連結する。こうして、既に単語学習された単語WMの尤度再計算用モデルを作成するのである。
【0081】以後、上記尤度再計算部20は、上記モデル作成部17で作成された尤度再計算用モデルに基づいて、尤度再計算対象単語WMの尤度を再計算するのである。その結果、学習済単語WMの尤度が、それ以外の単語で最も尤度の高い単語WRと同じ音素には単語学習しないHMMを与えたモデルを用いて再計算されることになる。したがって、学習済単語WMの学習済モデルが、単語学習していない類似単語WRの認識時に悪影響を及ぼすことを無くして、類似単語WRの認識率を向上することができるのである。また、学習済単語WMの認識時には、上記類似単語WRと異なる音素には単語学習したHMMを与えたモデルを用いて尤度が計算されるので、正しく認識されるのである。
【0082】以下、本実施の形態における音声認識装置の動作を、具体的な入力出力例を挙げて説明する。ここで、100単語の認識対象単語の中から1単語の正解を求めるとする。その場合、辞書15には認識対象単語の音素列が記憶されており、その中には以後の説明で用いる認識対象単語まつだますだとの音素列も含まれているとする。尚、認識対象単語まつだの音素列を{/m/,/a/,/ts/,/u/,/d/,/a/}で表し、認識対象単語ますだの音素列を{/m/,/a/,/s/,/u/,/d/,/a/}で表す。この両認識対象単語は、殆どの音素が同じであるため誤認識される場合が非常に高い。
【0083】本音声認識装置11の初期状態では、上記モデル記憶部19には何も格納されてはいない。この状態で発声者が[まつだ]と発声をした場合を考える。ここで、[まつだ]と発声をしたにも拘わらず、認識部14で計算された尤度が最も高い認識候補単語がますだであり、認識候補単語まつだの尤度はその次に高かったものとする。その場合、モデル記憶部19には何も格納されていないので、尤度再計算部20は、モデル作成部17に対して尤度再計算用モデルの作成を依頼することが無く、尤度再計算もされない。そして、認識結果出力部21から、第1位の認識候補単語ますだが出力される。この出力結果は誤認識であるために、次に教師あり単語学習が行われる。その場合、教師単語はまつだである。
【0084】先ず、上記モデル作成部17で、教師単語まつだの各正解音素に対応する音素HMMをHMM格納部16から読み出して連結し、単語学習用モデルを作成する。この場合、音素/m/に対応するHMM、音素/a/に対応するHMM、音素/ts/に対応するHMM、音素/u/に対応するHMM、音素/d/に対応するHMM、音素/a/に対応するHMMが順次読み出されて、連結されることになる。こうして作成された単語学習用モデルはモデル学習部18に出力される。
【0085】そうすると、上記モデル学習部18によって、上記単語学習用モデルに対して単語学習が次のように行われる。すなわち、認識部14による認識結果最も尤度の高かった単語はますだであったので、モデル学習部18は、音響分析部13からの教師単語の発声音[まつだ]のフレーム毎の特徴ベクトルと、教師単語まつだの音素列と、最大尤度単語ますだの音素列とを入力として受け取る。
【0086】以下、上記単語学習が、上述の説明に従って行われる。教師単語まつだの音素列{/m/,/a/,/ts/,/u/,/d/,/a/}と最大尤度単語ますだの音素列{/m/,/a/,/s/,/u/,/d/,/a/}とは、音素/ts/と音素/s/とのみ異なる。そのため、それ以外の音素に対応する状態での尤度の値には差がない。すなわち、上記認識処理時には、音素/ts/に対応する状態の尤度が音素/s/に対応する状態の尤度よりも低かったことになる。したがって、本例においては、単語学習用モデルにおける音素/ts/の状態が学習されることになる。そして、単語まつだの学習済HMMがモデル記憶部19に音素列と共に格納される。
【0087】そうした後、再び[まつだ]という発声がなされた場合に、上記認識部14における尤度計算で最も尤度が高い単語はやはりますだであり、単語まつだの尤度はその次に高かったとする。発声毎の揺らぎがあるために必ずそうなるとは限らないが、その他の条件は変っていないのでそうなることは非常に多い。
【0088】そうすると、今度は上記モデル記憶部19に単語まつだの学習済HMMが記憶されているため、尤度再計算部20において尤度の再計算が行われることになる。ここで、尤度再計算部20は、認識部14から尤度が高かった5単語の音素列と尤度とを受け取る。いま、モデル記憶部19には単語まつだの学習済HMMのみが格納されているため、単語まつだについてのみ尤度の再計算が行われる。そこで、モデル作成部17に対して、学習済単語まつだの音素列と、単語まつだを除いて1番尤度の高い単語ますだの音素列とを出力する。
【0089】そうすると、上記モデル作成部17では、先ず、単語まつだと単語ますだとの夫々について各フレーム毎の状態遷移系列を求める。そして、両単語の音素列で異なる音素は音素/ts/と音素/s/とであるため、音素/ts/以外の音素/m/,/a/,/u/,/d/,/a/についてはHMM格納部16のHMMが連結され、音素/ts/についてはモデル記憶部19に記憶されている単語まつだの学習済HMMが連結される。こうして、単語まつだの尤度再計算用モデルが作成され、この作成されたモデルが尤度再計算部20に出力される。
【0090】そうすると、上記尤度再計算部20では、受け取った尤度再計算用モデルを用いて単語まつだの尤度を再計算する。この場合、音素/ts/に関しては単語学習された状態であるので、音素/s/よりも尤度が高くなる。そして、その他の音素の尤度は同じであるので、単語まつだの尤度が単語ますだの尤度よりも高くなり、正解単語であるまつだが出力されるのである。
【0091】次に、この状態で音声[ますだ]が発声されたとする。その場合、仮に、認識部14によって計算された尤度が最も高い単語はますだであり、次に尤度が高い単語はまつだであったとする。そうすると、認識部14の認識結果は正解ではあるが、モデル記憶部19に単語まつだの単語学習済モデルが格納されているために、尤度再計算部20によって単語まつだの尤度が再計算されることになる。
【0092】その場合、上記モデル作成部17によって、先の場合と同様にして、音素/ts/以外の音素/m/,/a/,/u/,/d/,/a/についてはHMM格納部16のHMMが連結され、音素/ts/についてはモデル記憶部19に記憶されている単語まつだのモデルの単語学習済HMMが連結されて、単語まつだの尤度再計算用モデルが作成される。したがって、尤度再計算部20による単語まつだの尤度再計算は、音素/ts/に関しては単語学習された状態であるので、音素/s/よりも尤度が低くなる。そして、その他の音素の尤度は同じであるので、単語まつだの尤度が単語ますだの尤度よりも低くなり、誤り単語であるまつだの尤度が正解単語であるますだの尤度よりも高くなって誤認識されることはない。
【0093】尚、上記従来の音声認識装置による単語学習に際しては、上記単語学習対象単語まつだの全ての音素について単語学習される。したがって、音声[ますだ]が発声された場合には、音素/s/の状態の尤度が音素/ts/の状態の尤度よりも高かったとしても、その他の全音素で単語まつだのHMMの状態の尤度の方が単語ますだのHMMの状態の尤度よりも高くなってしまい、結果的に単語まつだの合計尤度が単語ますだの合計尤度よりも高くなり、認識誤りを起こしてしまうのである。
【0094】しかしながら、本実施の形態によれば、上記尤度再計算部20で尤度を再計算する場合に使用される単語まつだの尤度再計算用モデルは、学習されいる音素は/ts/のみである。したがって、音声[ますだ]が発声された場合には、音素/s/の尤度の方が音素/ts/の尤度よりも高くなり、その他の全音素に関しては両単語の状態の尤度は同じになる。したがって、結果的に、単語ますだの尤度の方が高い状態を維持し、単語ますだが認識結果として出力されるのである。
【0095】尚、上記実施の形態においては、上記認識用モデル,単語学習用モデルおよび尤度再計算用モデルを同一のモデル作成部17で作成するようにしている。しかしながら、この発明においては、夫々異なるモデル作成部で作成しても良いし、尤度再計算用モデルのみを異なるモデル作成部で作成するようにしても一向に構わない。
【0096】ところで、上記実施の形態におけるHMM格納部16,認識部14,モデル学習部18,モデル記憶部19,モデル作成部17および尤度再計算部20による上記音響モデル記憶手段,音声認識手段,モデル学習手段,語彙モデル記憶手段,モデル作成手段および尤度再計算手段としての機能は、プログラム記録媒体に記録された音声認識処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、辞書15,HMM格納部16,モデル記憶部19とは別体に設けられたROM(リードオンリメモリ)(図示せず)でなるプログラムメディアである。あるいは、外部補助記憶装置(図示せず)に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声認識処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダムアクセスメモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0097】ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)−ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0098】また、上記実施の形態における音声認識装置11がインターネットを含む通信ネットワークと接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0099】尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0100】
【発明の効果】以上より明らかなように、第1の発明の音声認識装置は、モデル学習部で学習が行われた特定語彙の語彙モデルが語彙モデル格納部に格納され、音声認識部で得られた上位から所定数の認識候補の何れかが学習済語彙である場合には、モデル作成部によって、上記音響モデル格納部および語彙モデル格納部に基づいて尤度再計算用モデルを作成し、尤度再計算部によって、上記モデル作成部によって作成された尤度再計算用モデルを用いて、上記音声認識部で算出された上記学習済語彙の尤度が再計算されるので、当該学習済語彙における類似語彙とは異なるサブワードでは話者および語彙に依存する音響モデルを選択し、同一のサブワードでは話者および語彙に依存しない汎用の音響モデルを選択して、上記尤度再計算用モデルを作成することが可能になる。
【0101】したがって、その場合には、当該学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことを防止でき、類似語彙の誤認識を防止できる。尚、当該学習済語彙を認識する際には、類似語彙と異なるサブワードは学習されているために高い認識率を与えることができる。
【0102】また、上記第1の発明の音声認識装置は、上記モデル学習部を、話者および語彙に依存しない汎用の音響モデルに基づく学習対象語彙の各サブワードに関する尤度が、比較語彙の対応するサブワードに関する尤度よりも低くなる場合に、当該汎用の音響モデルのみに対して学習を行うようにすれば、上記比較語彙を上記学習対象語彙とは異なる語彙で最も尤度の高い類似語彙とした場合には、上記類似語彙よりも尤度が高いサブワードに関する汎用の音響モデルはそのまま維持される。したがって、学習済語彙における類似語彙よりも尤度が高いサブワードに関する音響モデルが、当該類似語彙の認識時に与える悪影響を防止することができる。
【0103】また、上記第1の発明の音声認識装置は、上記モデル学習部を、無音と判断したサブワードに対しては学習を行わないようにすれば、無音であるサブワードに関する音響モデルが、学習されていない語彙の認識時に与える悪影響を防止できる。
【0104】また、上記第1の発明の音声認識装置は、上記モデル作成部を、上記音響モデル格納部に格納された話者および語彙に依存しない汎用の音響モデルと、上記語彙モデル格納部に格納された話者および語彙に依存する語彙モデルとの何れかから音響モデルを順次選択し、連結して上記尤度再計算用モデルを作成するようにすれば、モデル作成対象語彙における類似語彙とは異なるサブワードでは話者および語彙に依存する音響モデルを選択し、同一のサブワードでは話者および語彙に依存しない汎用の音響モデルを選択して上記尤度再計算用モデルを作成することが可能になる。
【0105】また、上記第1の発明の音声認識装置は、上記モデル作成部を、上記所定数の認識候補のうち上記モデル作成対象認識候補(学習済語彙)と当該モデル作成対象認識候補を除いて最も尤度の高い認識候補とのサブワード同士を比較し、同一のサブワードである場合には上記汎用の音響モデルから該当する音響モデルを選択する一方、異なるサブワードである場合には上記語彙モデルから該当する音響モデルを選択するようにすれば、学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことを防止でき、類似語彙の誤認識を防止できる。尚、当該学習済語彙を認識する際には、上記類似語彙と異なるサブワードは学習されているために高い認識率を与えることができる。
【0106】第2の発明のプログラム記録媒体は、コンピュータを、上記音響モデル記憶手段、上記音声認識手段、上記モデル学習手段、上記語彙モデル記憶手段、上記モデル作成手段、上記尤度再計算手段として機能させる音声認識プログラムを記録しているので、上記第1の発明と同様に、学習済語彙における類似語彙とは異なるサブワードでは話者および語彙に依存する音響モデルを選択し、同一のサブワードでは話者および語彙に依存しない汎用の音響モデルを選択して上記尤度再計算用モデルを作成することが可能になる。
【0107】したがって、その場合には、学習済語彙とは異なる語彙で最も尤度の高い類似語彙を認識する際に、当該学習済語彙における上記類似語彙と同一のサブワードに与えられた音響モデルが悪影響を及ぼすことを防止でき、当該類似語彙の誤認識を防止できる。尚、当該学習済語彙を認識する際には、上記類似語彙と異なるサブワードは学習されているために高い認識率を与えることができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013