米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> ソニー株式会社

発明の名称 音声認識装置および音声認識方法、並びに記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2002−149187(P2002−149187A)
公開日 平成14年5月24日(2002.5.24)
出願番号 特願2000−338458(P2000−338458)
出願日 平成12年11月7日(2000.11.7)
代理人 【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
【テーマコード(参考)】
5D015
【Fターム(参考)】
5D015 BB01 HH04 HH12 HH23 
発明者 南野 活樹 / 浅野 康治 / 小川 浩明 / ヘルムート ルッケ
要約 目的


構成
特許請求の範囲
【請求項1】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、音声認識の対象となっている単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成手段と、前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、前記記憶手段に記憶された前記接続関係を修正する修正手段と、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定手段と、前記記憶手段に記憶される前記接続関係によって表される単語の境界位置を制限する単語境界制限手段とを備えることを特徴とする音声認識装置。
【請求項2】 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、前記単語境界制限手段は、前記特徴量が供給されるタイミングを間引いたタイミングに、前記単語の境界位置を制限することを特徴とする請求項1に記載の音声認識装置。
【請求項3】 前記構成手段が計算した前記単語のスコアを補正するスコア補正手段と、その補正後のスコアに基づいて、前記音声認識結果の候補となる単語列の単語の境界位置の候補を仮決定する仮決定手段とをさらに備え、前記単語境界制限手段は、前記仮決定手段において得られた前記単語の境界位置の候補を対象として、前記単語の境界位置を制限することを特徴とする請求項1に記載の音声認識装置。
【請求項4】 前記スコア補正手段は、所定の境界位置を境界とする単語のスコアを、その境界位置に近い他の境界位置を境界とする単語のスコアに補正することを特徴とする請求項3に記載の音声認識装置。
【請求項5】 音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択手段をさらに備え、前記構成手段は、前記選択手段において選択された単語を対象に、前記スコアを計算することを特徴とする請求項1に記載の音声認識装置。
【請求項6】 前記選択手段において選択される単語の開始位置を制限する開始位置制限手段をさらに備えることを特徴とする請求項5に記載の音声認識装置。
【請求項7】 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、前記開始位置制限手段は、前記特徴量が供給されるタイミングを間引いたタイミングに、前記単語の開始位置を制限することを特徴とする請求項6に記載の音声認識装置。
【請求項8】 前記開始位置制限手段は、前記単語境界制御手段によって制限された単語の境界位置としてとり得る位置を間引いた位置に、単語の開始位置を制限することを特徴とする請求項6に記載の音声認識装置。
【請求項9】 前記開始位置制限手段によって前記単語の開始位置とすることが許可されていない不許可位置を開始位置とする単語であって、前記構成手段において前記スコアの計算の対象とするものを補完する補完手段をさらに備えることを特徴とする請求項6に記載の音声認識装置。
【請求項10】 前記補完手段は、前記開始位置制限手段によって前記単語の開始位置とすることが許可されている許可位置であって、前記不許可位置に近い位置を開始位置とする単語によって、その不許可位置を開始位置とする単語を補完することを特徴とする請求項9に記載の音声認識装置。
【請求項11】 前記補完手段は、前記許可位置に対して、前記不許可位置からの距離に応じた重みを付し、その重みに基づいて、前記不許可位置を開始位置とする単語を補完することを特徴とする請求項10に記載の音声認識装置。
【請求項12】 音声認識の対象となっている単語群は、2以上のカテゴリに分類されており、前記選択手段は、各カテゴリごとの単語群から、単語を選択し、前記開始位置制限手段は、前記選択手段において選択される単語の開始位置を、前記カテゴリごとに異なる条件にしたがって制限することを特徴とする請求項6に記載の音声認識装置。
【請求項13】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識方法であって、音声認識の対象となっている単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、前記記憶ステップにおいて記憶された前記接続関係を修正する修正ステップと、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定ステップと、前記記憶ステップにおいて記憶される前記接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えることを特徴とする音声認識方法。
【請求項14】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、音声認識の対象となっている単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、前記記憶ステップにおいて記憶された前記接続関係を修正する修正ステップと、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定ステップと、前記記憶ステップにおいて記憶される前記接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えるプログラムが記録されていることを特徴とする記録媒体。
【請求項15】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択手段と、前記選択手段において選択された単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成手段と、前記音声認識結果の候補となる単語列の中から、前記音声認識結果となる単語列を確定する確定手段と、前記選択手段において選択される単語の開始位置を制限する開始位置制限手段とを備えることを特徴とする音声認識装置。
【請求項16】 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、前記開始位置制限手段は、前記特徴量が供給されるタイミングを間引いたタイミングに、前記単語の開始位置を制限することを特徴とする請求項15に記載の音声認識装置。
【請求項17】 前記開始位置制限手段によって前記単語の開始位置とすることが許可されていない不許可位置を開始位置とする単語であって、前記構成手段において前記スコアの計算の対象とするものを補完する補完手段をさらに備えることを特徴とする請求項15に記載の音声認識装置。
【請求項18】 前記補完手段は、前記開始位置制限手段によって前記単語の開始位置とすることが許可されている許可位置であって、前記不許可位置に近い位置を開始位置とする単語によって、その不許可位置を開始位置とする単語を補完することを特徴とする請求項17に記載の音声認識装置。
【請求項19】 前記補完手段は、前記許可位置に対して、前記不許可位置からの距離に応じた重みを付し、その重みに基づいて、前記不許可位置を開始位置とする単語を補完することを特徴とする請求項18に記載の音声認識装置。
【請求項20】 音声認識の対象となっている単語群は、2以上のカテゴリに分類されており、前記選択手段は、各カテゴリごとの単語群から、単語を選択し、前記開始位置制限手段は、前記選択手段において選択される単語の開始位置を、前記カテゴリごとに異なる条件にしたがって制限することを特徴とする請求項15に記載の音声認識装置。
【請求項21】 前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、前記接続関係を修正する修正手段とをさらに備え、前記確定手段は、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定することを特徴とする請求項15に記載の音声認識装置。
【請求項22】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識方法であって、音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択ステップと、前記選択ステップにおいて選択された単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、前記音声認識結果の候補となる単語列の中から、前記音声認識結果となる単語列を確定する確定ステップと、前記選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えることを特徴とする音声認識方法。
【請求項23】 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択ステップと、前記選択ステップにおいて選択された単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、前記音声認識結果の候補となる単語列の中から、前記音声認識結果となる単語列を確定する確定ステップと、前記選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えるプログラムが記録されていることを特徴とする記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、例えば、精度の高い音声認識を、効率的に行うことができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【0002】
【従来の技術】図1は、従来の音声認識装置の一例の構成を示している。
【0003】ユーザが発した音声は、マイク(マイクロフォン)1に入力され、マイク1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部2に供給される。AD変換部2では、マイク1からのアナログ信号の音声信号がサンプリング、量子化され、ディジタル信号の音声データに変換される。この音声データは、特徴抽出部3に供給される。
【0004】特徴抽出部3は、AD変換部2からの音声データについて、適当なフレームごとに音響処理を施し、これにより、例えば、MFCC(Mel Frequency CepstrumCoefficient)等の特徴量を抽出して、マッチング部4に供給する。なお、特徴抽出部3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【0005】マッチング部4は、特徴抽出部3からの特徴量を用いて、音響モデルデータベース5、辞書データベース6、および文法データベース7を必要に応じて参照しながら、マイク1に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて音声認識する。
【0006】即ち、音響モデルデータベース5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMM(Hidden Markov Model)が用いられる。辞書データベース6は、認識対象の各単語(語彙)について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法データベース7は、辞書データベース6の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則(言語モデル)を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0007】マッチング部4は、辞書データベース6の単語辞書を参照することにより、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部4は、幾つかの単語モデルを、文法データベース7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布HMM法によって、マイク1に入力された音声を認識する。即ち、マッチング部4は、特徴抽出部3が出力する時系列の特徴量が観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【0008】つまり、マッチング部4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0009】スコア計算は、一般に、音響モデルデータベース5に記憶された音響モデルによって与えられる音響的なスコア(以下、適宜、音響スコアという)と、文法データベース7に記憶された文法規則によって与えられる言語的なスコア(以下、適宜、言語スコアという)とを総合評価することで行われる。
【0010】即ち、音響スコアは、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部3が出力する特徴量の系列が観測される確率(出現する確率)に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア(以下、適宜、最終スコアという)に基づいて、音声認識結果が確定される。
【0011】具体的には、あるN個の単語からなる単語列におけるk番目の単語をwkとして、その単語wkの音響スコアをA(wk)と、言語スコアをL(wk)と、それぞれ表すとき、その単語列の最終スコアSは、例えば、次式にしたがって計算される。
【0012】
S=Σ(A(wk)+Ck×L(wk))
・・・(1)
但し、Σは、kを1からNに変えてのサメーションをとることを表す。また、Ckは、単語wkの言語スコアL(wk)にかける重みを表す。
【0013】マッチング部4では、例えば、式(1)に示す最終スコアを最も大きくするNと、単語列w1,w2,・・・,wNを求めるマッチング処理が行われ、その単語列w1,w2,・・・,wNが、音声認識結果として出力される。
【0014】以上のような処理が行われることにより、図1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときに、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【0015】ところで、上述の場合において、辞書データベース6の単語辞書に、「ニューヨーク」、「に」、「行きたい」、および「です」の5単語が登録されているとすると、これらの5単語を用いて構成しうる5単語の並びは、55通り存在する。従って、単純には、マッチング部4では、この55通りの単語列を評価し、その中から、ユーザの発話に最も適合するもの(最終スコアを最も大きくするもの)を決定しなければならない。そして、単語辞書に登録する単語数が増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は、膨大な数となる。
【0016】さらに、一般には、発話中に含まれる単語の数は未知であるから、5単語の並びからなる単語列だけでなく、1単語、2単語、・・・からなる単語列も、評価の対象とする必要がある。従って、評価すべき単語列の数は、さらに膨大なものとなるから、そのような膨大な単語列の中から、音声認識結果として最も確からしいものを、計算量および使用するメモリ容量の観点から効率的に決定することは、非常に重要な問題である。
【0017】計算量およびメモリ容量の効率化を図る方法としては、例えば、音響スコアを求める過程において、その途中で得られる音響スコアが所定の閾値以下となった場合に、そのスコア計算を打ち切るという音響的な枝刈り手法や、言語スコアに基づいて、スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。
【0018】これらの枝刈り手法によれば、スコア計算の対象が、所定の判断基準(例えば、上述したような計算途中の音響スコアや、単語に与えられる言語スコア)に基づいて絞り込まれることで、計算量の削減を図ることができる。しかしながら、その反面、絞り込みを強くすると、即ち、判断基準を厳しくすると、本来、音声認識結果として正しいものまでも枝刈りされてしまい、誤認識が生じることになる。従って、枝刈り手法による場合には、音声認識結果として正しいものが枝刈りされないように、ある程度のマージンをもたせた絞り込みを行う必要があり、このため、計算量を大きく削減することは困難である。
【0019】また、音響スコアを求める場合に、スコア計算の対象となっているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語についての音響スコアの計算の一部を共通化(共有化)する方法が提案されている。この共通化の方法としては、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の異なる音韻には、音響モデルを個々に用いることにより、全体として1つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。具体的には、例えば、いま、単語「秋田」と「曙」を考え、「秋田」の音韻情報が「akita」であり、「曙」の音韻情報が「akebono」であるとすると、単語「秋田」と「曙」の音響スコアは、それぞれの先頭から2番目までの音韻a,kについては兼用で計算される。そして、単語「秋田」の残りの音韻k,i,t,a、および単語「曙」の残りの音韻e,b,o,n,oについては、それぞれ独立に音響スコアが計算される。
【0020】従って、この方法によれば、音響スコアの計算量を大幅に低減することができる。
【0021】しかしながら、この方法では、音響スコアの計算が共通化される部分(音響スコアが兼用で計算される部分)において、その音響スコアの計算の対象となっている単語を決定することができない。即ち、上述の単語「秋田」と「曙」の例でいえば、それぞれの先頭から2番目までの音韻a,kについて音響スコアが計算されている間は、その音響スコアが計算されている単語が、「秋田」であるのか、または「曙」であるのかを同定することができない。
【0022】そして、この場合、「秋田」については、その3番目の音韻iについて音響スコアの計算が開始されたときに、その計算の対象となっている単語が「秋田」であることを同定することができ、「曙」についても、その3番目の音韻eについての音響スコアの計算が開始されたときに、その計算の対象となっている単語が「曙」であることを同定することができる。
【0023】従って、音響スコアの計算の一部を共通化してしまうと、単語の音響スコアの計算の開始時に、その単語を同定することができないため、その単語について、言語スコアを考慮(適用)することができない。その結果、単語の音響スコアの開始前に、上述したような言語的な枝刈り手法を用いることが困難となり、無駄な計算が行われることがある。
【0024】さらに、音響スコアの計算の一部を共通化する場合、単語辞書のすべての単語を対象として、上述したような木構造のネットワークが構成されるから、これを保持するための大きなメモリ容量が必要となる。
【0025】また、計算量およびメモリ容量の効率化を図る方法としては、音響スコアを計算する場合に、単語辞書のすべての単語を対象とするのではなく、その音響スコアの計算の対象とする単語を予備的に選択(予備選択)し、その予備選択された単語についてだけ、音響スコアを計算する方法がある。ここで、予備選択は、例えば、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。
【0026】なお、予備選択の方法は、例えば、L. R. Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and R. L. Mercer, "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等に記載されている。
【0027】ところで、単語の音響スコアは、音声の特徴量の系列を用いて計算されるが、その計算に使用する特徴量の系列の始点や終点が異なれば、求められる音響スコアも変化する。そして、この変化は、音響スコアと言語スコアとを総合評価して求められる式(1)の最終スコアに影響する。
【0028】ある単語に対応する特徴量の系列の始点および終点、即ち、単語どうしの境界(単語境界)は、例えば、動的計画法(Dynamic Programming)を用いて求めることができる。即ち、特徴量の系列の任意の点を、単語境界の候補とし、音声認識結果の候補となる単語列の各単語について、その音響スコアと言語スコアとを総合評価したスコア(以下、適宜、単語スコアという)を、逐次累積していく。そして、その単語スコアの累積の際に、最も大きい累積値を与える単語境界の候補を、その累積値とともに記憶していく。
【0029】これにより、最終的な単語スコアの累積値が求めらると、最も良い累積値、即ち、最も大きい最終スコアを与える単語境界も求められる。
【0030】上述のようにして単語境界を求める方法は、ビタビデコーディング(Viterbi decoding)、あるいはワンパスデコーディング(One pass decoding)等と呼ばれ、例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、pp.20-26、1988年7月1日等に、その詳細が記載されている。
【0031】
【発明が解決しようとする課題】ところで、上述の予備選択を効果的に行うには、単語境界をどこにするか、即ち、特徴量の系列(特徴量系列)のどの点を始点とするかが非常に重要である。
【0032】具体的には、例えば、図2(A)に示すような、音声「今日はいい天気ですね」について得られた特徴量系列において、「今日」と「は」との正しい単語境界が、時刻t1である場合において、単語「今日」に続く単語「は」に関して予備選択を行うときに、正しい時刻t1より先行する時刻t1-1を始点として予備選択を行うと、その予備選択には、単語「は」の特徴量だけでなく、その直前の単語「今日」の最後の部分の特徴量が影響する。一方、正しい時刻t1より後行する時刻t1+1を始点として予備選択を行うと、その予備選択においては、単語「は」の最初の部分の特徴量が用いられないことになる。
【0033】従って、いずれにしても、始点を誤ると、予備選択、ひいては、その後に行われるマッチング処理に悪影響を与えることとなる。
【0034】なお、図2においては(後述する図4および図6においても同様)、左から右方向が、時間の経過を表しており、また、音声区間の開始時刻を0として、音声区間は時刻Tで終了するものとしてある。
【0035】上述した動的計画法を用いる方法では、特徴量系列の最後、即ち、図2においては、音声区間の終了時刻Tまでの単語スコア(音響スコアおよび言語スコア)の計算が終了しないと、最終的な単語境界を決定することができないため、予備選択を行う段階では、その予備選択の始点となる単語境界を一意に決定することは困難である。
【0036】そこで、単語境界の候補を、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで保持しておく方法がある。
【0037】この方法では、例えば、音声区間の開始時刻0を始点として、単語「今日」の単語スコアを計算した場合に、時刻t1-1,t1,t1+1が、単語「今日」の発話の終点の候補として求まったとすると、この3通りの時刻t1-1,t1,t1+1が保持され、それぞれを始点として、次の単語の予備選択が行われる。
【0038】いま、この予備選択によって、時刻t1-1を始点とした場合には、「は」と「いい」の2単語が、時刻t1を始点とした場合には、「は」の1単語が、時刻t1+1を始点とした場合には、「は」と「いい」の2単語が、それぞれ得られたとし、さらに、これらの各単語を対象として単語スコアの計算を行うことにより、図2(B)乃至図2(G)にそれぞれ示すような結果が得られたとする。
【0039】即ち、図2(B)は、時刻t1-1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示しており、図2(C)は、時刻t1-1を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻t2+1が得られた状態を示している。また、図2(D)は、時刻t1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2+1が得られた状態を示しており、図2(E)は、時刻t1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示している。さらに、図2(F)は、時刻t1+1を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻t2が得られた状態を示しており、図2(G)は、時刻t1+1を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻t2+2が得られた状態を示している。なお、図2においては、t1-1<t1<t1+1<t2<t2+1<t2+2となっている。
【0040】図2(B)乃至図2(G)のうち、図2(B)、図2(E)、および図2(F)に示したものについては、いずれも、音声認識結果の候補としての単語列が、「今日」、「は」で同一あり、さらに、その単語列の最後「は」の終点も、時刻t2で同一であるから、その中から最も適切なものを、例えば、時刻t2までの単語スコアの累積値等に基づいて選び、残りを破棄することが可能である。
【0041】しかしながら、いまの時点では、図2(B)、図2(E)、または図2(F)のうちから選んだものに、図2(C)、図2(D)、図2(G)に示したものを加えた中から、正しいものを確定することはできないから、これらの4通りの場合を保持しておく必要がある。そして、この4通りの場合それぞれについて、再び、予備選択を行っていくことになる。
【0042】従って、この方法では、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで、多くの単語境界の候補を保持しながら、単語スコアの計算を行っていく必要があり、計算量およびメモリ容量の効率化の観点からは好ましくない。
【0043】なお、この場合、単語境界の候補として、真に正しい単語境界を保持していれば、原理的には、上述の動的計画法を用いた場合と同様の正しい単語境界を、最終的に得ることができるが、その反面、単語境界の候補として、真に正しい単語境界を保持し損ねると、その単語境界を始点または終点とする単語を誤認識し、さらには、それに起因して、その後に続く単語も誤認識することがある。
【0044】一方、予備選択は、一般に、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。即ち、予備選択は、一般に、単語辞書の単語すべてを対象として行われるため、精度の高い音響モデルや文法規則を用いて予備選択を行うと、リアルタイム性を維持するには、計算量やメモリ容量といったリソースが多く必要となる。そこで、予備選択は、簡易的な音響モデルや文法規則を用いることで、大語彙を対象とした場合でも、比較的少ないリソースで、高速に行うことが可能となっている。
【0045】しかしながら、予備選択は、ある単語について、特徴量の系列(特徴量系列)を用いてのマッチング処理が終了し、とりあえず確からしい終点が求められた後に、その終点を始点として、その始点に対応する時刻以後の特徴量系列を用いて行われる。即ち、予備選択は、連続発話された音声に含まれる単語どうしの境界(単語境界)が、最終的に確定していない時点で行われる。
【0046】従って、予備選択に用いられる特徴量系列の始点や終点が、対応する単語の始点や終点からずれている場合には、その単語の直前の単語や直後の単語の音韻の特徴量を含む特徴量系列や、対応する単語の最初や最後の部分の特徴量が欠けた特徴量系列、即ち、いわば音響的に安定していない特徴量系列を用いて、予備選択が行われることになる。
【0047】このため、簡易的な音響モデルを用いる予備選択では、発話中に含まれる単語が選択されないことが起こり得る。そして、予備選択において、正しい単語が選択されない場合には、その単語についてマッチング処理が行われないから、音声認識結果は誤ったものとなる。
【0048】そこで、予備選択において、単語を選択するときの音響的または言語的な判断基準を緩くして、選択される単語の数を多くする方法や、精度の高い音響モデルおよび文法規則を用いる方法がある。
【0049】しかしながら、予備選択において、単語を選択するときの音響的または言語的な判断基準を緩くすると、音声認識結果としてそれほど可能性の高くない単語の多くも、マッチング処理の対象となり、予備選択に比較して1単語あたりの負荷が重いマッチング処理に要する計算量やメモリ容量といったリソースが大きく増大する。
【0050】また、予備選択において、精度の高い音響モデルおよび文法規則を用いる場合には、予備選択に要するリソースが大きく増大する。
【0051】本発明は、このような状況に鑑みてなされたものであり、高い認識性能を維持しながら、音声認識処理を、効率的に行うことができるようにするものである。
【0052】
【課題を解決するための手段】本発明の第1の音声認識装置は、音声認識の対象となっている単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成手段と、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、記憶手段に記憶された接続関係を修正する修正手段と、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定手段と、記憶手段に記憶される接続関係によって表される単語の境界位置を制限する単語境界制限手段とを備えることを特徴とする。
【0053】本発明の第1の音声認識方法は、音声認識の対象となっている単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、記憶ステップにおいて記憶された接続関係を修正する修正ステップと、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定ステップと、記憶ステップにおいて記憶される接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えることを特徴とする。
【0054】本発明の第1の記録媒体は、音声認識の対象となっている単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、記憶ステップにおいて記憶された接続関係を修正する修正ステップと、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定ステップと、記憶ステップにおいて記憶される接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えるプログラムが記録されていることを特徴とする。
【0055】本発明の第2の音声認識装置は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択手段と、選択手段において選択された単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成手段と、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定手段と、選択手段において選択される単語の開始位置を制限する開始位置制限手段とを備えることを特徴とする。
【0056】本発明の第2の音声認識方法は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択ステップと、選択ステップにおいて選択された単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定ステップと、選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えることを特徴とする。
【0057】本発明の第2の記録媒体は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語を選択する選択ステップと、選択ステップにおいて選択された単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定ステップと、選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えるプログラムが記録されていることを特徴とする。
【0058】本発明の第1の音声認識装置および音声認識方法、並びに記録媒体においては、音声認識の対象となっている単語について、スコアが計算され、そのスコアに基づいて、音声認識結果の候補となる単語列が構成される。さらに、音声認識結果の候補となる単語列の単語どうしの接続関係が修正され、その修正後の接続関係に基づいて、音声認識結果となる単語列が確定される。この場合において、音声認識結果の候補となる単語列の単語どうしの接続関係によって表される単語の境界位置が制限される。
【0059】本発明の第2の音声認識装置および音声認識方法、並びに記録媒体においては、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語が選択され、その選択された単語について、スコアが計算される。さらに、そのスコアに基づいて、音声認識結果の候補となる単語列が構成され、その中から、音声認識結果となる単語列が確定される。この場合において、音声認識の対象となっている単語群から選択される単語の開始位置が制限される。
【0060】
【発明の実施の形態】図3は、本発明が適用される音声認識装置の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0061】特徴量抽出部3が出力する、ユーザが発した音声の特徴量の系列は、フレーム単位で、制御部11に供給されるようになっており、制御部11は、特徴量抽出部3からの特徴量を、特徴量記憶部12に供給する。
【0062】また、制御部11は、単語接続情報記憶部16に記憶された単語接続情報を参照し、マッチング部14や再評価部15を制御する。さらに、制御部11は、マッチング部14が、前述した図1のマッチング部4と同様のマッチング処理を行うことにより得られるマッチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部16の記憶内容を更新する。また、制御部11は、再評価部15の出力に基づいて、単語接続情報記憶部16の記憶内容を修正する。さらに、制御部11は、単語接続情報記憶部16に記憶された単語接続情報に基づいて、最終的な音声認識結果を確定して出力する。
【0063】特徴量記憶部12は、制御部11から供給される特徴量の系列を、例えば、ユーザの音声の認識結果が得られるまで記憶する。なお、制御部11は、音声区間の開始時刻を基準(例えば0)とする、特徴抽出部3が出力する特徴量が得られた時刻(以下、適宜、抽出時刻という)を、その特徴量とともに、特徴量記憶部12に供給するようになっており、特徴量記憶部12は、特徴量を、その抽出時刻とともに記憶する。特徴量記憶部12に記憶された特徴量およびその抽出時刻は、単語予備選択部13、マッチング部14、および再評価部15において、必要に応じて参照することができるようになっている。
【0064】単語予備選択部13は、マッチング部14からの要求に応じ、単語接続情報記憶部16、音響モデルデータベース17A、辞書データベース18A、および文法データベース19Aを必要に応じて参照しながら、マッチング部14でマッチング処理の対象とする1以上の単語を選択する単語予備選択処理を、特徴量記憶部12に記憶された特徴量を用いて行う。
【0065】マッチング部14は、制御部11からの制御に基づき、単語接続情報記憶部16、音響モデルデータベース17B、辞書データベース18B、および文法データベース19Bを必要に応じて参照しながら、単語予備選択部13からの単語予備選択処理の結果得られる単語を対象としたマッチング処理を、特徴量記憶部12に記憶された特徴量を用いて行い、そのマッチング処理の結果を、制御部11に供給する。
【0066】再評価部15は、制御部11からの制御に基づき、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを必要に応じて参照しながら、単語接続情報記憶部16に記憶された単語接続情報の再評価を、特徴量記憶部12に記憶された特徴量を用いて行い、その再評価結果を、制御部11に供給する。
【0067】単語接続情報記憶部16は、制御部11から供給される単語接続情報を、ユーザの音声の認識結果が得られるまで記憶する。
【0068】ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続(連鎖または連接)関係を表すもので、各単語の音響スコアおよび言語スコア、並びに各単語に対応する発話の開始時刻および終了時刻も含んでいる。
【0069】即ち、図4は、単語接続情報記憶部16に記憶される単語接続情報を、グラフ構造を用いて示している。
【0070】図4の実施の形態において、単語接続情報としてのグラフ構造は、単語を表すアーク(図4において、○印どうしを結ぶ線分で示す部分)と、単語どうしの境界を表すノード(図4において○印で示す部分)とから構成されている。
【0071】ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を0とする、特徴抽出部3が出力する特徴量が得られた時刻であるから、図4において、音声区間の開始、即ち、最初の単語の先頭に対応するノードNode1が有する時刻情報は0となる。ノードは、アークの始端および終端となるが、始端のノード(始端ノード)、または終端のノード(終端ノード)が有する時刻情報は、それぞれ、そのノードに対応する単語の発話の開始時刻、または終了時刻、つまり単語の境界を表す。
【0072】なお、図4では、左から右方向が、時間の経過を表しており、従って、あるアークの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノードとなる。
【0073】アークは、そのアークに対応する単語の音響スコアおよび言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ノードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されていく。
【0074】即ち、制御部11においては、まず最初に、音声区間の開始を表すノードNode1に対して、音声認識結果として確からしい単語に対応するアークが接続される。図4の実施の形態では、「今日」に対応するアークArc1、「いい」に対応するアークArc6、および「天気」に対応するArc11が接続されている。なお、音声認識結果として確からしい単語かどうかは、マッチング部14において求められる音響スコアおよび言語スコアに基づいて決定される。
【0075】そして、以下、同様にして、「今日」に対応するアークArc1の終端である終端ノードNode2、「いい」に対応するアークArc6の終端である終端ノードNode7、「天気」に対応するArc11の終端である終端ノードNode12それぞれに対して、同様に、確からしい単語に対応するアークが接続されていく。
【0076】以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される1以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後(図4の実施の形態では、時刻T)に到達すると、制御部11において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが有している音響スコアおよび言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。
【0077】具体的には、例えば、図4において、ノードNode1から、「今日」に対応するアークArc1、ノードNode2、「は」に対応するアークArc2、ノードNode3、「いい」に対応するアークArc3、ノードNode4、「天気」に対応するアークArc4、ノードNode5、「ですね」に対応するアークArc5、およびノードNode6で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。
【0078】なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコアから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る(その後に、アークを接続しない)ようにすることが可能である。
【0079】また、上述のようなパスの構成ルールに従えば、1つのアークの終端が、次に接続される1以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、1つのアークの終端が、他のアークの終端に一致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードに共通化される場合がある。
【0080】即ち、文法規則としてバイグラムを用いた場合には、別のノードから延びる2つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一であるときには、その2つのアークの終端は一致する。
【0081】図4において、ノードNode7を始端として延びるアークArc7、およびノードNode13を始端として延びるアークArc13は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、同一のノードNode8に共通化されている。
【0082】なお、ノードの共通化は行わないようにすることも可能であるが、メモリ容量の効率化の観点からは、行うのが好ましい。
【0083】また、図4では、文法規則としてバイグラムを用いているが、その他、例えば、トライグラム等を用いる場合も、ノードの共通化は可能である。
【0084】さらに、単語接続情報記憶部16に記憶されている単語接続情報は、単語予備選択部13、マッチング部14、および再評価部15において、必要に応じて参照することができるようになっている。
【0085】図3に戻り、音響モデルデータベース17A,17B、および17Cは、基本的には、図1の音響モデルデータベース5において説明したような音響モデルを記憶している。
【0086】但し、音響モデルデータベース17Bは、音響モデルデータベース17Aよりも精度の高い処理が可能な高精度の音響モデルを記憶しており、音響モデルデータベース17Cは、音響モデルデータベース17Bよりも精度の高い処理が可能なより高精度の音響モデルを記憶している。即ち、音響モデルデータベース17Aにおいて、各音素や音節について、例えば、前後のコンテキストに依存しない1パターンの音響モデルだけが記憶されているとすると、音響モデルデータベース17Bには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルの他、単語間にまたがるコンテキストに依存する音響モデル、つまり、クロスワードモデルも記憶されている。そして、音響モデルデータベース17Cには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルおよびクロスワードモデルの他、単語内のコンテキストに依存する音響モデルも記憶されている。
【0087】辞書データベース18A,18B、および18Cは、基本的には、図1の辞書データベース6において説明したような単語辞書を記憶している。
【0088】即ち、辞書データベース18A乃至18Cの単語辞書には、同一セットの単語が登録されている。但し、辞書データベース18Bの単語辞書は、辞書データベース18Aの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶しており、辞書データベース18Cの単語辞書は、辞書データベース18Bの単語辞書よりもさらに精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、辞書データベース18Aの単語辞書には、例えば、各単語に対して、1通りの音韻情報(読み)だけ登録されているとすると、辞書データベース18Bの単語辞書には、例えば、各単語に対して、複数通りの音韻情報が登録されている。そして、辞書データベース18Cの単語辞書には、例えば、各単語に対して、さらに多くの通りの音韻情報が登録されている。
【0089】具体的には、例えば、単語「おはよう」に対して、辞書データベース18Aの単語辞書には、1通りの音韻情報「おはよう」だけが、辞書データベース18Bの単語辞書には、「おはよう」の他、「おはよー」や「おはよ」が、辞書データベース18Cの単語辞書には、「おはよう」、「おはよー」、および「おはよ」の他、「はよう」や「はよー」が、それぞれ音韻情報として登録されている。
【0090】文法データベース19A,19B、および19Cは、基本的には、図1の文法データベース7において説明したような文法規則を記憶している。
【0091】但し、文法データベース19Bは、文法データベース19Aよりも精度の高い処理が可能な高精度の文法規則を記憶しており、文法データベース19Cは、文法データベース19Bよりも精度の高い処理が可能なより高精度の文法規則を記憶している。即ち、文法データベース19Aが、例えば、ユニグラム(単語の生起確率)に基づく文法規則を記憶しているとすると、文法データベース19Bは、例えば、バイグラム(直前の単語との関係を考慮した単語の生起確率)を記憶している。そして、文法データベース19Cは、例えば、トライグラム(直前の単語およびそのさらに1つ前の単語との関係を考慮した単語の生起確率)や文脈自由文法等に基づく文法規則を記憶している。
【0092】以上のように、音響モデルデータベース17Aには、各音素や音節について、1パターンの音響モデルが、音響モデルデータベース17Bには、各音素や音節について、複数パターンの音響モデルが、音響モデルデータベース17Cには、各音素や音節について、さらに多くのパターンの音響モデルが、それぞれ記憶されている。また、辞書データベース18Aには、各単語について、1通りの音韻情報が、辞書データベース18Bには、各単語について、複数通りの音韻情報が、辞書データベース18Cには、各単語について、さらに多くの通りの音韻情報が、それぞれ記憶されている。そして、文法データベース19Aには、簡易な文法規則が、文法データベース19Bには、精度の高い文法規則が、文法データベース19Cには、さらに精度の高い文法規則が、それぞれ記憶されている。
【0093】これにより、音響モデルデータベース17A、辞書データベース18A、および文法データベース19Aを参照する単語予備選択部13では、それほど精度は高くないが、多くの単語を対象として、迅速に、音響スコアおよび言語スコアを求めることができるようになっている。また、音響モデルデータベース17B、辞書データベース18B、および文法データベース19Bを参照するマッチング部14では、ある程度の数の単語を対象として、迅速に、精度の高い音響スコアおよび言語スコアを求めることができるようになっている。そして、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを参照する再評価部15では、少ない数の単語を対象として、迅速に、より精度の高い音響スコアおよび言語スコアを求めることができるようになっている。
【0094】なお、ここでは、音響モデルデータベース17A乃至17Cそれぞれに記憶させる音響モデルの精度について優劣を設けるようにしたが、音響モデルデータベース17A乃至17Cには、いずれにも、同一の音響モデルを記憶させることができ、この場合、音響モデルデータベース17A乃至17Cは、1つの音響モデルデータベースに共通化することができる。同様に、辞書データベース18A乃至18Cの単語辞書それぞれの記憶内容や、文法データベース19A乃至19Cそれぞれの文法規則も、同一にすることができる。
【0095】次に、図5のフローチャートを参照して、図3の音声認識装置による音声認識処理について説明する。
【0096】ユーザが発話を行うと、その発話としての音声は、マイク1およびAD変換部2を介することにより、ディジタルの音声データとされ、特徴抽出部3に供給される。特徴抽出部3は、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、制御部11に供給する。
【0097】制御部11は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部3から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部12に供給して記憶させる。
【0098】さらに、制御部11は、音声区間の開始後、ステップS1において、音声区間の開始を表すノード(以下、適宜、初期ノードという)を生成し、単語接続情報記憶部16に供給して記憶させる。即ち、制御部11は、ステップS1において、図4におけるノードNode1を、単語接続情報記憶部16に記憶させる。
【0099】そして、ステップS2に進み、制御部11は、単語接続情報記憶部16の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。
【0100】即ち、上述したように、図4に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップS2では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード(例えば、図4におけるノードNode8や、Node10,Node11)として検索され、そのような途中ノードが存在するかどうかが判定される。
【0101】なお、上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノードが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。
【0102】ステップS2において、途中ノードが存在すると判定された場合、ステップS3に進み、制御部11は、情報接続情報の中に存在する途中ノードのうちの1つを、それに接続するアークとしての単語を決定するノード(以下、適宜、注目ノードという)として選択する。
【0103】即ち、制御部11は、情報接続情報の中に1つの途中ノードしか存在しない場合には、その途中ノードを、注目ノードとして選択する。また、制御部11は、情報接続情報の中に複数の途中ノードが存在する場合には、その複数の途中ノードのうちの1つを注目ノードとして選択する。具体的には、制御部11は、例えば、複数の途中ノードそれぞれが有する時刻情報を参照し、その時刻情報が表す時刻が最も古いもの(音声区間の開始側のもの)、または最も新しいもの(音声区間の終わり側のもの)を、注目ノードとして選択する。あるいは、また、制御部11は、例えば、初期ノードから、複数の途中ノードそれぞれに至るまでのパスを構成するアークが有する音響スコアおよび言語スコアを累積し、その累積値(以下、適宜、部分累積スコアという)が最も大きくなるパス、または小さくなるパスの終端になっている途中ノードを、注目ノードとして選択する。
【0104】その後、制御部11は、注目ノードが有する時刻情報を開始時刻としてマッチング処理を行う旨の指令(以下、適宜、マッチング処理指令という)を、マッチング部14および再評価部15に出力する。
【0105】再評価部15は、制御部11からマッチング処理指令を受信すると、ステップS4に進み、単語接続情報記憶部16を参照することにより、初期ノードから注目ノードに至るまでのパス(以下、適宜、部分パスという)を構成するアークによって表される単語列(以下、適宜、部分単語列という)を認識し、その部分単語列の再評価を行う。即ち、部分単語列は、後述するようにして、単語予備選択部13が予備選択した単語を対象に、マッチング部14がマッチング処理を行うことにより得られた音声認識結果の候補とする単語列の途中結果であるが、再評価部15では、その途中結果が、再度、評価される。
【0106】具体的には、再評価部15は、部分単語列について、言語スコアおよび音響スコアを再計算するため、部分単語列に対応する特徴量の系列を、特徴量記憶部12から読み出す。即ち、再評価部15は、例えば、部分パスの先頭のノードである初期ノードが有する時刻情報が表す時刻から、注目ノードが有する時刻情報が表す時刻までに対応付けられている特徴量の系列(特徴量系列)を、特徴量記憶部12から読み出す。さらに、再評価部15は、音響モデルデータベース17C、辞書データベース18C、および文法データベース19Cを参照し、特徴量記憶部12から読み出した特徴量系列を用いて、部分単語列について、言語スコアおよび音響スコアを再計算する。なお、この再計算は、部分単語列を構成する各単語の単語境界を固定せずに行われる。従って、再評価部15では、部分単語列の言語スコアおよび音響スコアを再計算することにより、部分単語列について、それを構成する各単語の単語境界の決定が、動的計画法に基づいて行われることになる。
【0107】再評価部15は、以上のようにして、部分単語列の各単語の言語スコアおよび音響スコア、並びに単語境界を新たに得ると、その新たな言語スコアおよび音響スコアによって、単語接続情報記憶部16の部分単語列に対応する部分パスを構成するアークが有する言語スコアおよび音響スコアを修正するとともに、新たな単語境界によって、単語接続情報記憶部16の部分単語列に対応する部分パスを構成するノードが有する時刻情報を修正する。なお、本実施の形態では、再評価部15による単語接続情報の修正は、制御部11を介して行われるようになっている。
【0108】即ち、例えば、図6に示すノードNode5が注目ノードとされた場合において、初期ノードNode1から注目ノードNode5に至る部分パスのうちの、例えば、ノードNode3、単語「いい」に対応するアークArc3、ノードNode4、単語「天気」に対応するArc4、およびノードNode5の部分で表される単語列「いい」、「天気」に注目すると、再評価部15は、ノードNode3に対応する時刻からノードNode5に対応する時刻までの特徴量系列を用い、音響モデルデータベース17Cおよび辞書データベース18Cを参照することで、単語「いい」、「天気」それぞれの単語モデルを構成し、音響スコアを計算する。さらに、再評価部15は、文法データベース19Cを参照することで、単語「いい」、「天気」それぞれの言語スコアを計算する。具体的には、例えば、文法データベース19Cに、トライグラムに基づく文法規則が記憶されている場合には、再評価部15は、単語「いい」については、その直前の単語「は」と、さらにその前の単語「今日」を用い、単語が、「今日」、「は」、「いい」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。また、再評価部15は、単語「天気」については、その直前の単語「いい」と、さらにその前の単語「は」を用い、単語が、「は」、「いい」、「天気」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。
【0109】再評価部15は、以上のようにして求められる音響スコアおよび言語スコアを累積し、その累積値が最も大きくなるように、単語「いい」と「天気」の単語境界を決定する。そして、再評価部15は、そのようにして求まった音響スコアおよび言語スコアによって、単語「いい」に対応するアークArc3と、単語「天気」に対応するArc4がそれぞれ有する音響スコアおよび言語スコアを修正するとともに、決定した単語境界によって、単語「いい」と「天気」の単語境界に対応するノードNode4が有する時刻情報を修正する。
【0110】従って、再評価部15では、部分単語列の各単語どうしの単語境界が、動的計画法に基づいて決定され、単語接続情報16に記憶された単語接続情報が、逐次修正されていく。そして、この修正された単語接続情報を参照して、単語予備選択部13およびマッチング部14で処理が行われるため、それぞれにおける処理の精度および信頼性を向上させることができる。
【0111】さらに、再評価部15において単語接続情報の単語境界が修正されるため、単語接続情報として記憶しておく単語境界の候補の数を大幅に削減することができ、メモリ容量の効率化を図ることができる。
【0112】即ち、従来においては、例えば、前述の図2で説明したように、単語「今日」と「は」との単語境界の候補として、時刻t1-1,t1,t1+1の3つを保持しておく必要があり、また、正しい単語境界である時刻t1を保持し損ねた場合には、その後のマッチング処理に悪影響を与える。これに対して、再評価部15において単語境界を逐次修正する場合には、例えば、誤った単語境界である時刻t1-1の1つだけしか保持しなかったとしても、再評価部15において、その誤った単語境界である時刻t1-1が、正しい単語境界である時刻t1に修正されるから、その後のマッチング処理に悪影響を与えることはない。
【0113】また、再評価部15では、部分単語列を構成する単語については、最初と最後の単語を除き、その前と後に接続する単語それぞれを考慮したクロスワードモデルを用いて音響スコアを計算し、さらに、言語スコアの計算も、その前と後に接続する単語それぞれを考慮して行うことができ、従って、高精度の処理を行うことができる。
【0114】再評価部15は、以上のようにして、単語接続情報記憶部16の単語接続情報の修正を終了すると、その旨を、制御部11を介して、マッチング部14に供給する。
【0115】マッチング部14は、上述したように、制御部11からマッチング処理指令を受信した後、再評価部15から、制御部11を介して、単語接続情報の修正が終了した旨を受信すると、注目ノード、およびそれが有する時刻情報を、単語予備選択部13に供給し、それぞれに、単語予備選択処理を要求して、ステップS5に進む。
【0116】ステップS5では、単語予備選択部13は、マッチング部14から、単語予備選択処理の要求を受信すると、注目ノードに接続されるアークとなる単語の候補を選択する単語予備選択処理を、辞書データベース18Aの単語辞書に登録された単語を対象として行う。
【0117】即ち、単語予備選択部13は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、単語予備選択部13は、辞書データベース18Aの単語辞書に登録された各単語の単語モデルを、音響モデルデータベース17Aの音響モデルを接続することで構成し、その単語モデルに基づき、特徴量記憶部12から読み出した特徴量の系列を用いて、音響スコアを計算する。
【0118】また、単語予備選択部13は、各単語モデルに対応する単語の言語スコアを、文法データベース19Aに記憶された文法規則に基づいて計算する。即ち、単語予備選択部13は、各単語の言語スコアを、例えばユニグラムに基づいて求める。
【0119】なお、単語予備選択部13においては、単語接続情報を参照することにより、各単語の音響スコアの計算を、その単語の直前の単語(注目ノードが終端となっているアークに対応する単語)に依存するクロスワードモデルを用いて行うことが可能である。
【0120】また、単語予備選択部13においては、単語接続情報を参照することにより、各単語の言語スコアの計算を、その単語が、その直前の単語と連鎖する確率を規定するバイグラムに基づいて行うことが可能である。
【0121】単語予備選択部13は、以上のようにして、各単語について音響スコアおよび言語スコアを求めると、その音響スコアおよび言語スコアを総合評価したスコアを、以下、適宜、単語スコアという)を求め、その上位L個を、マッチング処理の対象とする単語として、マッチング部14に供給する。
【0122】なお、ここでは、単語予備選択部13において、各単語の音響スコアおよび言語スコアを総合評価した単語スコアに基づいて、単語を選択するようにしたが、単語予備選択部13では、その他、例えば、音響スコアだけや、言語スコアだけに基づいて、単語を選択するようにすることが可能である。
【0123】また、単語予備選択部13では、特徴量記憶部12から読み出した特徴量の系列の最初の部分だけを用いて、音響モデルデータベース17Aの音響モデルに基づき、対応する単語の最初の部分の幾つかの音韻を求め、最初の部分が、その音韻に一致する単語を選択するようにすることも可能である。
【0124】さらに、単語予備選択部13では、単語接続情報を参照して、直前の単語(注目ノードが終端ノードとなっているアークに対応する単語)の品詞を認識し、その品詞に続く単語の品詞として可能性の高い品詞の単語を選択するようにすることも可能である。
【0125】即ち、単語予備選択部13における単語の選択方法は、どのような方法を用いても良く、究極的には、単語を、ランダムに選択しても良い。
【0126】マッチング部14は、単語予備選択部13から、マッチング処理に用いるL個の単語(以下、適宜、選択単語という)を受信すると、ステップS6において、その選択単語を対象として、マッチング処理を行う。
【0127】即ち、マッチング部14は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、マッチング部14は、辞書データベース18Bを参照することで、単語予備選択部13からの選択単語の音韻情報を認識し、その音韻情報に対応する音響モデルを、音響モデルデータベース17Bから読み出して接続することで、単語モデルを構成する。
【0128】そして、マッチング部14は、上述のようにして構成した単語モデルに基づき、特徴量記憶部12から読み出した特徴量系列を用いて、単語予備選択部13からの選択単語の音響スコアを計算する。なお、マッチング部14においては、単語接続情報を参照することにより、単語の音響スコアの計算を、クロスワードモデルに基づいて行うようにすることが可能である。
【0129】さらに、マッチング部14は、文法データベース19Bを参照することで、単語予備選択部13からの選択単語の言語スコアを計算する。即ち、マッチング部14は、例えば、単語接続情報を参照することにより、単語予備選択部13からの選択単語の直前の単語、さらには、その前の単語を認識し、バイグラムやトライグラムに基づく確率から、単語予備選択部13からの選択単語の言語スコアを求める。
【0130】マッチング部14は、以上のようにして、単語予備選択部13からのL個の選択単語すべてについて、その音響スコアおよび言語スコアを求め、ステップS7に進む。ステップS7では、選択単語それぞれについて、その音響スコアおよび言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて、単語接続情報記憶部16に記憶された単語接続情報が更新される。
【0131】即ち、ステップS7では、マッチング部14は、選択単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を、選択単語の中から絞り込む。そして、マッチング部14は、その絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部11に供給する。
【0132】なお、マッチング部14において、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコアおよび言語スコアとのセットが、制御部11に供給される。
【0133】制御部11は、上述のようにしてマッチング部14から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部14からの各単語について、単語接続情報記憶部16に記憶された単語接続情報(図4)における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部11は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップS2に戻り、以下、同様の処理が繰り返される。
【0134】以上のように、単語接続情報は、マッチング部14の処理結果に基づいて、逐次更新され、さらに、再評価部15において逐次修正されるので、単語予備選択部13およびマッチング部14は、常時、単語接続情報を利用して処理を行うことが可能となる。
【0135】なお、制御部11は、単語接続情報を更新する際に、可能であれば、上述したような終端ノードの共通化を行う。
【0136】一方、ステップS2において、途中ノードが存在しないと判定された場合、ステップS8に進み、制御部11は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。
【0137】以上のように、単語予備選択部13において、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語が選択され、マッチング部14において、その選択された単語(選択単語)について、スコアが計算されて、そのスコアに基づき、音声認識結果の候補となる単語列が構成される。そして、再評価部15において、音声認識結果の候補となる単語列の単語どうしの単語接続関係が修正され、制御部11において、その修正後の単語接続関係に基づいて、音声認識結果となる単語列が確定される。従って、処理に要するリソースの増大を抑えながら、精度の高い音声認識を行うことができる。
【0138】即ち、再評価部15において単語接続情報の単語境界が修正されるため、注目ノードが有する時刻情報が、単語境界を表している精度が高くなり、単語予備選択部13やマッチング部14では、そのような精度の高い時刻情報が表す時刻以降の特徴量系列を用いて処理が行われる。従って、単語予備選択部13において選択する単語の判断基準や、マッチング部14において単語を絞り込むときの判断基準を強化しても、音声認識結果として正しい単語が除外されてしまう可能性を極めて低くすることができる。
【0139】そして、単語予備選択部13において選択する単語の判断基準を強化した場合には、マッチング部14においてマッチング処理の対象となる単語数が少なくなり、その結果、マッチング部14の処理に要する演算量およびメモリ容量も少なくすることができる。
【0140】さらに、仮に、単語予備選択部13において、正しい音声認識結果としての単語列を構成する単語のうち、ある時刻から開始する単語が、その時刻に選択されなかったとしても、その時刻から多少ずれた時刻(従って、誤った時刻)において選択されれば、再評価部15において、その誤った時刻が修正され、正しい音声認識結果としての単語列を得ることができる。即ち、単語予備選択部13で、正しい音声認識結果としての単語列を構成する単語の選択漏れがあったとしても、再評価部15において、その選択漏れを是正して、正しい音声認識結果としての単語列を得ることができる。
【0141】従って、再評価部15では、マッチング部14における終了時刻の検出の誤りの他、単語予備選択部13における単語の選択の誤りも是正することができる。
【0142】次に、図7は、本発明を適用した音声認識装置の第1実施の形態の構成例を示している。なお、図中、図3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図7の音声認識装置は、制御部11と単語接続情報記憶部16との間に、単語接続関係管理部21が新たに設けられている他は、基本的に、図3における場合と同様に構成されている。
【0143】従って、図7の実施の形態においては、制御部11は、単語接続関係管理部21を介して、単語接続情報記憶部16に対して、マッチング部14からの情報に基づいて生成した単語接続情報を書き込むが、その際、単語接続関係管理部21は、その単語接続情報によって表される単語の境界位置を制限する。
【0144】即ち、制御部11は、上述したように、マッチング部14から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部14からの各単語について、単語接続情報記憶部16に記憶された単語接続情報(図4)における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部11は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。
【0145】その際、単語接続関係管理部21は、注目ノードを始点ノードとして延ばされるアークの終端ノードの位置(単語の終了時刻)を制限する。
【0146】即ち、例えば、いま、図8(A)に示すように、特徴抽出部3において、時間TSごとに特徴量が抽出され、制御部11に供給されるとすると、制御部11は、この時間TSを最小単位とした終了時刻を終端ノードとする単語すべてに対応するアークを、単語接続情報として、単語接続情報記憶部16に書き込む。
【0147】従って、例えば、図8(A)に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、例えば、図8(B)に示すように、時間TSごとの連続する7つの時刻(タイミング)a,b,c,d,e,f,gが得られたときには、この7つの時刻a乃至gそれぞれを終端ノードとする単語「今日」に対応するアークが、単語接続情報として記憶されることになる。
【0148】即ち、単語の境界位置(つまり、単語の終了時刻)は、特徴抽出部3において特徴量が得られるタイミングで設定することができるため、終端ノードとすることができるタイミング(以下、適宜、ノード記憶タイミングという)も、図8(C)に矢印で示すように、時間TSを最小単位としたタイミングとなり、その結果、上述のような時間TSごとの連続する7つの時刻a乃至gそれぞれを終端ノードとするアークが、単語接続情報として記憶されることがある。
【0149】しかしながら、このように、多数のアークが、単語接続情報として記憶されるのは、単語接続情報記憶部16の記憶容量や、処理時間等の観点から効率的ではない。
【0150】そこで、単語接続関係管理部21は、終端ノードの位置(単語の終了時刻)を、特徴抽出部3から特徴量が供給されるタイミングを間引いたタイミングに制限する。
【0151】即ち、単語接続関係管理部21は、終端ノードの位置を、例えば、図8(D)に示すように、時間3TSごとのタイミングに制限する。
【0152】ここで、単語接続関係管理部21によって制限された、終端ノードの位置としてとり得る位置(タイミング)を、以下、適宜、新ノード記憶タイミングという。
【0153】この場合、制御部11において、単語「今日」の終了時刻の候補として、図8(B)に示したように、時間TSごとの連続する7つの時刻a乃至gが得られたとしても、単語接続関係管理部21において、終端ノードの位置は、2つの時刻cとfに制限されることとなり、その結果、単語接続情報記憶部16として必要な記憶容量を低減することができる。さらに、この場合、その後に注目ノードとされる途中ノードが少なくなることから、処理の高速化を図ることができる。
【0154】ところで、上述のように、単語接続関係管理部21において、終端ノードの位置を制限した場合には、正しい単語境界が得られないことがある。即ち、図8の実施の形態においては、図8(A)に示すように、単語「今日」と「は」との間の正しい単語境界は、時刻dであるが、終端ノードの位置は、図8(D)に示したように、時刻cとfに制限され、正しい単語境界の時刻dを、終端ノードとして得ることができない。
【0155】従って、誤った境界位置である時刻cまたはfを、正しい境界位置として、その後の処理が行われる場合には、認識性能が低下することになる。
【0156】しかしながら、図7の音声認識装置では、図3の音声認識装置について説明したように、再評価部15が、単語接続情報の単語境界を修正するため、ある程度の境界位置の誤りは、正しい境界位置に修正される。その結果、上述したように、終端ノードの位置を、ある程度制限しても、認識性能の低下を防止することができる。
【0157】即ち、図9は、終端ノードの位置を制限して行った音声認識処理のシミュレーション結果を示している。
【0158】図9において、「時間間隔」の欄は、終端ノードの位置の制限条件を表しており、そこに記載してある数字は、特徴抽出部3から特徴量が供給される時間間隔TSに対する、終端ノードの位置として許可するタイミングの時間間隔を表す。即ち、「時間間隔」の欄の数字#iは、終端ノードの位置を、時間i×TSごとの時刻に制限したことを表す。従って、例えば、「時間間隔」の欄における「1」は、終端ノードの位置を制限しない場合を表し、また、例えば、「時間間隔」の欄における「2」は、終端ノードの位置を、時間2TSごとの時刻に制限した場合を表す。
【0159】また、「単語正解率」の欄は、音声の認識率を表す。
【0160】なお、シミュレーションでは、特徴抽出部3から特徴量が供給される時間間隔TSを、10msとした。
【0161】また、シミュレーションでは、音声認識の対象とする単語数を2万語とし、10人の話者それぞれによる20の発話、即ち、延べ200発話を対象に、音声認識を行った。さらに、文法としては、トライグラムを用いた。
【0162】図9のシミュレーション結果から、終端ノードの位置を、時間TS乃至4TSそれぞれごとの時刻に制限しても、ほとんど同様の認識性能が得られていることが分かる。
【0163】なお、上述のように、シミュレーションは、200発話しか対象にしていないため、「単語正解率」の欄の認識率における0.5%乃至1%程度の上下差は、誤差の範囲内である。
【0164】ところで、例えば、図8(A)と同様の図10(A)に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、例えば、図10(B)に示すように、時間TSだけ離れた2つの連続する時刻(タイミング)dとeが得られたとする。
【0165】即ち、マッチング部14において、例えば、図10(A)に示した、時間TSごとの時刻a乃至gそれぞれを終了時刻とした単語「今日」の単語スコアが計算され、その単語スコアによる、上述した絞り込みによって、時刻dとeをそれぞれ終了時刻とする単語「今日」が残ったとする。
【0166】この場合、単語接続関係管理部21において、終端ノードの位置を、例えば、図10(C)に示すように、時間3TSごとのタイミングに制限すると、時刻dとeは、いずれも、その制限されたタイミング、即ち、新ノード記憶タイミングの位置にないため、時刻dとeをそれぞれ終了時刻とするアークは、いずれも、単語接続情報記憶部16に記憶されないことになる。
【0167】即ち、図10(B)の実施の形態では、単語「今日」の終了時刻として正しい時刻dと、その時刻に近い時刻eが得られているのにもかかわらず、いずれの時刻も、ノードとして記憶されない。
【0168】そして、このように、正しい終了時刻付近にノードが記憶されない場合には、再評価部15の処理によっても、単語どうしの間の境界位置を、正しい位置に修正することが困難となり、この場合、音声認識性能が劣化することになる。
【0169】そこで、制御部11は、マッチング部14を制御することにより、マッチング部14が計算した単語スコアを補正させ、その補正後の単語スコア(以下、適宜、補正スコアという)に基づいて、音声認識結果の候補となる単語列の単語の境界位置の候補の仮決定(絞り込み)を行わせる。
【0170】即ち、例えば、いま、時刻xを終了時刻とする単語の音響スコアと言語スコアを、それぞれA(x)とL(x)と表すとともに、時刻xの前と後に隣接する時刻を、それぞれx-1とx+1と表すこととすると、マッチング部14は、時刻xを終了時刻とする単語の補正スコアを求めるのに用いる音響スコアA’(x)と言語スコアL’(x)(以下、適宜、それぞれを、補正音響スコアA’(x)と補正言語スコアL’(x)という)を、次式にしたがって求める。
【0171】
A’(x)=max{A(x-1),A(x),A(x+1)}
L’(x)=max{L(x-1),L(x),L(x+1)}
・・・(2)
【0172】ここで、式(2)において、max{}は、カッコ{}内の最大値を意味する。また、式(2)における音響スコアA(x-1),A(x),A(x+1)それぞれには、各音響スコアを計算する時間長に依存しないように、何らかの正規化が施されるものとする。
【0173】式(2)によれば、ある時刻xを終了時刻とする単語の音響スコアが、その時刻の音響スコア、その時刻の前と後にそれぞれ隣接する時刻x-1とx+1を終了時刻とする単語の音響スコアのうちの最も大きいものに補正される。さらに、言語スコアについても、同様の補正が行われる。その結果、直感的には、ある時刻xを終了時刻とする単語の単語スコアは、その時刻xを含む、その時刻xに近い時刻を終了時刻とする単語の単語スコアのうちの最も大きいものに補正されることになる。
【0174】従って、図10(B)に示したように、補正前の単語スコアによる絞り込みによって、時刻dとeをそれぞれ終了時刻とする単語「今日」が残る場合というのは、時刻dとeをそれぞれ終了時刻とする単語「今日」の単語スコアが所定の閾値以上であり、かつ他の時刻を終了時刻とする単語「今日」の単語スコアが所定の閾値未満である場合であるから、時刻dの直前の時刻cを終了時刻とする単語「今日」の単語スコアは、時刻dを終了時刻とする単語「今日」の単語スコアより小さく、また、時刻eの直後の時刻fを終了時刻とする単語「今日」の単語スコアは、時刻eを終了時刻とする単語「今日」の単語スコアより小さい。
【0175】その結果、時刻cを終了時刻とする単語「今日」の単語スコアは、その時刻cの直後の時刻dを終了時刻とする単語「今日」の単語スコアに補正され、また、時刻fを終了時刻とする単語「今日」の単語スコアも、その時刻fの直前の時刻eを終了時刻とする単語「今日」の単語スコアに補正される。
【0176】これにより、時刻cとfをそれぞれ終了時刻とする単語「今日」の補正後の単語スコア(補正スコア)は、いずれも、所定の閾値以上となる。従って、そのような補正スコアに基づいて、絞り込みを行うことにより、図10(D)に示すように、時刻dとeをそれぞれ終了時刻とする単語「今日」だけでなく、時刻cとfをそれぞれ終了時刻とする単語「今日」も残ることになる。
【0177】この場合、単語接続関係管理部21において、終端ノードの位置を、図10(C)と同様の図10(E)に示すように、時間3TSごとのタイミングに制限しても、単語「今日」の終了時刻として正しい時刻dに近い時刻cとfが得られ、この時刻cとfそれぞれが、ノードとして記憶されることになる。
【0178】従って、正しい終了時刻dに近い時刻cとfが、ノードとして記憶されるので、上述した再評価部15の処理によって、単語どうしの間の境界位置が、正しい位置に修正されることになる。
【0179】次に、図11のフローチャートを参照して、図7の音声認識装置による音声認識処理について説明する。
【0180】図7の音声認識装置では、ステップS11乃至S16において、図5のステップS1乃至S6における場合とそれぞれ同様の処理が行われる。
【0181】そして、ステップS16において、図5のステップS6で説明したように、マッチング部14が、単語予備選択部13からの選択単語すべてについて、それぞれの音響スコアおよび言語スコアを求めた後は、ステップS17に進み、マッチング部14は、式(2)にしたがい、各単語の音響スコアと言語スコアを、他の時刻を終了時刻とする同一単語の音響スコアと言語スコアによって、それぞれ補正する。さらに、マッチング部14は、補正後の音響スコアと言語スコアから、補正後の単語スコア(補正スコア)を計算する。そして、マッチング部14は、ステップS18に進み、その補正スコアによって、単語の絞り込みを行い、これにより、単語の境界位置の候補を、特に位置を制限することなく決定(仮決定)する。
【0182】その後、マッチング部14は、ステップS18における絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部11に供給する。
【0183】制御部11は、上述のようにしてマッチング部14から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、そのうちの各単語についての終了時刻を、単語接続関係管理部21に供給する。
【0184】単語接続関係管理部21は、ステップS19において、単語の境界候補となっている終了時刻を、新ノード記憶タイミングで間引き、即ち、新ノード記憶タイミングの位置にない終了時刻を削除し、残った終了時刻を、単語の境界候補となる時刻として、最終的に決定する。単語接続関係管理部21は、このようにして最終的に残った終了時刻を、制御部11に返し、制御部11は、ステップS20において、単語接続関係管理部21から終了時刻が返された単語に関して、単語接続情報記憶部16に記憶された単語接続情報を、単語接続関係管理部21を介して更新する。
【0185】即ち、ステップS20では、図5のステップS7で説明した場合と同様に、単語接続関係管理部21から終了時刻が返された各単語について、単語接続情報記憶部16に記憶された単語接続情報(図4)における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部11は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。
【0186】その後は、ステップS12に戻り、以下、同様の処理が繰り返される。
【0187】そして、ステップS12において、途中ノードが存在しないと判定されると、ステップS21に進み、図5のステップS8における場合と同様に、制御部11は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。
【0188】以上のように、単語接続関係管理部21において、終端ノードの位置を、特徴抽出部3から特徴量が供給されるタイミングを間引いたタイミング(新ノード記憶タイミング)に制限するようにしたので、単語接続情報記憶部16の記憶容量や処理時間等を低減することができ、処理の効率化を図ることができる。
【0189】さらに、終端ノードの位置を制限しても、再評価部15によって、その位置が、正しい単語の境界の位置に修正されるため、認識性能の劣化を防止することができる。なお、図7の実施の形態では、単語予備選択部13を設けて、音声認識装置を構成するようにしたが、音声認識装置は、単語予備選択部13を設けずに構成することも可能である。
【0190】次に、図12は、本発明を適用した音声認識装置の第2実施の形態の構成例を示している。なお、図中、図3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図12の音声認識装置は、単語予備選択部13とマッチング部14との間に、単語接続関係管理部22が新たに設けられている他は、基本的に、図3における場合と同様に構成されている。
【0191】従って、図12の実施の形態においては、マッチング部14が単語予備選択処理の要求とともに出力する注目ノード、およびそれが有する時刻情報は、単語接続関係管理部22を介して、単語予備選択部13に供給されることとなるが、その際、単語接続関係管理部22は、マッチング部14からの注目ノードの時刻情報、つまり、選択単語の開始位置(開始時刻)を制限する。
【0192】即ち、例えば、いま、図13(A)に示すように、特徴抽出部3において、時間TSごとに特徴量が抽出され、制御部11に供給されるとすると、制御部11は、この時間TSを最小単位とした終了時刻を終端ノードとする単語すべてに対応するアークを、単語接続情報として、単語接続情報記憶部16に書き込む。
【0193】従って、例えば、図13(A)に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、時間TSごとの連続する7つの時刻a,b,c,d,e,f,gが得られたときには、この7つの時刻a乃至gそれぞれが、終端ノードとして、単語接続情報記憶部16に記憶されることになる。
【0194】その結果、この7つの終端ノードa乃至gは、その後、順次、注目ノードとされるから、単語予備選択部13は、7つの終端ノードa乃至gそれぞれを、単語の開始位置として、単語予備選択処理を行うこととなる。
【0195】しかしながら、このように、多数の時刻を開始位置として単語予備選択を行うのは、処理時間等の観点から効率的ではない。
【0196】そこで、単語接続関係管理部22は、マッチング部14から単語予備選択部13に供給される注目ノードの位置(単語の開始時刻)を、特徴抽出部3から特徴量が供給されるタイミングを間引いたタイミングに制限する。
【0197】即ち、単語接続関係管理部22は、注目ノードの位置を、例えば、図13(B)に示すように、時間2TSごとのタイミングに制限する。これにより、単語予備選択部13において、単語予備選択処理が開始されるタイミング(単語の開始時刻)は、時間2TSごとのタイミングに制限される。
【0198】具体的には、単語接続関係管理部22は、マッチング部14から供給される注目ノードの位置が、単語の開始時刻としてとり得る位置(以下、適宜、許可位置という)である場合には、その注目ノードを、そのまま単語予備選択部13に供給し、マッチング部14から供給される注目ノードの位置が、単語の開始時刻としてとり得ない位置(以下、適宜、不許可位置という)である場合(制限されている場合)には、その注目ノードの時刻情報を、単語予備選択部13に供給せずに一時保持する。
【0199】その結果、単語予備選択部13では、許可位置のみを開始位置として単語予備選択が行われるので、単語予備選択処理に要する処理時間の短縮化等を図ることができる。
【0200】ところで、上述のように、単語予備選択部13において、許可位置のみを開始位置として単語予備選択が行われる場合には、不許可位置を開始位置とする単語予備選択結果が得られないから、このままでは、不許可位置を開始位置とする単語が、マッチング処理部14において処理の対象とされることがなくなってしまうことになる。
【0201】しかしながら、マッチング部14が単語予備選択処理の要求とともに出力する注目ノードの時刻情報は、いまの場合、時間TSを最小単位とするものであり、マッチング部14から単語予備選択部13に対しては、許可位置のみならず、不許可位置を開始位置とする単語予備選択処理が要求される場合がある。
【0202】従って、不許可位置を開始位置とする単語が、単語予備選択結果として、マッチング部14に供給されず、その結果、まったく処理の対象とされないことは、認識性能の劣化を招くことになる。
【0203】そこで、単語接続関係管理部22は、マッチング部14から、不許可位置を開始位置とする単語の単語予備選択処理の要求があった場合には、不許可位置を開始位置とする単語を補完し、マッチング部14に供給するようになっている。
【0204】即ち、単語接続関係管理部22は、例えば、図13(A)に示した時間TSごとの時刻a乃至gのうちの、図13(B)に示した時間2TSごとの時刻b,d,fに、単語予備選択処理が開始されるタイミング(単語の開始時刻)を制限する場合において、その時刻以外の時刻(不許可位置)cやeを開始位置とする単語予備選択処理の要求があったときには、その時刻cやeに近い許可位置を開始位置とする単語予備選択処理の結果得られた単語(選択単語)によって、不許可位置である時刻cやeを開始位置とする単語予備選択結果としての単語を補完する。
【0205】具体的には、単語接続関係管理部22は、例えば、不許可位置である時刻cについては、図13(C)に示すように、その前後の許可位置の時刻bとdをそれぞれ開始位置とする単語予備選択処理の結果得られた単語の集合を、時刻cを開始位置とする単語予備選択結果として補完し、マッチング部14に供給する。また、単語接続関係管理部22は、例えば、不許可位置である時刻eについては、図13(C)に示すように、その前後の許可位置の時刻dとfをそれぞれ開始位置とする単語予備選択処理の結果得られた単語の集合を、時刻eを開始位置とする単語予備選択結果として補完し、マッチング部14に供給する。
【0206】以上のように、単語予備選択部13において、実際に、単語予備選択処理が行われるのは、許可位置を開始時刻とする単語についてだけであるが、マッチング部14には、許可位置を開始時刻とする単語予備選択結果としての単語だけでなく、不許可位置を開始時刻とする単語予備選択結果としての単語も補完されて供給される。従って、単語予備選択処理に要するコストを低減しながら、認識性能の劣化を防止することができる。
【0207】なお、上述のように、単語接続関係管理部22は、マッチング部14から、不許可位置を開始時刻とする単語予備選択処理の要求があった場合には、上述のように、その不許可位置を開始時刻とする単語を補完して、マッチング部14に単語予備選択結果として供給することから、その補完のために、例えば、単語予備選択部13からの許可位置を開始時刻とする単語予備選択結果としての単語を、一時記憶しておくようにする必要がある。
【0208】また、単語接続関係管理部22において、不許可位置を開始時刻とする単語の補完に用いられる単語予備選択結果が記憶されていない場合には、単語接続関係管理部22は、例えば、不許可位置に近い許可位置を開始時刻とする単語予備選択処理を、単語予備選択部13に要求し、その要求に対応して単語予備選択部13から供給される、許可位置を開始時刻とする単語予備選択結果によって、不許可位置を開始時刻とする単語を補完するようになっている。
【0209】次に、図14のフローチャートを参照して、図12の音声認識装置による音声認識処理について説明する。
【0210】図12の音声認識装置では、ステップS31乃至S34において、図5のステップS1乃至S4における場合とそれぞれ同様の処理が行われる。
【0211】そして、ステップS34において、図5のステップS4で説明したように、再評価部15が、単語接続情報記憶部16の単語接続情報を修正し、マッチング部14が、その修正が終了した旨を、制御部11を介して受信すると、マッチング部14は、上述したように、注目ノード、およびそれが有する時刻情報を、単語予備選択処理の要求とともに出力する。
【0212】マッチング部14が注目ノードおよび時刻情報とともに出力する単語予備選択処理の要求は、単語接続関係管理部22で受信される。
【0213】単語接続関係管理部22は、単語予備選択処理の要求を受信すると、ステップS35において、マッチング部14からの単語予備選択処理の要求が、許可位置を開始時刻とするものであるかどうかを判定する。ステップS35において、単語予備選択処理の要求が、許可位置を開始時刻とするものであると判定された場合、単語接続関係管理部22は、その単語予備選択処理の要求を、単語予備選択部13に供給して、ステップS36に進む。ステップS36では、図5のステップS5における場合と同様にして、単語予備選択部13が単語予備選択処理を行い、その結果得られる単語(選択単語)を、単語接続関係管理部22に供給する。単語接続関係管理部22は、単語予備選択部13からの選択単語(これは、許可位置を開始時刻とするもの)を一時記憶するとともに、単語予備選択結果として、マッチング部14に供給し、ステップS38に進む。
【0214】一方、ステップS35において、単語予備選択処理の要求が、許可位置を開始時刻とするものでないと判定された場合、即ち、不許可位置を開始時刻とするものである場合、ステップS37に進み、単語接続関係管理部22は、不許可位置の前後の許可位置を開始時刻とする単語予備選択結果を、単語予備選択部13から既に得ている単語予備選択結果の中から得て、それを、不許可位置を開始時刻とする単語予備選択結果として補完する。そして、単語接続関係管理部22は、その補完によって得られた不許可位置を開始時刻とする単語予備選択結果を、マッチング部14に供給し、ステップS38に進む。
【0215】その後は、ステップS38乃至S40において、図5のステップS6乃至S8における場合とそれぞれ同様の処理が行われる。
【0216】なお、上述の場合においては、不許可位置を開始位置とする単語予備選択結果としての単語を、その不許可位置の前後の許可位置を開始位置とする単語予備選択結果によって補完するようにしたが、この補完は、例えば、図15(A)に示すように、不許可位置x0からある程度の範囲内にある複数の許可位置x1,x2,x3,x4,x5,x6を開始位置とする単語予備選択結果によって行うことが可能である。
【0217】さらに、このように、不許可位置x0を開始位置とする単語予備選択結果としての単語を、その不許可位置x0から広い範囲にある複数の許可位置x1乃至x6を開始位置とする単語予備選択結果によって補完する場合には、その複数の許可位置x1乃至x6それぞれに対して、不許可位置からの距離に応じた重みを付し、その重みに基づいて、不許可位置x0を開始位置とする単語を補完することが可能である。
【0218】この場合、例えば、図15(B)に示すような、不許可位置x0からの距離が遠くなるほど小さくなる重みを採用することが可能である。即ち、この場合、不許可位置x0についての補完には、不許可位置x0からの距離が近い、例えば、許可位置x3やx4を開始位置とする単語予備選択結果としての単語が多く用いられる。また、不許可位置x0からの距離が遠い、例えば、許可位置x1やx6を開始位置とする単語予備選択結果としての単語については、少ない数を用いて、補完が行われる。なお、このような重みを採用する場合、補完には、ある許可位置を開始位置とする単語予備選択結果としての単語すべてではなく、そのうちの一部の単語が用いられることとなるが、この一部の単語は、例えば、単語予備選択処理において得られる単語スコアに基づいて選択することが可能である。即ち、補完に用いる一部の単語は、例えば、単語スコアの高い順に選択するようにすることが可能である。
【0219】以上のように、単語予備選択処理を開始するタイミングを、許可位置のみに制限し、また、マッチング部14において、不許可位置からの単語予備選択処理が要求された場合には、単語予備選択結果となる単語を補完するようにしたので、認識性能を劣化させることなく、処理量を大幅に低減することができる。
【0220】なお、図12の実施の形態においては(後述する図16の実施の形態においても同様)、再評価部15を設けて音声認識装置を構成するようにしたが、音声認識装置は、再評価部15を設けずに構成することが可能である。
【0221】次に、図16は、本発明を適用した音声認識装置の第3実施の形態の構成例を示している。なお、図中、図12における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図16の音声認識装置は、1つの単語予備選択部13に替えて、2つの単語予備選択部13Aおよび13Bが設けられている他は、基本的に、図12における場合と同様に構成されている。
【0222】但し、図16の実施の形態においては、辞書データベース18Aに登録されている単語が、音韻数の長い単語と、短い単語の2つのカテゴリに分類されており、単語予備選択部13Aは、音韻数の長い単語を対象とした単語予備選択処理を行い、単語予備選択部13Bは、音韻数の短い単語を対象とした単語予備選択処理を行うようになっている。
【0223】また、単語接続関係管理部22は、単語予備選択部13Aが単語予備選択処理を開始するタイミングと、単語予備選択部13Bが単語予備選択処理を開始するタイミングとを、異なる条件で制限するようになっている。
【0224】即ち、単語接続関係管理部22は、単語予備選択部13Aが単語予備選択処理を開始するタイミングの間隔を、比較的長くなるように制限するとともに、単語予備選択部13Aが単語予備選択処理を開始するタイミングの間隔を、比較的短くなるように制限する。
【0225】この場合、単語予備選択処理において、音韻数の短い単語の検出漏れが生じることを防止して、処理効率を向上させることができる。
【0226】即ち、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限した場合、単語予備選択処理のコストは低減する。しかしながら、例えば、助詞等の音韻数が短い単語は、一般に、その発話時間も短いことから、このような単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限すると、そのタイミングと、単語の発話開始時刻とのずれが、その単語の発話時間に対して大きくなりやすくなり、その結果、単語予備選択処理において、検出されにくくなる。一方、音韻数が多く、発話時間が長い単語は、一般に、その発話時間も長いことから、このような単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限しても、そのタイミングと、単語の発話開始時刻とのずれが、その単語の発話時間に対して、それほど大きくはならず、その結果、単語予備選択処理においても、それほど検出されにくくなることはない。
【0227】従って、上述のように、音韻数の短い単語については、単語予備選択処理を開始するタイミングを、その間隔が短くなるようにするとともに、音韻数の長い単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるようにすることで、音韻数の短い単語の検出漏れによる認識性能の劣化を防止しながら、処理効率を向上させることができる。
【0228】なお、図16の実施の形態においては、辞書データベース18Aに登録されている単語を2つのカテゴリに分け、2つの単語予備選択部13Aおよび13Bを設けるようにしたが、単語を分類するカテゴリ数、および単語予備選択部の数は、3以上とすることが可能である。
【0229】また、図16の実施の形態では、単語を、その音韻数によって分類するようにしたが、その他、例えば、単語が発話されるときの平均時間を求め、その平均時間によって、単語を分類することも可能である。さらに、単語を、その重要度に基づいて分類し、重要度の高いものほど、単語予備選択処理を開始するタイミングの間隔が短くなるにすることも可能である。ここで、単語の重要度は、例えば、各単語の使用頻度や発話履歴等の情報を収集し、その情報に基づいて設定することが可能である。
【0230】次に、図17は、本発明を適用した音声認識装置の第4実施の形態の構成例を示している。なお、図中、図3、図7、または図12における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図17の音声認識装置は、図7の単語接続関係管理部21と図12の単語接続関係管理部22が新たに設けられている他は、基本的に、図3における場合と同様に構成されている。
【0231】従って、図17の実施の形態では、単語接続関係管理部21において、単語接続情報として記憶される終端ノードの位置が制限されるとともに、単語接続関係管理部22において、単語予備選択処理の開始タイミングが制限される。
【0232】即ち、図8(A)と同様の図18(A)に示すように、特徴抽出部3において特徴量が得られるタイミングの間隔が、時間TSである場合において、単語接続関係管理部21は、終端ノードの位置を、例えば、図18(B)に示すように、時間2TSごとのタイミングに制限する。さらに、単語接続関係管理部22は、単語予備選択処理の開始タイミングを、例えば、図18(C)に示すように、時間4TSごとのタイミングに制限する。
【0233】この場合、単語接続関係管理部21において、終端ノードの位置が、時間2TSごとのタイミングに制限されることから、マッチング部14においては、時間2TSごとのタイミングで、単語予備選択処理が要求されうる。しかしながら、単語予備選択処理の開始タイミングは、単語接続関係管理部22において、時間4TSごとのタイミングに制限される。
【0234】従って、この場合も、終端ノードの位置がとり得る位置の中に、予備選択処理の開始タイミングとしてとり得ない位置(不許可位置)が存在する。そこで、単語接続関係管理部22は、不許可位置を開始時刻とする単語予備選択処理の要求については、図18(D)に示すように、許可位置(ここでは、時間4TSごとのタイミング)を開始時刻とする単語予備選択処理の処理結果によって補完を行うようになっている。
【0235】次に、図19のフローチャートを参照して、図17の音声認識装置による音声認識処理について説明する。
【0236】図17の音声認識装置では、ステップS51乃至S54において、図5のステップS1乃至S4における場合とそれぞれ同様の処理が行われる。
【0237】そして、ステップS54において、図5のステップS4で説明したように、再評価部15が、単語接続情報記憶部16の単語接続情報を修正し、マッチング部14が、その修正が終了した旨を、制御部11を介して受信すると、マッチング部14は、上述したように、注目ノード、およびそれが有する時刻情報を、単語予備選択処理の要求とともに出力する。
【0238】マッチング部14が注目ノードおよび時刻情報とともに出力する単語予備選択処理の要求は、単語接続関係管理部22で受信される。
【0239】単語接続関係管理部22は、単語予備選択処理の要求を受信すると、ステップS55において、マッチング部14からの単語予備選択処理の要求が、許可位置を開始時刻とするものであるかどうかを判定する。ステップS55において、単語予備選択処理の要求が、許可位置を開始時刻とするものであると判定された場合、単語接続関係管理部22は、その単語予備選択処理の要求を、単語予備選択部13に供給して、ステップS56に進む。ステップS56では、図5のステップS5における場合と同様にして、単語予備選択部13が単語予備選択処理を行い、その結果得られる単語(選択単語)を、単語接続関係管理部22に供給する。単語接続関係管理部22は、単語予備選択部13からの選択単語(これは、許可位置を開始時刻とするもの)を一時記憶するとともに、単語予備選択結果として、マッチング部14に供給し、ステップS58に進む。
【0240】一方、ステップS55において、単語予備選択処理の要求が、許可位置を開始時刻とするものでないと判定された場合、即ち、不許可位置を開始時刻とするものである場合、ステップS57に進み、単語接続関係管理部22は、不許可位置の前後の許可位置を開始時刻とする単語予備選択結果を、単語予備選択部13から既に得ている単語予備選択結果の中から得て、それを、不許可位置を開始時刻とする単語予備選択結果として補完する。そして、単語接続関係管理部22は、その補完によって得られた不許可位置を開始時刻とする単語予備選択結果を、マッチング部14に供給し、ステップS58に進む。
【0241】ステップS58では、図5のステップS6で説明したように、マッチング部14が、単語予備選択部13からの単語予備選択結果としての選択単語すべてについて、それぞれの音響スコアおよび言語スコアを求め、ステップS59に進み、マッチング部14は、式(2)にしたがい、各単語の音響スコアと言語スコアを、他の時刻を終了時刻とする同一単語の音響スコアと言語スコアによって、それぞれ補正する。さらに、マッチング部14は、補正後の音響スコアと言語スコアから、補正後の単語スコア(補正スコア)を計算する。そして、マッチング部14は、ステップS60に進み、その補正スコアによって、単語の絞り込みを行い、これにより、単語の境界位置の候補を、特に位置を制限することなく決定(仮決定)する。
【0242】その後、マッチング部14は、ステップS60における絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部11に供給する。
【0243】制御部11は、上述のようにしてマッチング部14から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、そのうちの各単語についての終了時刻を、単語接続関係管理部21に供給する。
【0244】単語接続関係管理部21は、ステップS61において、単語の境界候補となっている終了時刻を、新ノード記憶タイミングで間引き、即ち、新ノード記憶タイミングの位置にない終了時刻を削除し、残った終了時刻を、単語の境界候補となる時刻として、最終的に決定する。単語接続関係管理部21は、このようにして最終的に残った終了時刻を、制御部11に返し、制御部11は、ステップS62において、図5のステップS7で説明した場合と同様に、単語接続関係管理部21から終了時刻が返された単語に関して、単語接続情報記憶部16に記憶された単語接続情報を、単語接続関係管理部21を介して更新する。
【0245】その後は、ステップS52に戻り、以下、同様の処理が繰り返される。
【0246】そして、ステップS52において、途中ノードが存在しないと判定されると、ステップS63に進み、図5のステップS8における場合と同様に、制御部11は、単語接続情報を参照することで、ユーザの発話に対する音声認識結果を確定して出力し、処理を終了する。
【0247】以上のように、単語接続関係管理部21と22の両方によってタイミングを制限する場合には、認識性能を維持しながら、処理効率を、より向上させることができる。
【0248】即ち、本件発明者が行ったシミュレーションによれば、単語接続関係管理部21において、単語接続情報として記憶される終端ノードの位置を、時間4TSごとの時刻に制限するとともに、単語接続関係管理部22において、単語予備選択処理の開始タイミングを、時間8TSごとの時刻に制限した場合において、そのような制限を行わない場合の認識率をほぼ維持しながら、演算量を約15%低減することができた。
【0249】ここで、図18の実施の形態においては、単語接続関係管理部22による制限のタイミングを、単語接続関係管理部21による制限のタイミングの2倍の時間間隔に同期させるようにしたが、単語接続関係管理部21と22によるタイミングの制限は、独立に行うことが可能である。また、単語接続関係管理部21によって制限するタイミングの間隔は、固定である必要はなく、可変にすることが可能である。単語接続関係管理部22によって制限するタイミングの間隔についても同様である。
【0250】なお、上述した各実施の形態における音声認識装置は、例えば、音声によってデータベースの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデータ入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロボット、キーボードの代わりに音声入力によりテキスト作成を行うディクテーションシステム、ユーザとの会話を行うロボットにおける対話システム等に適用可能である。
【0251】次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0252】そこで、図20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0253】プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0254】あるいはまた、プログラムは、フロッピー(登録商標)ディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0255】なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0256】コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0257】ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0258】また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0259】
【発明の効果】本発明の第1の音声認識装置および音声認識方法、並びに記録媒体によれば、音声認識の対象となっている単語について、スコアが計算され、そのスコアに基づいて、音声認識結果の候補となる単語列が構成される。さらに、音声認識結果の候補となる単語列の単語どうしの接続関係が修正され、その修正後の接続関係に基づいて、音声認識結果となる単語列が確定される。この場合において、音声認識結果の候補となる単語列の単語どうしの接続関係によって表される単語の境界位置が制限される。従って、処理効率を向上させることが可能となる。
【0260】本発明の第2の音声認識装置および音声認識方法、並びに記録媒体によれば、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く1以上の単語が選択され、その選択された単語について、スコアが計算される。さらに、そのスコアに基づいて、音声認識結果の候補となる単語列が構成され、その中から、音声認識結果となる単語列が確定される。この場合において、音声認識の対象となっている単語群から選択される単語の開始位置が制限される。従って、処理効率を向上させることが可能となる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013