米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 東芝テック株式会社

発明の名称 音声認識装置及び音声認識プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−232865(P2007−232865A)
公開日 平成19年9月13日(2007.9.13)
出願番号 特願2006−52194(P2006−52194)
出願日 平成18年2月28日(2006.2.28)
代理人 【識別番号】100058479
【弁理士】
【氏名又は名称】鈴江 武彦
発明者 関根 直樹 / 竹内 雅則
要約 課題
音声区間の終端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させる。

解決手段
プッシュボタンがONされたことを検知すると(ST103でYES)、音声認識を行なうための認識単語算出処理が行なわれる(ST107)。このように認識単語算出処理が行なわれているときにプッシュボタンがOFFされたことを検知すると(ST108でYES)、音声認識の実行が停止される(ST109)。
特許請求の範囲
【請求項1】
音声入力手段によって取り込まれた入力信号をある一定時間毎に音響分析して音声の特徴量を算出する音声分析手段と、この音声分析手段で算出された特徴量と予め各単語の標準モデルの各状態と認識単位とが関連付けられた形で記憶されている標準モデル記憶手段に記憶してある標準モデルとから累積尤度を算出する認識単語算出手段とに基づいて音声認識処理を行なう音声認識装置において、
所定の操作がされることより認識対象音声の発声終了の指示を行う音声入力停止ボタンと、
この音声入力停止ボタンにより発声終了の指示を受け取った場合、前記認識単語算出手段の累積尤度算出の停止指示をする音声認識実行停止手段とを具備することを特徴とする音声認識装置。
【請求項2】
前記音声認識実行停止手段は、前記音声入力停止ボタンが発声終了の指示を受け取った後、予め定められた時間経過後に、前記認識単語算出手段の累積尤度算出の停止指示をすることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記音声認識実行停止手段は、前記音声入力停止ボタンが発声終了の指示を受け取った後、前記認識単語算出手段の累積尤度算出を、予め定められた時間前に停止指示をすることを特徴とする請求項1に記載の音声認識装置。
【請求項4】
所定の操作がされることにより認識対象音声の発声開始の指示を行なう音声入力開始ボタンと、
前記音声入力開始ボタンにより発声開始の指示を受け取った後、予め定められた時間経過後に、前記認識単語算出手段の累積尤度算出の開始指示をする音声認識実行開始手段を具備することを特徴とする請求項1に記載の音声認識装置。
【請求項5】
所定の操作がされることにより認識対象音声の発声開始の指示を行なう音声入力開始ボタンと、
前記音声分析手段で音響分析された音声の特徴量を予め定められた時間だけ記憶する特徴量記憶手段と、
前記音声入力開始ボタンにより発声開始の指示を受け取った後、前記認識単語算出手段の累積尤度算出の開始指示をする音声認識実行開始手段を具備し、
前記認識単語算出手段は、前記特徴量記憶手段に記憶された特徴量を用いて累積尤度算出を行うことを特徴とする請求項1に記載の音声認識装置。
【請求項6】
所定の操作がされることにより認識対象音声の発声開始の指示を行なう音声入力開始ボタンと、
前記音声分析手段で求められた音声の特徴量を用いて、音声の始端を検出する音声始端検知手段と、
前記音声入力開始ボタンにより発声開始の指示を受け取った後、最初に現れる前記音声始端検知手段の結果に基づいて、前記認識単語算出手段の累積尤度算出の開始指示をする音声認識実行開始手段とを具備することを特徴とする請求項1に記載の音声認識装置。
【請求項7】
コンピュータに、
音声入力機能によって取り込まれた入力信号をある一定時間毎に音響分析させて音声の特徴量を算出させる音声分析機能と、
この音声分析機能で算出させた特徴量と予め各単語の標準モデルの各状態と認識単位とが関連付けられた形で記憶されている標準モデル記憶手段に記憶してある標準モデルとから累積尤度を算出させ、その算出させた累積尤度に基づいて音声認識を行なわせる認識単語算出機能と、
所定の操作がされることより認識対象音声の発声終了の指示を行う音声入力指示ボタンによる発声終了の指示を受け取った場合、前記認識単語算出機能の累積尤度算出の停止指示をさせる音声認識実行停止機能とを実現させる音声認識プログラム。
【請求項8】
前記音声認識実行停止機能は、前記音声入力指示ボタンが発声終了の指示を受け取った後、予め定められた時間経過後に、前記認識単語算出手段の累積尤度算出の停止指示をする請求項7に記載の音声認識プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、入力信号中の音声区間を適切に検出し、音声認識を可能にする音声認識装置及び音声認識プログラムに関する。
【背景技術】
【0002】
近年、様々な機器を音声によって操作したり、入力手段としてキーボードなどの代わりに音声を用いる音声認識の技術が用いられている。音声認識は、入力信号から音声区間を抽出し、抽出された音声区間の入力信号から音声の特徴量(ケプストラム等)を計算し、予め用意してある標準パターンと比較した上で、類似度の高いものを算出するという仕組みで動いている。ここで、入力信号から実際に人の音声が含まれる音声区間の検出に失敗すると、標準パターンにマッチせず、誤認識を引き起こす原因になる。特に、促音や撥音の音量は、誤検出しやすい。
【0003】
この問題に対し、音声認識結果の類似度(累積尤度)を検証し、誤った終端だと判断した場合、音声区間の検出を継続させる方法が知られている(例えば、特許文献1参照)。
【特許文献1】特開2001−242879号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところが、「キットカット」、「ハンバーグセット」といった促音又は撥音を複数含む語彙を発声すると、「ッ」や「ン」の音声が発話者に無音すなわち非音声となるため「キッ/トカッ/ト」、「ハン/バーグセッ/ト」のように複数に切れてしまい、特許文献1に記載されたものでは、その度に認識結果の類似度を検証し、音声区間の検出を継続しなければならない。そのため複数回の検証時間を要し、音声認識のリアルタイム性が損なわれ、安定した音声区間の検出が得られ難いという問題が生じる。
【0005】
本発明は前記事情に鑑みてなされたものであって、その目的は、音声区間の終端を的確に検出することにより安定して音声区間の抽出を行い、音声認識の精度を向上させることができる音声認識装置及び音声認識プログラムを提供することにある。
【0006】
本発明は、音声入力手段によって取り込まれた入力信号をある一定時間毎に音響分析して音声の特徴量を算出させる音声分析手段と、この音声分析手段で算出された特徴量と予め各単語の標準モデルの各状態と認識単位とが関連付けられた形で記憶されている標準モデル記憶手段に記憶してある標準モデルとから累積尤度を算出する認識単語算出手段とに基づいて音声認識処理を行なう音声認識装置において、所定の操作がされることより認識対象音声の発声終了の指示を行う音声入力停止ボタンにより発声終了の指示を受け取った場合、前記認識単語算出手段の累積尤度算出の停止指示をするものである。
【発明の効果】
【0007】
本発明によると、音声区間の終端を的確に検出することにより安定して音声区間の抽出を行い、音声認識の精度を向上させることができる音声認識装置及び音声認識プログラムを提供することにある。
【発明を実施するための最良の形態】
【0008】
以下、本発明の各実施の形態について図面を参照して説明する。
(第1の実施の形態)
先ず、第1の実施の形態について述べる。図1は、第1の実施の形態に係る音声認識装置100の内部構成を示すブロック図である。音声認識装置100は、計算処理を実行するCPU11、制御プログラムを記憶するROM12、情報を記憶するRAM13、音声を検出しその音声を認識するめの各種制御プログラムや標準モデル等の各種データを記憶するHDD14、入出力デバイス15で構成される。
【0009】
また、前記入出力デバイス15には、音声を入力するための入力デバイスであるマイク15a、音声を出力するための出力デバイス(例えば、音声認識結果を外部の装置へ出力するためのデバイス)15b、音声認識のための音声の入力開始を指示する音声入力開始ボタンであるとともに音声の入力停止を指示する音声入力停止ボタンであるプッシュボタン15cが含まれる。
【0010】
前記CPU11が制御プログラムをHDD14から読み出し、RAM13を用いて実行することにより、音声認識装置100は、音声を検出しその音声を認識するための音声認識に関する各種機能を実現できるようになっている。
【0011】
図2は、HDD14内の標準モデルを記憶する標準モデル記憶部の一例を示す図である。図2に示すように、標準モデル記憶部14aは認識対象となる単語の標準モデルの各状態と認識単位である所定数(例えば、35)に分割された音素とを関連付けた形で記憶している。
【0012】
図3は音声認識装置100の外観の一例を示す図である。図3に示すように、音声認識装置100は、トランシーバ型の音声入力機器であり、プッシュボタン15c、マイク15a等を備えている。図3(a)は、プッシュボタン15cが押下されていない状態を示しており、図3(b)はプッシュボタン15cが押下されている状態を示している。発話者は、プッシュボタン15cを押下(ON)することにより音声認識の開始を音声認識装置100に指示することができ、その押下しているプッシュボタン15cを離すこと(OFF)により音声認識の停止を音声認識装置100に指示できる。
【0013】
なお、以下では、音声認識装置100はトランシーバ型の音声入力機器の場合で説明するが、これに限られるものではない。また、音声入力開始ボタン及び音声入力停止ボタンとしてプッシュボタン15cを用いる場合で説明するが、音声認識装置100にタッチパネル等を設け、そのタッチパネル上の所定のボタンに音声入力開始ボタン及び音声入力停止ボタンの機能を割り当てるようにしても良いし、音声入力開始ボタンと音声入力停止ボタンとを別に設けるようにしても良い。またタッチパネルを音声認識装置100に設けた場合には、前記出力デバイス15bを設けずにタッチパネルに音声認識結果を表示することにより音声認識結果を出力するようにしても良い。
【0014】
次に、音声認識装置100のCPU11が実行する処理について説明する。図4は、CPU11が実行する音声認識を行なうための処理の要部を示すフローチャートである。
音声認識装置100を利用する発話者からある一定時間(以下、フレームと称する。)の音声のアナログ信号が入力デバイスから入力されると、そのアナログ信号がデジタル信号に変換される(ST101,音声入力手段)。そして、その変換されたデジタル信号に基づいて、1フレーム毎に音響分析をして特徴量を算出する音声分析が行なわれる(ST102,音声分析手段)。
【0015】
続いて、プッシュボタン15cがONとなっているか否かが判断される(ST103)。プッシュボタン15cがONとなっていると判断されなければ(ST103でNO)、ステップST101の処理へ戻り、以下で説明する処理は行なわれない。しかしながら、プッシュボタン15cがONとなっていると判断されると(ST103でYES)、音声認識の実行が開始される(ST104,音声認識実行開始手段)。なお、発話者により、プッシュボタン15cを押下すると同時に、音声認識装置100に認識させたい単語が発話される。
【0016】
上述のように音声認識の実行が開始されると、発話者により発話された音声がマイク15aを介して入力される。すなわち、そのアナログ信号がデジタル信号に変換され(ST105)、その変換されたデジタル信号に基づいて、1フレーム毎に音響分析をして特徴量を算出する音声分析が行なわれる(ST106)。そして、ステップST106で算出された特徴量を用いて、認識単語算出処理が行なわれる(ST107,認識単語算出手段)。
【0017】
この認識単語算出処理を行なうため音声認識の手法についてはいかなるものについても対応可能であるが、本実施の形態では、HMM(Hidden Markov Model)を用いた方法を用いて説明する。HMMを用いた方法とは、音声信号を表すモデルの状態系列を複数個用意しておき、入力信号がどのモデルから生成されたのかを求めるものである。具体的には、ある状態から別の状態に遷移するときに、次にどの状態に遷移するのが、一番尤度が高いかを求め、その尤度を状態が遷移する(自己遷移も含む)毎に累積させることによって、最終的に累積尤度がもっとも大きいものが認識結果となる方法である。認識の単位としては、単語毎や音素毎といった方法がある。説明上、前記図2で説明したように、音声を音素に分けたものを認識単位とし、音素毎の累積尤度を求める方法をとるが、これに限らない
次に、プッシュボタン15cがOFFとなっているか否かが判断される(ST108)。ここで、プッシュボタン15cがOFFとなっていると判断されなれければ(ST108でNO)、ステップST105へ戻り、ステップST105からST107の処理が繰り返される。一方、プッシュボタン15cがOFFとなっていると判断されると(ST108でYES)、音声認識の実行が停止される(ST109,音声認識実行停止手段)。そして、認識単語算出処理で算出された認識単語に基づいて認識結果が出力デバイス15bより出力される(ST110)。
【0018】
さらに、音声認識装置100の処理について説明する。発話者によって、音声認識が不要なときはプッシュボタン15cをOFFされているので、マイク15aに音声が入力されることにより音声分析は行なわれるが、音声認識の実行は開始されない。すなわち、音声認識を行なうための認識単語算出処理は一切行なわれない。
【0019】
音声認識装置100に音声認識を行なわせるときすなわち発話者によってプッシュボタン15cを押下されプッシュボタン15cがONの状態になると、音声認識の実行が開始される。またプッシュボタン15cを押下するのと同時にマイク15aから入力された発話者の発話に対して音声分析を行い、音声分析により得られた特徴量と標準モデル記憶部14aに記憶された標準モデルとに基づいて、累積尤度を計算する認識単語算出処理を行なう。
【0020】
認識させたい単語の発話が終わると同時に、プッシュボタン15cを離しOFF状態になると、音声認識装置100は認識単語算出処理を終了する。すなわち、プッシュボタン15cのOFFにより、音声認識の実行停止が指示され、認識単語算出処理により算出された認識単語に基づいて認識結果が出力される。
【0021】
すなわち、認識単語算出処理は、プッシュボタン15cがONされてからOFFされるまで(発話者の発話の開始から発話の終了まで)実行され、音声分析処理により算出された音声の特徴量と標準モデル記憶部14aに記憶された標準モデルとから、現フレームでの累積尤度及びその累積尤度に対応する音素とを算出する。具体的には、1フレーム毎に入力音素の特徴量と、標準モデル記憶部14aで記憶されている予め決められた数の音素の特徴量をマッチングさせ、それぞれの音素との尤度を求める。また、前フレームでの累積尤度に、現フレームで算出された尤度を足し合わせることによって、累積尤度を更新する。標準モデル記憶部14aに記憶されている各状態とそれに対応する音素とが関連付けられた標準モデルをもとに、現フレームの音声は、どの単語のどの状態である可能性が高いかということが判定できる。そして、このように判定された音声認識結果は、出力デバイス15bにより例えば外部装置等へ出力される。
【0022】
従来技術では、音声区間を決定するために複数の処理を施している。音声区間を決定すると共に、決定された音声終端が正しいかどうかを、累積尤度をその都度比較して検証する。この場合、例えば「きっとかっと」など促音が多い単語はもちろん、多くの単語で音声区間を決定する段階で計算量を要し、リアルタイム性を損なう。そればかりか、音声区間決定にミスが生じれば、致命的な誤認識を起こす可能性もある。
【0023】
この第1の実施の形態の音声認識装置100は、従来の音声区間を決定する処理に代えて、音声認識の実行開始のタイミングをプッシュボタン15cのONとし、音声認識の実行停止のタイミングをプッシュボタンのOFFとして音声区間を決定している。
【0024】
このように発話者のプッシュボタン15cのOFF操作により音声認識の終端を決定するので、例えば促音が多い単語の場合にも終端の誤検出を防止することができる。すなわち、音声区間の終端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0025】
また、音声区間の始端についても、発話と略同時に音声認識が開始されるため、音声認識を開始してから発話者の発話が始まるまでに雑音等が音声入力されることによる誤認識を防止することができる。
【0026】
したがって、音声認識装置100は音声区間を誤検出することなく発話される単語が適切に認識されるので音声区間を決定する段階で計算量を必要とすることがなく音声認識のリアルタイム性を損なうことを防止することができる。
【0027】
(第2の実施の形態)
次に、第2の実施の形態について述べる。なお、前述した第1の実施の形態と同一の部分には同一の符号を付し詳細な説明は省略する。この第2の実施の形態は、第1の実施の形態と音声認識の実行開始及び音声認識の実行停止をさせる機能が異なっている。
【0028】
図5は、発話者が「わふうはんばーぐ」と発話した場合の音声波形W1を示す図である。図5における縦の一点鎖線は、プッシュボタン15cのON/OFF、つまり、音声認識の実行開始と音声認識の実行停止を指示したタイミングを示している。このように第1の実施の形態のように発話者が発話の開始と同時にプッシュボタン15cをONし、発話の終了と同時にプッシュボタン15cをOFFするようにしても、実際の発話のタイミングとプッシュボタン15cのON/OFFのタイミングがずれてしまう場合がある。以下では、このように発話のタイミングとプッシュボタン15cのON/OFFのタイミングがずれてしまう場合について説明する。
【0029】
図6は、第2の実施の形態における音声認識装置100のCPU11が実行する処理の要部を示すフローチャートを示している。
図6に示すように、音声認識の実行が開始されると(ST204,音声認識実行開始手段)、予め設定された設定時間を計時するタイマをセットし(ST205)、その設定時間が経過したか否かを判断し(ST206)、その設定時間が経過したと判断した場合に(ST206でYES)、プッシュボタン15cがOFF(ST210でYES)されるまで発話者の発話した音声に対する認識単語算出処理(ST209)を行う。
【0030】
また、プッシュボタン15cがOFFとなっていると判断され(ST210でYES)、音声認識の実行が停止されると(ST211,音声認識実行停止手段)、予め設定された設定時間を計時するタイマをセットし(ST212)、その設定時間が経過したか否かを判断し(ST213)、その設定時間が経過したと判断した場合に(ST213でYES)、認識結果が出力されるようになっている(ST214)。なお、ステップST201からST204,ST207からST211,ST214の処理は、ステップST101からST110とそれぞれ同じ処理であるため説明は省略する。
【0031】
次に、発話者により「わふうはんばーぐ」と発話されるときの音声認識のタイミングを図7から図11を用いて説明する。
【0032】
図7は、プッシュボタン15cのONのタイミングを示す図である。図7における一点鎖線は発話者によるプッシュボタン15cのONのタイミングを示している。このプッシュボタン15cのONによりタイマがセットされる。図8はプッシュボタン15cON後、時間が経過してタイマにより設定された設定時間が経過したときのタイミングを示す図である。図8における実線は設定時間が経過したタイミングを示しており、このタイミングから認識単語算出処理が開始される。図9は、発話者によりプッシュボタン15cがOFFされたときのタイミングを示す図である。図9における一点鎖線は、プッシュボタン15cOFFのタイミングを示している。このプッシュボタン15cのOFFによりタイマがセットされる。図10は、プッシュボタンOFF後、時間が経過してタイマにより設定された設定時間が経過したときのタイミングを示す図である。図9における実線は設定時間が経過したタイミングを示しており、このタイミングで認識単語算出処理が停止される。
【0033】
図11は、図7から図10を参照して説明した発話者がプッシュボタン15cを利用して、「わふうはんばーぐ」の音声認識をさせるときに、音声認識装置100が認識単語算出処理を行なった開始のタイミングと停止のタイミングを一図で示す図である。発話者がプッシュボタン15cをON/OFFしたタイミングと比較すると、開始及び停止のタイミングがそれぞれ遅くなっている。すなわち、プッシュボタン15cがONされたタイミングよりタイマで設定された設定時間が経過したタイミングから、プッシュボタン15cがOFFされたタイミングよりタイマで設定された設定時間が経過したタイミングまでの間、認識単語算出処理が行なわれている。
【0034】
したがって、第2の実施の形態における音声認識装置100は、発話者によりプッシュボタン15cがONされることにより音声認識の実行開始が指示されても、予め設定された設定時間が経過したときから認識単語算出処理が開始されることにより、発話者の発話がプッシュボタン15cのONのタイミングより遅れた場合に、そのオフセットを修正することができる。すなわち、音声区間の始端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0035】
また、音声認識装置100は、発話者によりプッシュボタン15cがOFFされることにより音声認識の実行停止が指示されても、予め設定された設定時間が経過したときまで認識単語算出処理が行なわれることにより、発話者の発話がプッシュボタン15cをOFFするタイミングよりも長く続いてしまった場合、そのオフセットを修正することができる。すなわち、音声区間の終端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0036】
(第3の実施の形態)
次に、第3の実施の形態について述べる。なお、前述した第1の実施の形態と同一の部分には同一の符号を付し詳細な説明は省略する。この第3の実施の形態は、第1の実施の形態とは、音声分析処理により分析した音声の特徴量を記憶する特徴量記憶部を有している点で、第2の実施の形態とは発話者の発話のタイミングよりプッシュボタン15cのON/OFFのタイミングが遅い点で異なっている。
【0037】
図12は、例えばRAM13に設けられる特徴量記憶部131に記憶される特徴量を説明するための図である。特徴量記憶部131は、予め確保されたn個の記憶域に、音声分析処理により算出された特徴量を順次記憶していく記憶部である。図12に示すように、特徴量記憶部131は、逐次n個の特徴量が記憶され、n+1個目の特徴量は、一番古く記憶された特徴量を押し出しながらn番目に記憶される。すなわち、First in First out(FIFO)に類似し、新規な特徴量が追加されると、最も古い特徴量は破棄されて、特徴量記憶部131は常にn個の特徴量を記憶する。
【0038】
図13は、第3の実施の形態における音声認識装置100のCPU11が実行する処理の要部を示すフローチャートを示している。
【0039】
図13に示すように、プッシュボタン15cがOFFされている場合でも(ST304でNO)音声分析により算出された特徴量が順次特徴量記憶部131に記憶され(ST303)、プッシュボタン15cがONされている場合でも(ST304でYES)音声分析により算出された特徴量が順次特徴量記憶部131に記憶される(ST308)。このように特徴量記憶部131に順次特徴量が記憶される。
【0040】
そして、音声認識の実行開始が指示されると(ST305,音声認識実行開始手段)、その実行開始が指示されたときに特徴量記憶部131に記憶されている最も古い特徴量から、実行停止が指示されたたときに特徴量記憶部に131に記憶されている最も古い特徴量までの特徴量に基づいて認識単語算出処理が行なわれる(ST309)。具体的には、特徴量記憶部131に記憶されているn個の特徴量のうちk(n≧k)個の特徴量を用いて順次認識単語算出処理を行なう。なお、ステップST301、ST302、ST304からST307、ST310からST312の処理は、ステップST101からST106、ST108からST110の処理とそれぞれ同様な処理であるため説明を省略する。なお、ステップST311は音声認識実行停止手段を構成する。
【0041】
次に、発話者により「わふうはんばーぐ」と発話されるときの音声認識のタイミングを図14及び図15を用いて説明する。
【0042】
図14における一点鎖線は、プッシュボタン15cONのタイミングを示している。また、実線はプッシュボタン15cONとなったときに認識単語算出処理を開始するタイミングを示している。すなわち、図14に示すように、プッシュボタン15cONとなったタイミングより、予め指定されている指定時間(特徴量をn個記憶するのに相当する時間)前から認識単語算出処理が行なわれることになる。
【0043】
また、図15における一点鎖線は、プッシュボタン15cOFFのタイミングを示している。また、実線はプッシュボタン15cOFFとなったときに認識単語算出処理を停止するタイミングを示している。すなわち、図15に示すように、プッシュボタン15cのOFFとなったタイミングより、指定時間前まで認識単語算出処理が行なわれることになる。
【0044】
図16は、図14及び図15で説明した発話者がプッシュボタン15cを利用して、「わふうはんばーぐ」の音声認識をさせるときに、認識単語算出処理を行なった開始と停止のタイミングを一図で示す図である。プッシュボタン15cをON/OFFしたタイミングと比較すると、開始及び停止のタイミングがそれぞれ早くなっている。すなわち、プッシュボタン15cがONされたタイミングより指定時間前のタイミングから、プッシュボタン15cがOFFされたタイミングより指定時間前までのタイミングの間、認識単語算出処理が行なわれている。
【0045】
したがって、第3の実施の形態における音声認識装置100は、発話者によりプッシュボタン15cがONされることにより音声認識の実行開始が指示されても、指定時間(特徴量記憶部131に記憶されるn個の特徴量に相当する時間)前から認識単語算出処理が開始されることにより、発話者によるプッシュボタン15cONのタイミングが発話より遅れた場合に、発話者により発話された音声を適切に音声認識処理することができる。すなわち、音声区間の始端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0046】
また、音声認識装置100は、発話者によりプッシュボタン15cがOFFされることにより音声認識の実行停止が指示されても、指定時間前までのみ認識単語算出処理が行なわれることにより、発話者のプッシュボタン15cをOFFするタイミングが発話よりも長く続いてしまった場合に、発話者により発話された音声を適切に音声認識処理することができる。すなわち、音声区間の終端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0047】
(第4の実施の形態)
次に、第4の実施の形態について述べる。なお、前述した第1の実施の形態と同一の部分には同一の符号を付し詳細な説明は省略する。この第4の実施の形態は、第1の実施の形態とは発話者により発話された音声の始端を検知する点で異なっている。
【0048】
図17は、発話者により「わふうはんばーぐ」と発話された場合の音声波形W1と音量の波形W2との関係を示す図である。図17(a)は音量の波形W2を示しており、図17(b)は音声波形W1を示している。点線枠に注目すれば明らかなように、音量の波形W2は音声終端に比べ、音声始端は急峻に波形が立ち上がる。このため、音量の立ち上がりを検知することで、音声始端を見つけることは低雑音下では比較的容易である。一方、音声終端は音量の立ち下りが目立たず、促音等で音量が途切れてしまうため、正確な終端位置を検知することは困難である。
【0049】
図18は、第4の実施の形態における音声認識装置100のCPU11が実行する処理の要部を示すフローチャートを示している。
【0050】
音声認識の実行開始が指示されると(ST404,音声認識実行開始手段)、発話者の発話した音声が入力され、その入力されたアナログ信号がデジタル信号に変換される(ST405)。そして、その変換されたデジタル信号に基づいて、1フレーム毎に音響分析をして特徴量を算出する音声分析が行なわれる(ST406)。そして、音声始端検知処理が行なわれる(ST407,音声始端検知手段)。音声始端検知処理は、音声分析によって算出された特徴量を基に、例えばユークリッドノルムなどを用いて、入力される音量を逐次検知する。そして、音声始端を検知したか否かが判断される(ST408)。音声始端を検知していないと判断された場合は(ST408でNO)、ステップST405の処理へ戻り、上述したステップST405からST408の処理を繰り返す。
【0051】
このようにステップST405からST408の処理を繰り返している間に、発話者から発話がなされると、ステップST407で音量の立ち上がりが検知され、音声始端を検知したと判断されると(ST408でYES)、発話者の発話した音声が入力され、そのアナログ信号がデジタル信号に変換され(ST409)、その変換されたデジタル信号に基づいて、1フレーム毎に音響分析をして特徴量を算出する音声分析が行なわれる(ST410)。そして、ステップST410で算出された特徴量を用いて、認識単語算出処理が行なわれる(ST411)。なお、ステップST401からST404、ST409からST414の処理は、ステップST101からST110の処理とそれぞれ同様であるため説明は省略する。
【0052】
図19及び図20は、発話者がプッシュボタン15cを利用して、「わふうはんばーぐ」の音声認識を音声認識装置100にさせるときに、認識単語算出処理を行なった開始のタイミングを示す図である。図19における一点鎖線は、プッシュボタン15cONのタイミングを示している。図20における実線は、認識単語算出処理の開始のタイミングを示しいている。すなわち、プッシュボタン15cがONされた後、音量の立ち上がりを検知したタイミングを示している。
【0053】
したがって、第4の実施の形態における音声認識装置100は、発話者によりプッシュボタン15cがONされることにより音声認識の実行開始が指示されても、発話された音声の音量の立ち上がりを検知してから認識単語算出処理が開始される。したがって、発話者のプッシュボタン15cのONによる音声認識の音声始端のゆらぎを解消することができ、より正確な累積尤度算出が可能となる。すなわち、音声区間の始端を的確に検出することにより、安定して音声区間の抽出を行い、音声認識の精度を向上させることができる。
【0054】
本実施例では装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、CD−ROM等プログラムを記憶でき、かつ、装置が読取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように、予めインストールやダウンロードにより得る機能は装置内部のオペレーティングシステム(OS)等と協同してその機能を実現させるものであっても良い。
【0055】
なお、本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化でき、また、実施の形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を変形できるものである。
【図面の簡単な説明】
【0056】
【図1】本発明の第1の実施の形態における音声認識装置の要部構成を示すブロック図。
【図2】同実施の形態における標準モデル記憶部の例を示す図。
【図3】同実施の形態における音声認識装置の外観を示す図。
【図4】同実施の形態における処理の要部を示すフローチャート。
【図5】本発明の第2の実施の形態における音声の波形の一例を示す図。
【図6】同実施の形態における処理の要部を示すフローチャート。
【図7】同実施の形態における音声入力指示ボタンONによる認識単語算出処理開始のタイミングを示す図。
【図8】同実施の形態におけるタイマにより遅延した認識単語算出処理開始のタイミングを示す図。
【図9】同実施の形態における音声入力指示ボタンOFFによる認識単語算出処理停止のタイミングを示す図。
【図10】同実施の形態におけるタイマにより遅延した認識単語算出処理停止のタイミングを示す図。
【図11】同実施の形態におけるタイマにより遅延した認識単語算出処理開始及び停止のタイミングを示す図。
【図12】本発明の第3の実施の形態における特徴量記憶部の例を示す図。
【図13】同実施の形態における処理の要部を示すフローチャート。
【図14】同実施の形態における音声入力指示ボタンONによるタイミングより前となる認識単語算出処理開始のタイミングを示す図。
【図15】同実施の形態における音声入力指示ボタンOFFによるタイミングより前となる認識単語算出処理停止のタイミングを示す図。
【図16】同実施の形態における音声入力指示ボタンON/OFFによるタイミングより前となる認識単語算出処理の開始及び停止のタイミングを示す図。
【図17】本発明の第4の実施の形態における音声波形と音量の波形との関係を示す図。
【図18】同実施の形態における処理の要部を示すフローチャート。
【図19】同実施の形態における音声入力指示ボタンONによる認識単語算出処理開始のタイミングを示す図。
【図20】同実施の形態における音声入力指示ボタンONによるタイミングより後となる音量の波形の検知にもとづく認識単語算出処理開始のタイミングを示す図。
【符号の説明】
【0057】
11…CPU、12…ROM、13…RAM、14…HDD、14a…標準モデル記憶部、15…入出力デバイス、15a…マイク、15b…出力デバイス、15c…プッシュボタン(音声入力開始ボタン,音声入力停止ボタン)、100…音声認識装置、131…特徴量記憶部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013