米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> シャープ株式会社

発明の名称 音声認識装置及びコンピュータ読み取り可能な記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−92477(P2001−92477A)
公開日 平成13年4月6日(2001.4.6)
出願番号 特願平11−266475
出願日 平成11年9月21日(1999.9.21)
代理人 【識別番号】100103296
【弁理士】
【氏名又は名称】小池 隆彌
【テーマコード(参考)】
5D015
【Fターム(参考)】
5D015 DD03 DD05 HH22 
発明者 鶴田 彰
要約 目的


構成
特許請求の範囲
【請求項1】 入力された音声信号の音響パラメータを抽出する音響分析部と、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部と、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部と、上記音声区間と推定される区間に対し、上記類似度に基づいて音声区間かノイズ区間かを判定する音声区間判定部と、該音声区間判定部によって音声区間と判定された区間に対し、上記類似度と単語辞書とに基づいて単語照合を行う単語照合部と、を有することを特徴とする音声認識装置。
【請求項2】 上記音声区間判定部は、上記音声区間と推定される区間にわたる各音韻での最大類似度の総和と無音の類似度の総和とに基づいて音声区間かノイズ区間かを判定することを特徴とする請求項1記載の音声認識装置。
【請求項3】 上記最大類似度の総和と上記無音の類似度の総和との比に基づくことを特徴とする請求項2記載の音声認識装置。
【請求項4】 上記音声区間判定部は、上記音声区間と推定される区間の長さに応じて音声区間かノイズ区間かを判定する基準を可変にすることを特徴とする請求項1記載の音声認識装置。
【請求項5】 入力された音声信号の音響パラメータを抽出する音響分析部と、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部と、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部と、上記音声区間と推定される区間に対し、上記類似度とノイズを表現する単語を含む単語辞書とに基づいて単語照合を行う単語照合部と、該単語照合部によりノイズを表現する単語が所定順位候補として選択された場合に、上記音声区間と推定される区間をノイズ区間と判定するノイズ区間判定部と、を有することを特徴とする音声認識装置。
【請求項6】 コンピュータに、入力された音声信号の音響パラメータを抽出する音響分析部、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部、上記音声区間と推定される区間に対し、上記類似度に基づいて音声区間かノイズ区間かを判定する音声区間判定部、該音声区間判定部によって音声区間と判定された区間に対し、上記類似度と単語辞書とに基づいて単語照合を行う単語照合部、として機能させることを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項7】 コンピュータに、入力された音声信号の音響パラメータを抽出する音響分析部、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部、上記音声区間と推定される区間に対し、上記類似度とノイズを表現する単語を含む単語辞書とに基づいて単語照合を行う単語照合部、該単語照合部によりノイズを表現する単語が所定順位候補として選択された場合に、上記音声区間と推定される区間をノイズ区間と判定するノイズ区間判定部、として機能させることを特徴とするコンピュータ読み取り可能な記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、入力された音声信号から音声区間を切り出し、切り出された音声区間を音声認識の対象とする音声認識装置に関する。
【0002】
【従来の技術】現在、カーナビや電話機等の機械に対して所定の動作を行わせる際に、キーやジョグダイヤル等を用いる方法が主流である。ところが、運転中はカーナビの操作がしにくい、多数のデータを登録した電話機ではデータを検索するのに時間がかかる等の問題がある。そこで、直接音声を入力することで指令を与え、所定の動作を行わせる音声認識が注目されている。
【0003】従来、このような音声認識装置は、図6に示すようにマイクロフォンによって集音したアナログ音声信号をA/D変換器でディジタル化した音声信号31から音声区間切り出し部32で音声区間を切り出し、切り出した音声区間に対し音響分析部33により音響パラメータを抽出してマッチング部34に与え、ここで、予め辞書部35に登録された音響パラメータに最もマッチングする単語等の認識結果36を出力し、この出力により指令を与えるようにしている。
【0004】この音声区間の切り出しは、例えば特開平6−266383号公報に示されるように、音声信号から算出した音声パワーが所定値以上に増大した開始点を検出し、音声パワーが第1閾値以下となる仮終了点を検出した後、所定の第2閾値を超えて未満となる位置に仮終了点を順次移動していき、最終の仮終了点が終了点と決定したことに対応して、上記開始点から終了点までの音声信号を切り出すもので、この音声区間を音声認識の対象としている。
【0005】
【発明が解決しようとする課題】ところが、このように音声信号から音声区間を切り出す場合、入力される音声には発声者の周囲の雑音(ノイズ)が含まれるので、所定値を小さくするとノイズ区間を誤って音声区間として切り出してしまう場合が生じる。これを防止するために所定値を大きくすると、入力される音声が小さい場合や周囲の雑音が大きい場合に音声区間を切り出せない場合が生じる。
【0006】そこで、本発明の目的は、切り出された区間が音声区間かノイズ区間かを判定でき、音声区間の欠落を防止して正確な音声認識を行うことが可能な音声認識装置を提供することにある。
【0007】
【課題を解決するための手段】請求項1記載の音声認識装置は、入力された音声信号の音響パラメータを抽出する音響分析部と、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部と、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部と、上記音声区間と推定される区間に対し、上記類似度に基づいて音声区間かノイズ区間かを判定する音声区間判定部と、該音声区間判定部によって音声区間と判定された区間に対し、上記類似度と単語辞書とに基づいて単語照合を行う単語照合部と、を有することを特徴とする。
【0008】請求項2記載の音声認識装置は、請求項1記載の音声認識装置において、上記音声区間判定部は、上記音声区間と推定される区間にわたる各音韻での最大類似度の総和と無音の類似度の総和とに基づいて音声区間かノイズ区間かを判定することを特徴とする。
【0009】請求項3記載の音声認識装置は、請求項2記載の音声認識装置において、上記最大類似度の総和と上記無音の類似度の総和との比に基づくことを特徴とする。
【0010】請求項4記載の音声認識装置は、請求項1記載の音声認識装置において、上記音声区間判定部は、上記音声区間と推定される区間の長さに応じて音声区間かノイズ区間かを判定する基準を可変にすることを特徴とする。
【0011】請求項5記載の音声認識装置は、入力された音声信号の音響パラメータを抽出する音響分析部と、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部と、上記音響パラメータと無音を含む各音韻の音響パラーメータとの類似度を計算する類似度演算部と、上記音声区間と推定される区間に対し、上記類似度とノイズを表現する単語を含む単語辞書とに基づいて単語照合を行う単語照合部と、該単語照合部によりノイズを表現する単語が所定順位候補として選択された場合に、上記音声区間と推定される区間をノイズ区間と判定するノイズ区間判定部と、を有することを特徴とする。
【0012】請求項6記載のコンピュータ読み取り可能な記録媒体は、コンピュータに、入力された音声信号の音響パラメータを抽出する音響分析部、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部、上記音響パラメータと無音を含む各音韻の音響パラメータとの類似度を計算する類似度演算部、上記音声区間と推定される区間に対し、上記類似度に基づいて音声区間かノイズ区間かを判定する音声区間判定部、該音声区間判定部によって音声区間と判定された区間に対し、上記類似度と単語辞書とに基づいて単語照合を行う単語照合部、として機能させることを特徴とする。
【0013】請求項7記載のコンピュータ読み取り可能な記録媒体は、コンピュータに、入力された音声信号の音響パラメータを抽出する音響分析部、上記音響パラメータから音声区間と推定される区間を切り出す音声区間切り出し部、上記音響パラメータと無音を含む音韻パターンとの類似度を計算する類似度演算部、上記音声区間と推定される区間に対し、上記類似度とノイズを表現する単語を含む単語辞書とに基づいて単語照合を行う単語照合部、該単語照合部によりノイズを表現する単語が所定順位候補として選択された場合に、上記音声区間と推定される区間をノイズ区間と判定するノイズ区間判定部、として機能させることを特徴とする。
【0014】
【発明の実施の形態】(実施の形態1)図1に、本実施の形態に係る音声認識装置のブロック図を示す。この音声認識装置は、音響分析部12、類似度演算部13、音韻パターン辞書部14、音声区間切り出し部15、音声区間判定部16、単語照合部17、単語辞書部18で構成されている。
【0015】図1において、マイクロフォンによって集音したアナログの音声信号をA/D変換器でディジタル化した音声信号11の特徴である音響パラメータを、音響分析部12は抽出する。類似度演算部13は、音韻パターン辞書部14に登録されている各音韻の音響パラメータと入力された音響パラメータとの類似度を求める。音声区間切り出し部15は、音声信号11のパワーが所定値以上の区間を切り出す。なお、この切り出しにパワーの代わりに振幅を用いても良い。音声区間判定部16は、音声区間切り出し部15で切り出された区間について、ノイズ区間か音声区間か判定する。単語照合部17は、各単語をそれらの音韻の系列で表現(例えば、単語の読みを音素表記)した単語を登録した単語辞書部18を用いて、類似度演算部13の各音韻の類似度から各単語の類似度を求める。単語辞書部18に登録されている単語の中で、もっとも類似度の大きい単語を認識結果19とする。
【0016】以下、図2のフローを用いて、上記の音声認識装置の動作を具体的に説明する。まず、ユーザがマイクロフォンに向かって発声すると、ステップS11で、入力されたアナログ音声信号がA/D変換器でディジタル化される。次に、ステップS12で、音響分析部12は、線形予測分析などの分析手法を用いて音声信号の特徴である音響パラメータを抽出する。この音響パラメータとしては、例えばLPCケプストラム、差分LPCケプストラム、パワーや差分パワーなどを用いればよい。ステップS13で、類似度演算部13は、ステップS12で抽出された音響パラメータと、音韻パターン辞書部14にあらかじめ登録されている各音韻の音響パラメータとの類似度を計算する。
【0017】即ち、図3に示されるように、音響分析部12から入力された音響パラメータと音韻パターン辞書部14の各音韻(図3の「/−/」で示される無音を示す音韻を含む)ごとの音響パラメータ(図3のスペクトル)との類似度をサンプリング時間1〜Tにわたって順次求め、図3に示すような類似度行列が得られる。なお、無音の音響パラメータは、他の音韻と同様にして作成できる。
【0018】ステップS14で、音声区間切り出し部15は、ステップS12で抽出されたパワーが所定値以上に増大した開始点を検出し、パワーが閾値以下となる仮終了点を検出した後、パワーが閾値以下の状態が一定時間以上継続した場合仮終了点を終了点として、音声区間と推定される区間の切り出しを終了する。
【0019】切り出し終了と判定された場合、ステップS15で、切り出された区間について、音声区間判定部16は、音声区間か否(ノイズ区間)かを以下の基準で判定する。つまり、ここで切り出された区間に対応する図3のサンプリング時間にわたって、各サンプリング点での各音韻(無音を含む)での類似度の最大値の総和である最大類似度の和Dmaxと、切り出された区間に対応する図3のサンプリング時間にわたる無音(図3の「/−/」で示される音韻)の類似度の総和であるD0を求め、その比(D0/Dmax)が閾値未満であった場合音声区間と判定し、閾値以上であった場合ノイズ区間と判定する。なお、ノイズ区間か音声区間かを判定する閾値は、切り出した区間長が長くなるに応じて小さくした方が判定精度が向上するので望ましい。
【0020】音声区間と判定された場合、ステップS16で、単語照合部17は、単語辞書部18に予め登録されている各単語の音韻系列と、切り出された音声区間の音韻の類似度から、DPマッチング等の手法を用いて、各単語の類似度を計算する。ステップS17で、もっとも類似度の大きな単語が認識結果として出力される。なお、ステップS14で切り出し終了と判定されなかった場合や、ステップS15でノイズ区間と判定された場合には、ステップS11に戻る。
【0021】このように、本実施の形態によれば、切り出された区間について、無音を含む各音韻の類似度を用いて音声区間かノイズ区間かを判断することができ、音声認識対象となる音声区間にノイズ区間の混入を防ぐことができる。
【0022】(実施の形態2)図4に、本実施の形態に係る音声認識装置のブロック図を示す。この音声認識装置は、音響分析部22、類似度演算部23、音韻パターン辞書部24、音声区間切り出し部25、単語照合部26、単語辞書部27、ノイズ区間判定部28で構成されている。
【0023】図4において、マイクロフォンによって集音したアナログの音声信号をA/D変換器でディジタル化した音声信号21の特徴である音響パラメータを、音響分析部22は抽出する。類似度演算部23は、音韻パターン辞書部24に登録されている各音韻の音響パラメータと入力された音響パラメータとの類似度を求める。音韻パターン辞書24は、実施の形態1の音韻パターン辞書14と同様の構成である。音声区間切り出し部25は、音声信号11のパワーが所定値以上の区間を切り出す。なお、この切り出しにパワーの代わりに振幅を用いても良い。
【0024】単語照合部26は、各単語をそれらの音韻の系列で表現(例えば、単語の読みを音素表記)した単語を登録した単語辞書部27を用いて、予め登録されている各単語の音韻系列と、切り出された音声区間の音韻の類似度から、DPマッチング等の手法を用いて、各単語の類似度を計算する。単語辞書部27には、無音の音素が続く記述によりノイズを表現する単語が予め登録されていて、ノイズを表現する単語の類似度も計算される。
【0025】ノイズ区間判定部28は、単語辞書部27に登録されている単語の中で、もっとも類似度の大きい単語がノイズを表現する単語であった場合、切り出された区間をノイズ区間であると判定し、その区間を棄却して、認識結果として出力しない。ノイズを表現する単語でなかった場合、その単語を認識結果29とする。
【0026】以下、図5のフローを用いて、上記の音声認識装置の動作を具体的に説明する。まず、ユーザがマイクロフォンに向かって発声すると、ステップS21で、入力されたアナログ音声信号がA/D変換器でディジタル化される。次に、ステップS22で、音声分析部22は、線形予測分析などの分析手法を用いて音声信号の特徴である音響パラメータを抽出する。この音響パラメータとしては、例えばLPCケプストラム、差分LPCケプストラム、パワーや差分パワーなどを用いればよい。ステップS23で、類似度演算部23は、ステップS22で抽出された音響パラメータと、音韻パターン辞書部24にあらかじめ登録されている各音韻の音響パラメータとの類似度が計算され、図3に示すような類似度行列が作成される。
【0027】ステップS24で、音声区間切り出し部25は、ステップS22で抽出されたパワーが所定値以上に増大した開始点を検出し、パワーが閾値以下となる仮終了点を検出した後、パワーが閾値以下の状態が一定時間以上継続した場合仮終了点を終了点として、音声区間の切り出しを終了する。
【0028】切り出し終了と判定された場合、ステップS25で、単語照合部26は、切り出された音声区間の類似度行列から単語辞書部27に登録されている各単語ごとに類似度が計算される。このとき、ステップS26で、ノイズ区間判定部28は、もっとも類似度の大きい単語がノイズを表現する単語である場合にノイズ区間と判定する。ノイズを表現する単語でない場合、ステップS27で、もっとも類似度の大きい単語が認識結果として出力される。ステップS24で切り出し終了と判定されなかった場合や、ステップS26でノイズを表現する単語であると判定された場合には、ステップS21に戻る。本実施の望ましい形態として、もっとも類似度の大きな単語がノイズを表現する単語の場合を説明したが、認識候補の上位の所定順位内にノイズを表現する単語がはいってくる場合にもノイズ区間と判定してもよい。
【0029】このように、本実施の形態によれば、単語辞書にノイズを表現する単語を登録しておくことにより、単語照合の結果を用いてノイズ区間を棄却することができる。
【0030】以上の各実施の形態で説明した音声認識処理は、プログラムにより実行されるが、このプログラムの全部または一部を、直接あるいは通信回線を介してフロッピーディスクやハードディスク等のコンピュータ読み取り可能な記録媒体に予め格納しておき、必要に応じてインストールして用いてもよい。
【0031】
【発明の効果】本発明によれば、無音を含む各音韻の類似度を用いて、切り出された区間が音声区間かノイズ区間かを判定し、音声区間を正しく抽出できるため、正確に音声認識を行うことができる。
【0032】また、本発明によれば、ノイズを表現する単語を含む単語辞書を用いて、ノイズを表現する単語が所定順位内に認識された場合にノイズ区間として棄却でき、音声区間を正しく抽出できるため、正確に音声認識を行うことができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013