米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> ヤマハ株式会社

発明の名称 音声特徴量算出装置およびプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−25296(P2007−25296A)
公開日 平成19年2月1日(2007.2.1)
出願番号 特願2005−207775(P2005−207775)
出願日 平成17年7月15日(2005.7.15)
代理人 【識別番号】100098084
【弁理士】
【氏名又は名称】川▲崎▼ 研二
発明者 吉岡 靖雄
要約 課題
音声の特徴量を示す係数列を算出するシステムにおいて、当該係数列に含まれる環境雑音による影響を、簡便かつ低負荷な処理により低減することを可能とする手段を提供する。

解決手段
メルスケール帯域フィルタ処理部913は、音声信号のスペクトルに対しメルスケール帯域フィルタによる濾波を行うことにより算出したフィルタバンク出力値を対数値算出部914に引き渡し、対数値算出部914はフィルタバンク出力値の対数値を算出し変換部101に引き渡す。変換部101は対数値を所定の条件を満たす関数もしくは変換表を用いて変換し、環境雑音の特徴量の成分が低減された変形対数値を生成し、離散コサイン変換処理部915に引き渡す。離散コサイン変換処理部915は変形対数値を用いてMFCCを生成する。このように生成されるMFCCは音声認識装置92において音声認識のために用いられる。
特許請求の範囲
【請求項1】
音声信号から前記音声信号のスペクトルを算出するスペクトル算出手段と、
前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、
前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、
前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数pおよび定数q(ただし、m≦p<q≦M)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす関数もしくは変換表に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段と
を備えることを特徴とする音声特徴量算出装置。
【請求項2】
前記変換手段は、定数n(ただし、n>1)に関し、次式(1)に従い前記変換を行うことを特徴とする請求項1に記載の音声特徴量算出装置。
【数1】


【請求項3】
前記変換手段は、定数a(ただし、a>0)および定数c(ただし、c>0)に関し、次式(2)に従い前記変換を行うことを特徴とする請求項1に記載の音声特徴量算出装置。
【数2】


【請求項4】
前記フィルタ手段は、メルスケール帯域フィルタにより前記指標値を算出する
ことを特徴とする請求項1乃至3のいずれかに記載の音声特徴量算出装置。
【請求項5】
前記変換手段により算出された数値列を離散コサイン変換することにより、メル周波数ケプストラム係数列を算出する係数列算出手段を備える
ことを特徴とする請求項4に記載の音声特徴量算出装置。
【請求項6】
音声信号から前記音声信号のスペクトルを算出する処理と、
前記スペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の指標値の各々の対数値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の対数値の最小値をm、最大値をMとしたとき、定数pおよび定数q(ただし、m≦p<q≦M)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす関数もしくは変換表に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する処理と
をコンピュータに実行させることを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声認識装置の利用に供される信号の生成技術に関する。
【背景技術】
【0002】
音声認識を自動的に行う音声認識装置が種々提案されている。一般的に、音声認識装置は予め記憶されている様々な言葉に対応する音声の特徴量と、発声者により発声された音声の特徴量との間の類似度に基づき、発声者の発声した言葉を認識する。
【0003】
音声認識装置に用いられる音声の特徴量の算出方法は様々なものが提案されている。それらの算出方法の一つに、音声のスペクトルを複数の周波数帯域ごとに設けられたフィルタにより濾波して得られるフィルタバンク出力値を離散コサイン変換または離散逆フーリエ変換を用いて変換し、音声の特徴量を示す係数列を算出する方法がある。MFCC(Mel−Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)は、そのような方法により算出される係数列の一例であり、広く用いられている。以下に、離散コサイン変換により得られるMFCCを用いる場合を例として、従来技術にかかる音声認識の仕組みを説明する。
【0004】
図7は、従来技術による音声認識システム9の構成を示すブロック図である。音声認識システム9は、発声者の音声を音声信号に変換する音声信号生成装置90、音声信号生成装置90により生成された音声信号を用いてMFCCを算出する音声特徴量算出装置91、音声特徴量算出装置91により算出されたMFCCを用いて音声認識を行う音声認識装置92を備えている。
【0005】
音声信号生成装置90は、音声を収音し音声信号に変換する音声信号生成部901、音声信号生成部901により生成された音声信号のうち例えば所定の閾値以上の振幅値をとる区間を発声区間として切り出す発声区間切出部902を備えている。発声区間切出部902により切り出された発声区間の音声信号は例えば40ミリ秒長のフレームに分割された後、音声信号生成装置90から音声特徴量算出装置91に出力される。
【0006】
音声特徴量算出装置91は、音声信号生成装置90から受け取ったフレーム単位の音声信号に例えばハミング窓等の時間窓関数を時間軸方向にスライドさせながら乗ずることによりフレーム分割による高周波数ノイズの低減された音声信号を生成する窓かけ処理部911、窓かけ処理部911による窓かけ処理が施されたフレーム単位の音声信号にFFT(Fast Fourier Transform、高速フーリエ変換)処理を施し音声信号のスペクトルを算出するFFT処理部912、メルスケール帯域フィルタと呼ばれるフィルタ群(後述)によりFFT処理部912により算出されたスペクトルを濾波することにより複数の周波数帯域の各々に関する周波数成分のパワーを示す指標値を算出するメルスケール帯域フィルタ処理部913、メルスケール帯域フィルタ処理部913により算出された指標値の各々の対数値を算出する対数値算出部914、対数値算出部914により算出された対数値の集まりを離散コサイン変換(後述)することによりMFCCを算出する離散コサイン変換処理部915を備えている。
【0007】
メルスケール帯域フィルタとは、線形の周波数軸を次式(1)により変換して得られるメル周波数軸上に等間隔に配置された複数の中心周波数の各々に関し、中心周波数における乗数が1、隣接するフィルタの中心周波数における乗数が0(ゼロ)となるように、線形で乗数が変化するフィルタの集まりである。
【数1】


【0008】
図8は、メルスケール帯域フィルタを示すグラフである。図8に示されるように、例えば中心周波数fk(Hz)のフィルタ95は中心周波数fk(Hz)において乗数1をとり、低周波数側の隣接するフィルタの中心周波数fk-1(Hz)および高周波数側の隣接するフィルタの中心周波数fk+1(Hz)において乗数0をとる三角形状をしている。この場合、図8における三角形状の各々がフィルタバンクと呼ばれる。
【0009】
ところで、線形の周波数軸をメル周波数軸に変換する目的は、低周波数帯域における音高の変化に比較し高周波数帯域における音高の変化に鈍感な人間の聴覚の特性を考慮して、人間の聴覚に沿った周波数間の距離を示すことを可能とするためである。
【0010】
メルスケール帯域フィルタ処理部913は、FFT処理部912により算出されたスペクトルにメルスケール帯域フィルタの各フィルタバンクを乗じて加算することにより、各フィルタバンクによりカバーされる周波数帯域に含まれるスペクトルのパワーの指標値として、フィルタバンク出力値rk(ただし、kはフィルタバンク番号)を算出する。なお、以下、フィルタバンクの数をLとする。
【0011】
対数値算出部914はメルスケール帯域フィルタ処理部913により算出されたフィルタバンク出力値rkの各々の対数値Rkを算出する。離散コサイン変換処理部915は、対数値算出部914により算出されたフィルタバンク出力値の対数値Rkを次式(2)に従い離散コサイン変換することで、係数列であるMFCCを算出する。ただし、式(2)におけるCiはMFCCにおける第i次の係数を示す。
【数2】


【0012】
ここで、iはLの約1/2程度を上限として有効な数値が得られる。例えば、フィルタバンク数が12であれば、C1、C2、・・・、C6が有効なMFCCとして得られる。音声特徴量算出装置91は、上記のように算出したCi群を音声認識装置92に出力する。
【0013】
音声認識装置92は、学習モードと認識モードの2つの動作モードを持っている。学習モードにおいては、音声認識装置92は音声特徴量算出装置91から発声者の音声を示す音声信号のフレームごとにCi群を受け取り、一連の発音を示す音声信号に関するフレームごとのCi群を、発声者により発音された言葉に対応付けてデータベース921に順次格納する。従って、データベース921には例えば「おはよう」という言葉に対応する特徴量を示す係数列群として、「おはよう」の音声信号のフレーム数に応じたCi群が時系列的に格納されることになる。以下、Ci群の時系列的な集まりを「Ci群列」と呼ぶ。発声者は様々な言葉を順次発音するとともに、発音した言葉を例えば音声認識装置92に接続されたキーボード(図示略)等の操作手段により音声認識装置92に入力することにより、データベース921に特定の言葉に対応するCi群列を順次格納させることができる。
【0014】
一方、音声認識装置92は認識モードにおける処理を行うDPマッチング部922および判定部923を備えている。DPマッチング部922は、音声特徴量算出装置91から受け取るCi群列とデータベース921に格納されているCi群列の各々との類似度を示す距離をDP(Dynamic Programming)マッチング法により算出する。また、判定部923はデータベース921に格納されているCi群列のいずれに関し算出された距離が最短であるかを判定する。さらに、判定部923は、距離が最短であると判定したCi群列に対応付けてデータベース921に格納されている言葉を、発声者により発音された言葉であると特定し、特定した言葉を示すデータを他の装置に送信したり、ユーザにメッセージとして通知したりする。
以上が、従来技術にかかる音声認識システム9により音声認識が行われる仕組みである。
【0015】
ところで、音声認識システム9において、音声認識装置92が学習モードおよび認識モードのいずれの場合であっても発声者が置かれた音空間が低ノイズであれば期待される精度で音声認識が行われるが、一般的には、発声者が発音を行う音空間には無視できない程度の環境雑音が存在する。従って、音声認識システム9により生成されるMFCCは、発声者の音声に環境雑音が混ざった音の特徴量を示すものとなる。その結果、音声認識システム9においては、必ずしも常に期待される精度で音声認識が行われるとは限らない。
【0016】
上記の問題を解決するために、音声信号に対し、例えばスペクトルサブストラクションと呼ばれる雑音低減処理を施すことが考えられる。スペクトルサブストラクションとは、環境雑音を示す音信号のスペクトルを音声と環境雑音の混ざった音を示す音信号のスペクトルから減ずることにより音声を示す音声信号のスペクトルを取り出す技術である。例えば特許文献1には、スペクトルサブストラクションを用いて音信号から音声区間を検出する技術が開示されている。
【特許文献1】特開2000−47696号公報
【発明の開示】
【発明が解決しようとする課題】
【0017】
スペクトルサブストラクション等の雑音低減処理の多くは、優れた効果をもたらすと同時に多くの計算量を要し、例えば携帯端末装置等のリソース制約が厳しい装置において実現することが困難な場合がある。
【0018】
上記の状況に鑑み、本発明は、音声の特徴量を示す係数列を算出するシステムにおいて、当該係数列に含まれる環境雑音による影響を、簡便かつ低負荷な処理により低減することを可能とする手段を提供することを目的とする。
【課題を解決するための手段】
【0019】
上記課題を達成するために、本発明は、音声信号から前記音声信号のスペクトルを算出するスペクトル算出手段と、前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数pおよび定数q(ただし、m≦p<q≦M)に関し、入力値xに対する出力値yが(a)x=mのときy≧mであり、(b)x=Mのときy≦Mであり、(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である、との条件を満たす関数もしくは変換表に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段とを備えることを特徴とする音声特徴量算出装置を提供する。
【0020】
かかる音声特徴量算出装置によれば、音声と比べ相対的に環境雑音の特徴量の成分を多く含むフィルタバンクに関する小さい値の対数値はより小さく変換され、環境雑音の特徴量の成分をあまり含まないフィルタバンクに関する大きい値の対数値はより大きく変換されると同時に、変換後の対数値が変換前の対数値の最小値と最大値の範囲を超えることがなく、小さい値の対数値に含まれる音声の特徴量の成分が過小評価されることがないため、例えば音声認識に用いられる際に望ましい認識結果をもたらす数値列が算出される。
【0021】
好ましい態様において、前記変換手段は、定数n(ただし、n>1)に関し、次式(3)に従い前記変換を行うように構成されてもよい。
【数3】


【0022】
他の好ましい態様において、前記変換手段は、定数a(ただし、a>0)および定数c(ただし、c>0)に関し、次式(4)に従い前記変換を行うように構成されてもよい。
【数4】


【0023】
また、前記フィルタ手段が用いるフィルタの好適な一例としては、メルスケール帯域フィルタがある。その場合、前記音声特徴量算出装置は、前記変換手段により算出された数値列を離散コサイン変換することにより、メル周波数ケプストラム係数列を算出する係数列算出手段を備えるように構成されてもよい。
【0024】
また、本発明は、上記の音声特徴量算出装置により行われる処理をコンピュータに実行させるプログラムを提供する。
【発明を実施するための最良の形態】
【0025】
[実施形態]
図1は本発明の実施形態にかかる音声認識システム1の構成を示すブロック図である。音声認識システム1は上述した従来技術にかかる音声認識システム9と多くの点で共通しており、以下、異なる点のみ説明する。なお、図1においては、音声認識システム1と音声認識システム9で共通する構成部については図7におけるものと同じ符号が付されている。
【0026】
音声認識システム1は音声認識システム9の音声特徴量算出装置91の代わりに、音声特徴量算出装置11を備えている。また、音声認識システム1は音声特徴量算出装置11に対しユーザが指示を与えるために用いるキーボード12を備えている。キーボード12は複数のキーを備え、ユーザにより押下されたキーに応じた信号を音声特徴量算出装置11に出力する。なお、キーボード12の代わりに、例えばマウスポインタ等が用いられてもよい。
【0027】
音声特徴量算出装置11は、音声特徴量算出装置91が備える構成部に加え、対数値算出部914と離散コサイン変換処理部915との間に介挿された変換部101を備えている。変換部101は、対数値算出部914により算出されるフィルタバンク出力値rk(ただし、kはフィルタバンク番号)の対数値Rkを受け取り、受け取った対数値Rkを入力値xとして上述した式(3)に代入することにより、対数値Rkに応じた出力値yを算出する。以下、対数値Rkに応じた出力値yを変形対数値γkと呼ぶ。
【0028】
また、音声特徴量算出装置11はユーザの操作に応じてキーボード12から出力される信号に従い、変換部101に対しパラメータの指定を行う指定部102を備えている。この場合、指定部102が指定するパラメータは式(3)における定数nである。
【0029】
音声特徴量算出装置11における離散コサイン変換処理部915は、対数値算出部914により生成される対数値群R1、R2、・・・、RL(ただし、Lはフィルタバンクの総数)の代わりに、変換部101により算出された変形対数値群γ1、γ2、・・・、γLを受け取り、受け取った変形対数値群を上述した式(2)に従い離散コサイン変換することにより、Ci群、すなわちMFCCを算出する。ただし、音声認識システム1におけるMFCCは従来技術におけるMFCCとは異なる特性を有する対数値群を用いて生成されたものであるので、従来技術におけるMFCCとは異なる特性を備える。
【0030】
図2は、式(3)で表される関数を横軸を入力値x、縦軸を出力値yとする座標に描いたグラフである。ただし、図2においてグラフ15、グラフ16およびグラフ17は、それぞれn=1.5、n=3.0およびn=4.5の場合のグラフを示しており、例としてn=3.0の場合における対数値Rkに対する変形対数値γkが図示されている。
【0031】
図2に示されるように、変換部101は入力値xとして対数値Rkを式(3)に代入することにより、出力値yとして変形対数値γkを算出するが、そのように算出される変形対数値γkは以下の特徴を備えている。
(イ)入力値の大小関係は出力値の大小関係において常に維持される。
(ロ)入力値が大きい領域(x=Mの左側近傍の領域)における出力値においては、入力値の大きさがほぼ維持される。
(ハ)入力値が小さい領域(x=mの右側近傍の領域)もしくは入力値が中程度の領域においては、入力値が大きい領域(x=Mの左側近傍の領域)における入力値に対する出力値の減少幅と比較して、減少幅がより大きい範囲が広く存在する。
(ニ)出力値は必ず入力値の最小値および最大値の範囲内に収まる。
【0032】
環境雑音の特徴量の成分は、対数値群R1、R2、・・・、RLのうち、その値が小さいものにより多く含まれている。環境雑音のスペクトルのパワーは、全周波数帯域に関して、一般的に音声のスペクトルのパワーと比較して小さいためである。従って、上記の(ロ)および(ハ)のような特徴を有する変形対数値群γ1、γ2、・・・、γLにおいては、対数値群R1、R2、・・・、RLにおける場合と比較して、環境雑音の特徴量の成分が小さく評価され、音声の特徴量の成分はあまり小さく評価されないことになる。その結果、変形対数値群γ1、γ2、・・・、γLを用いて算出されるCi群、すなわちMFCCもまた、対数値群R1、R2、・・・、RLを用いて算出されるCi群、すなわちMFCCと比較して、環境雑音の特徴量の成分をより少なく含む指標となる。
【0033】
ところで、上記の(ロ)および(ハ)のような特徴を有する変形対数値群γ1、γ2、・・・、γLを生成するためには、例えば次式(5)に従った変換を行うことも考えられる。
【数5】


【0034】
しかしながら、式(5)によれば、対数値群R1、R2、・・・、RLのうち最小値をとる対数値は0に変換され、最小値に近い対数値は0ではないものの、かなり小さい値に変換される。その結果、環境雑音の特徴量だけでなく、音声の特徴量のうち、スペクトルのパワーが小さい周波数帯域に関するものが過小評価されてしまう。その結果、式(5)に従うような変換により得られる変形対数値群を用いて算出されるMFCCによっては、望ましい音声認識の結果が得られない場合がある。
【0035】
これに対し、変換部101により算出される変形対数値群γ1、γ2、・・・、γLは上記(ニ)の特徴を有するため、上記のような弊害を生ずることがない。
【0036】
また、音声認識システム1においては、ユーザがキーボード12を用いて音声特徴量算出装置11に対し指示を与えることにより、パラメータnを変更することができる。その結果、ユーザは図2に例示されるような異なる特性の関数の中から望ましいと思われる関数を容易に選択し、音声特徴量算出装置11に対し異なる特定のMFCCの生成を行わせることができる。従って、環境雑音の状況に応じたより適するMFCCの生成が可能である。なお、学習モードにおいて用いられたパラメータは例えば変換部101において記憶され、認識モード時においては学習モードにおいて用いられたものと同じパラメータが用いられる。
【0037】
以上のように、本発明の実施形態にかかる音声認識システム1によれば、環境雑音に関する特徴量をあまり含まないが音声に関する特徴量が過小評価されていない、という好ましい特性を備えたMFCCが算出される。その結果、従来技術にかかる音声認識システム9における場合と比較して、より精度の高い音声認識の結果が得られることになる。その際、音声特徴量算出装置11は従来技術にかかる音声特徴量算出装置91と比較し、式(3)に示される関数に対数値Rkをそれぞれ代入して変形対数値γkを算出する処理が追加されただけである。従って、リソースに制限のある装置によっても音声特徴量算出装置11の実現が可能である。
【0038】
[変形例]
ところで、上述した実施形態における変換部101は式(3)により対数値Rkを変形対数値γkに変換するものとして説明したが、それに限られず、以下の条件を満たす様々な関数が変換部101の変換において利用可能である。
対数値群R1、R2、・・・、RLの最小値をm、最大値をMとしたとき、定数pおよび定数q(ただし、m≦p<q≦M)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mである。
(b)x=Mのときy≦Mである。
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上である。
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である。
【0039】
上記の条件を満たす関数による変換において算出される変形対数値群γ1、γ2、・・・、γLは、上述した(イ)乃至(ニ)の特徴を備えることになる。上記の条件を満たす関数の一例として、例えば上記の式(4)がある。式(4)はロジスティック曲線を最小値mおよび最大値Mを用いて変形したものである。図3および図4は式(4)で表される関数を横軸を入力値x、縦軸を出力値yとする座標に描いたグラフである。ただし、図3においてグラフ21、グラフ22およびグラフ23は、定数aをa=10で固定し、定数cをそれぞれc=20、c=100およびc=400と変化させた場合の形状の変化を示しており、図4においてグラフ24、グラフ25およびグラフ26は、定数cをc=100で固定し、定数aをそれぞれa=20、a=10およびa=7と変化させた場合の形状の変化を示している。このように、変換部101が式(4)に従った変換を行う場合、ユーザはキーボード12を用いてパラメータaおよびパラメータcを音声特徴量算出装置11に対し指定することにより、より望ましい変換結果をもたらす関数を選択することができる。
【0040】
さらに、変換部101は式(3)や式(4)で示されるような関数を用いて入力値から出力値への変換を行う代わりに、図5に示すような変換表を予め記憶しておき、変換表に従って同様の変換を行うようにしてもよい。変換部101が用いる変換表に含まれる入力値xと入力値yは、上記の(a)乃至(d)の条件を満たすような数値の組である。また、変換表に含まれる数値の組は、例えば入力値の最小値m=0、入力値の最大値M=1の場合を想定して作成されたものである。以下、m=0、M=1として作成された変換表を「基準変換表」という。図6は、図5に示される変換表の入力値xおよび入力値yをプロットしたグラフである。
【0041】
上記のように、基準変換表はm=0、M=1の場合のものであるため、変換部101は基準変換表をそのまま用いるのではなく、受け取った対数値群R1、R2、・・・、RLの最小値mおよびMに応じて基準変換表を変換して用いる。具体的には、変換部101は基準変換変の入力値xおよびyをそれぞれ(M−m)倍したのち、入力値xおよびyにそれぞれmを加算したものを作成し、そのように作成した変換表を用いて、対数値群Rkを変形対数値γ1に変換する。また、変換表に含まれる入力値xおよび出力値yは離散値であるので、変換部101は入力値xに対する出力値yを算出する際、必要に応じて線形補間等により数値を補間する。
【0042】
なお、上述した実施形態においては、音声信号のスペクトルを算出するにあたり、FFT処理を行うものとしたが、その代わりに離散フーリエ変換処理等の他の方法を用いてもよい。また、上述した実施形態においては、メルスケールを用いたが、その代わりにバークスケール等の他の周波数軸を用いてもよい。さらに、メルスケール帯域フィルタの代わりに、フィルタバンク出力を行う他の種類のフィルタ群を用いるようにしてもよい。
【0043】
また、上述した実施形態においては、MFCCの算出を、離散コサイン変換を用いて行うものとしたが、離散コサイン変換の代わりに、離散逆フーリエ変換等の他の方式の直交変換を用いて音声の特徴量を示す係数列を算出するようにしてもよい。
【0044】
また、音声特徴量算出装置11は、専用のハードウェアにより実現されてもよいし、音信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。音声特徴量算出装置11が汎用コンピュータにより実現される場合、音声特徴量算出装置11の各構成部は、汎用コンピュータが備えるCPU(Central Processing Unit)およびCPUの制御下で動作するDSP(Digital Signal Processor)が、アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行うことにより、汎用コンピュータの機能として実現される。
【図面の簡単な説明】
【0045】
【図1】本発明の実施形態にかかる音声認識システムの構成を示すブロック図である。
【図2】本発明の実施形態にかかる変換部が用いる関数のグラフである。
【図3】本発明の実施形態にかかる変換部が用いる関数のグラフである。
【図4】本発明の実施形態にかかる変換部が用いる関数のグラフである。
【図5】本発明の実施形態にかかる変換部が用いる変換表である。
【図6】本発明の実施形態にかかる変換部が用いる変換表のグラフである。
【図7】従来技術にかかる音声認識システムの構成を示すブロック図である。
【図8】メルスケール帯域フィルタを示すグラフである。
【符号の説明】
【0046】
1・9…音声認識システム、11・91…音声特徴量算出装置、12…キーボード、90…音声信号生成装置、92…音声認識装置、101…変換部、102…指定部、901…音声信号生成部、902…発声区間切出部、911…窓かけ処理部、912…FFT処理部、913…メルスケール帯域フィルタ処理部、914…対数値算出部、915…離散コサイン変換処理部、921…データベース、922…DPマッチング部、923…判定部。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013