米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 三星電子株式会社

発明の名称 ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−199663(P2007−199663A)
公開日 平成19年8月9日(2007.8.9)
出願番号 特願2006−234172(P2006−234172)
出願日 平成18年8月30日(2006.8.30)
代理人 【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
発明者 呉 光哲 / 鄭 宰燻
要約 課題
ハーモニックとサブハーモニックの比率を用いて入力音声信号に対するピッチを検出する方法および装置が開示される。

解決手段
入力音声信号に対するピッチ検出方法は、入力された音声信号を前処理してフーリエ変換を遂行する段階と、変換された音声信号に対して補間を遂行する段階と、変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、計算された正規化局所重心の累積合計を計算する段階と、計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算する段階と、計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する段階とを含む。
特許請求の範囲
【請求項1】
入力音声信号に対するピッチ検出方法において、
入力された音声信号を前処理してフーリエ変換を遂行する段階と、
変換された音声信号に対して補間を遂行する段階と、
変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、
計算された正規化局所重心の累積合計を計算する段階と、
計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算する段階と、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する段階と、
を含むことを特徴とするピッチ検出方法。
【請求項2】
変換された音声信号に対して補間を遂行する前記段階は、
所定の低域周波数範囲に該当する振幅に対して低域通過補間を遂行する段階と、
最初のサンプルレートのR倍に該当するようにシーケンスをリサンプリングする段階と、
を含むことを特徴とする請求項1に記載のピッチ検出方法。
【請求項3】
計算された正規化局所重心を用いてスペクトル自己相関値を計算する段階と、
計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階とを更に含み、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する前記段階は、
前記有声音区間に該当するハーモニックとサブハーモニックの比率に基づいて前記ピッチを検出することを特徴とする請求項1に記載のピッチ検出方法。
【請求項4】
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する前記段階は、
前記有声音区間に該当するハーモニックとサブハーモニックの比率のうち、ハーモニックとサブハーモニックの比率に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項3に記載のピッチ検出方法。
【請求項5】
計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
計算されたスペクトル自己相関値の周波数成分によって前記有声音区間を決定することを特徴とする請求項3に記載のピッチ検出方法。
【請求項6】
計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較する段階と、
前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定する段階と、
を含むことを特徴とする請求項3に記載のピッチ検出方法。
【請求項7】
計算された累積合計に対してスケールコンバージョンおよび補間を遂行する段階を更に含み、
計算された累積合計に基づいたスペクトラムから高調波と低調波の対比率を計算する前記段階は、
スケールコンバージョンおよび補間が遂行された累積合計によるスペクトラムから前記ハーモニックとサブハーモニックの比率を計算することを特徴とする請求項1に記載のピッチ検出方法。
【請求項8】
前記スケールコンバージョンは、線形周波数スケールをログ周波数スケールに変換することを特徴とする請求項7に記載のピッチ検出方法。
【請求項9】
請求項1ないし8のいずれか一項の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み取り可能な記録媒体。
【請求項10】
入力音声信号に対するピッチ検出装置において、
入力された音声信号を前処理する前処理部と、
前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、
変換された音声信号に対して補間を遂行する補間部と、
変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する正規化局所重心計算部と、
計算された正規化局所重心の累積合計を計算する累積合計計算部と、
計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算するSHR計算部と、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出するピッチ検出部と、
を含むことを特徴とするピッチ検出装置。
【請求項11】
計算された正規化局所重心を用いてスペクトル自己相関値を計算するスペクトル自己相関値計算部と、
計算されたスペクトル自己相関値に基づいて有声音区間を決定する有声音区間決定部とを更に含み、
前記ピッチ検出部は、前記有声音区間に該当するハーモニックとサブハーモニックの比率に基づいて前記ピッチを検出することを特徴とする請求項10に記載のピッチ検出装置。
【請求項12】
前記ピッチ検出部は、前記有声音区間に該当するハーモニックとサブハーモニックの比率のうち、最大ハーモニックとサブハーモニックの比率に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項11に記載のピッチ検出装置。
【請求項13】
前記有声音区間決定部は、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することを特徴とする請求項11に記載のピッチ検出装置。
【請求項14】
計算された累積合計に対してスケールコンバージョンおよび補間を遂行するスケールコンバージョン部を更に含み、
前記SHR計算部は、スケールコンバージョンおよび補間が遂行された累積合計によるスペクトラムから前記ハーモニックとサブハーモニックの比率を計算することを特徴とする請求項10に記載のピッチ検出装置。
【請求項15】
前記スケールコンバージョン部は、線形周波数スケールをログ周波数スケールに変換することを特徴とする請求項14に記載のピッチ検出装置。
発明の詳細な説明
【技術分野】
【0001】
本発明は、ハーモニックとサブハーモニックの比率を用いて入力音声信号に対するピッチを検出する方法および装置に関する。
【背景技術】
【0002】
音声認識、合成および分析のような音声信号処理分野において、基本周波数、すなわちピッチ周期を正確に検出することは重要である。万一、音声信号の基本周波数を正確に検出することができると、音声認識において話し手による影響を減らすことができるため認識の正確度を高めることができ、音声合成時に自然性や個性を容易に変更したり維持することができる。また、音声分析時にピッチに同期させて分析すると、声紋の影響が除去された正確な声道パラメータを得ることができる。
【0003】
このように、音声信号からピッチ検出を遂行することは重要な作業であるため、このための方法が多様に提案された。これは、時間領域検出方法、周波数領域検出方法、時間−周波数混成領域検出方法に区分することができる。
【0004】
時間領域検出方法は、波形の周期性を強調した後に決定論理によってピッチを検出する方法であって、並列処理法、平均振幅差関数(Average Magnitude Difference Function:AMDF)、自己相関法(Auto−Correlation Method:ACM)などがある。このような方法は、通常、時間領域で遂行されるため領域の変換が不必要であり、合、差、比較論理などの簡単な演算のみが必要となる。しかし、音素が遷移区間に渡っている場合には、フレーム内のレベル変化が激しくてピッチ周期が変動するためにピッチ検出が困難であり、フォルマント(formant)によって多くの影響を受けるようになる。特に、雑音が混ざった音声の場合には、ピッチ検出のための決定論理が複雑になり検出エラーが増加するという短所がある。
【0005】
周波数領域検出方法は、音声スペクトラムの高調波間隔を測定して有声音の基本周波数を検出する方法であって、高調波分析法、リフター(Lifter)法、コームフィルタリング(Comb−filtering)法などが提案されている。一般的に、スペクトラムは一フレーム単位で求められるため、この区間で音素の遷移や変動が起きたり背景雑音が発生しても平均化されるため、その影響は少ない。しかし、処理過程上、周波数領域への変換過程が必要であるため計算が複雑になり、基本周波数の精密性を高めるためにFFTのポインタ数を増やすと、それだけ時間が長くなり変化特性に鈍くなる。
【0006】
時間−周波数混成領域検出方法は、時間領域法の計算時間節減とピッチの精密性、そして周波数領域法の背景雑音や音素変化に対してもピッチを正確に求めることができるという長所を取り上げたものである。このような方法としては、ケプストラム(Cepstrum)法、スペクトラム比較法などがある。この方法は、時間と周波数領域を往復する時、誤差が加重されて現われるためピッチ抽出の影響を受ける可能性があり、また、時間と周波数領域を同時に適用するため計算過程が複雑であるという短所がある。
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明は、スペクトラムの正規化局所重心(Normalized Local Center of Gravity:NLCG)とその累積合計(cumulated sum)を用いて堅実な(robust)スペクトラムを生成し、このように生成されたスペクトラムからハーモニックとサブハーモニックの比率(Subharmonic−to−Harmonic Ratio:SHR)を求めて入力音声信号に対するピッチを検出する方法および前記方法を遂行するピッチ検出装置を提供することを目的とする。
【0008】
また、本発明は、スペクトラムの正規化局所重心と補間(interpolation)を用いてスペクトル自己相関値を求めて有声音/無声音を区分し、高調波と低調波の対比率を用いてピッチを検出する時、前記有声音/無声音区分結果を用いるピッチ検出方法および前記方法を遂行するピッチ検出装置を提供することを他の目的とする。
【課題を解決するための手段】
【0009】
前記の技術的課題を達成するために、本発明の一実施形態によるピッチ検出装置は、入力された音声信号を前処理する前処理部と、前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、変換された音声信号に対して補間(interpolation)を遂行する補間部と、変換および補間された音声信号のスペクトラムに対して正規化局所重心(Normalized Local Center of Gravity:NLCG)を計算する正規化局所重心計算部と、計算された正規化局所重心の累積合計(cumulated sum)を計算する累積合計計算部と、計算された累積合計基づいたスペクトラムからハーモニックとサブハーモニックの比率(Subharmonic−to−Harmonic Ratio:SHR)を計算するSHR計算部と、計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出するピッチ検出部とを含む。
【0010】
また、本発明の一側によると、計算された正規化局所重心を用いてスペクトル自己相関値(auto−correlation)を計算するスペクトル自己相関値計算部と、計算されたスペクトル自己相関値に基づいて有声音(voicing)区間を決定する有声音区間決定部とを更に含み、前記ピッチ検出部は、前記有声音区間に該当する高調波と低調波の対比率に基づいて前記ピッチを検出することを特徴とするピッチ検出装置が提供される。
【0011】
本発明の他の実施形態によるピッチ検出方法は、入力された音声信号を前処理してフーリエ変換を遂行する段階と、変換された音声信号に対して補間を遂行する段階と、変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、計算された正規化局所重心の累積合計を計算する段階と、計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算する段階と、計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する段階とを含む。
【0012】
また、前記方法は、コンピュータで実行させるためのプログラムが記録されていることを特徴とするコンピュータで読み取り可能な記録媒体として具現される。
【発明の効果】
【0013】
本発明によると、スペクトラムの正規化局所重心とその累積合計を用いて堅実なスペクトラムを生成し、このように生成されたスペクトラムからハーモニックとサブハーモニックの比率を求めて入力音声信号に対するピッチを検出する方法および前記方法を遂行するピッチ検出装置が提供される。
【0014】
また、本発明によると、スペクトラムの正規化局所重心と補間を用いてスペクトル自己相関値を求めて有声音/無声音を区分し、ハーモニックとサブハーモニックの比率を用いてピッチを検出する時に前記有声音/無声音区分結果を用いるピッチ検出方法および前記方法を遂行するピッチ検出装置が提供される。
【0015】
また、本発明によるハーモニックとサブハーモニックの比率を用いたピッチ検出方法および装置によると、ハーモニック成分としてピッチを決定し、不必要な情報を用いないためにピッチのハービングとダブリング問題に効果的に対応することができ、雑音にも強いという本来の長所を維持すると共に、スペクトラム上で高調波成分間の間隔が狭いため男性音声のようなローピッチに弱く、スペクトル傾斜などの影響を多く受けるという従来技術の問題点を解決することができる。
【発明を実施するための最良の形態】
【0016】
以下、添付の図面を参照して、本発明の実施形態に対して詳細に説明することにする。
【0017】
図1は、本発明の一実施形態によるピッチ検出装置を示したブロック図である。
【0018】
図1に示したように、本実施形態によるピッチ検出装置(100)は、前処理部(101)、フーリエ変換部(102)、補間部(103)、正規化局所重心計算部(104)、累積合計計算部(105)、スケールコンバージョン部(106)、SHR計算部(107)、スペクトル自己相関値計算部(108)、有声音区間決定部(109)およびピッチ検出部(110)を含む。
【0019】
ハーモニックとサブハーモニックの比率を用いてピッチを検出する従来技術は、ハーモニック成分としてピッチを決定し、不必要な情報を用いないためにピッチのハービング(halving)とダブリング(doubling)問題に効果的に対応することができ、雑音にも比較的強いという長所を有している反面、スペクトラム上でハーモニック成分間の間隔が狭いため男性音声のようなローピッチ(low pitch)に弱く、スペクトル傾斜(tilt)などの影響を多く受けるという問題点を抱いていた。
【0020】
これにより、本実施形態によるピッチ検出装置(100)は、前記のような構成要素を介してスペクトラムの正規化局所重心とその累積合計を用いて堅実なスペクトラムを生成する。このように生成されたスペクトラムからハーモニックとサブハーモニックの比率を求めて入力音声信号に対するピッチを検出することで、前記のような従来技術の問題点を解決しようとする。
【0021】
また、本実施形態によるピッチ検出装置(100)は、正規化局所重心を用いて入力音声信号に対するピッチを検出するが、前記正規化局所重心の波形は、時間領域の波形と類似した形態で現われ、高調波の周期的な構造がより効果的に保存され、前記正規化局所重心を用いて計算したスペクトル自己相関値のグラフにおいては、ピッチ周波数に対応するピークが現われる。
【0022】
図2は、図1のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。
【0023】
段階(S201)で、前処理部(101)は、入力された音声信号を前処理(pre−processing)し、段階(S202)で、フーリエ変換部(102)は、前処理された音声信号に対して下記[数1]のようにフーリエ変換(Fourier Transform)を遂行する。
【0024】
【数1】


【0025】
段階(S203)で、補間部(103)は、変換された音声信号に対して下記[数2]のように補間(interpolation)を遂行する。
【0026】
【数2】


【0027】
段階(S203)で、補間部(103)は、所定の低域周波数範囲(例:0〜1.5kHz)に該当する振幅(amplitudes)に対して低域通過補間(low−pass interpolation)を遂行し、[数2]のように最初のサンプルレートのR(Li/Lk)倍に該当するようにシーケンスをリサンプリング(resample)することができる。このような補間によって、サンプル間隔が狭くて解像度(resolution)が下がる現状を緩和し、周波数の解像度を向上させることができる。
【0028】
段階(S204)で、正規化局所重心計算部(104)は、変換および補間された音声信号のスペクトラムに対して正規化局所重心(Normalized Local Center of Gravity:NLCG)を計算する。これは、下記[数3]のように現わすことができる。
【0029】
【数3】


【0030】
ここで、Uは局所領域を現わす。前記計算された正規化局所重心の波形は、時間領域の波形と類似した形態で現われ、高調波の周期的な構造がより効果的に保存される。
【0031】
段階(S205)で、累積合計計算部(105)は、計算された正規化局所重心の累積合計(cumulated sum)を計算する。
【0032】
段階(S206)で、スケールコンバージョン部(106)は、計算された累積合計に対してスケールコンバージョン(scale conversion)および補間を遂行する。この場合、スケールコンバージョン部(106)は、線形周波数スケール(linear frequency scale)をログ周波数スケール(logarithmic frequency scale)に変換することができる。
【0033】
段階(S207)で、SHR計算部(107)は、計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率(Subharmonic−to−Harmonic Ratio:SHR)を計算する。この場合、前記スケールコンバージョンおよび補間が遂行された累積合計によるスペクトラムから前記高調波と低調波の対比率を計算する。このような高調波と低調波の対比率、すなわちSHRは、下記[数4]ないし[数6]を介して計算することができる。
【0034】
【数4】


【0035】
【数5】


【0036】
【数6】


【0037】
段階(S208)で、スペクトル自己相関値計算部(108)は、段階(S204)で計算された正規化局所重心を用いてスペクトル自己相関値(auto−correlation)を計算する。これは、下記[数7]のように現わすことができる。
【0038】
【数7】


【0039】
この場合、スペクトル自己相関値計算部(108)は、正規化処理(normalization)を別途で遂行しない。これは、前記正規化局所重心の計算時に正規化処理が既に遂行されたためである。
【0040】
段階(S209)で、有声音区間決定部(109)は、計算されたスペクトル自己相関値に基づいて有声音(voicing)区間を決定する。この場合、有声音区間決定部(109)は、下記[数8]のように、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することができる。
【0041】
【数8】


【0042】
段階(S210)で、ピッチ検出部(110)は、下記[数9]のように、前記有声音区間に該当するハーモニックとサブハーモニックの比率に基づいてピッチを検出する。この場合、ピッチ検出部(110)は、前記有声音区間に該当するハーモニックとサブハーモニックの比率のうち、ハーモニックとサブハーモニックの比率に対応する局所ピークの位置を前記ピッチとして検出することができる。
【0043】
【数9】


【0044】
以上で詳察したように、本発明によると、スペクトラムの正規化局所重心とその累積合計を用いて生成されたスペクトラムからハーモニックとサブハーモニックの比率を求めて入力音声信号に対するピッチを検出することができ、スペクトラムの正規化局所重心と補間を用いてスペクトル自己相関値を求めて有声音/無声音を区分し、ハーモニックとサブハーモニックの比率を用いてピッチを検出する時、前記有声音/無声音区分結果を用いるピッチ検出方法および前記方法を遂行するピッチ検出装置が提供される。
【0045】
図3は、元スペクトラムの波形、補間されたスペクトラムの波形、計算された正規化局所重心による波形、正規化局所重心の累積合計による波形をそれぞれ示した図である。
【0046】
ハーモニックとサブハーモニックの比率を用いてピッチを検出する従来技術は、スペクトラム上で高調波成分間の間隔が狭いため男性音声のようなローピッチ(low pitch)に弱く、スペクトル傾斜(tilt)などの影響を多く受けるという問題点を抱いていたが、図3に示したように、本発明によって計算された正規化局所重心の累積合計による波形を詳察すると、前記のような従来技術の問題点が解決されたことを確認することができる。
【0047】
図4は、本発明によるピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。
【0048】
図4において、(a)は入力信号を示すものであって、(a)の丸1は男性音声の信号を、(a)の丸2は男性音声と白色雑音(white noise)が混ざった信号を、(a)の丸3は男性音声と飛行機の騷音が混ざった信号をそれぞれ現わしており、(a)の丸4は女性音声の信号を、(a)の丸5は女性音声と白色雑音が混ざった信号を、(a)の丸6は女性音声と飛行機の騷音が混ざった信号をそれぞれ現わしている。
【0049】
また、図4において、(b)、(c)、(d)は、このように入力された入力信号を図2のように処理して現われた波形を示したものであって、(b)は計算されたスペクトル自己相関値と臨界値(Tsa)を用いて有声音区間を決定する様子を、(c)はピッチを検出する様子を、(d)は高調波と低調波の対比率を用いた結果をそれぞれ現わしたものである。
【0050】
(d)の丸1ないし丸3から、本発明によると、スペクトラム上で高調波成分間の間隔が狭いため男性音声のようなローピッチ(low pitch)に弱かった従来技術の問題点が解決されたことを確認することができる。
【0051】
本発明によるピッチ検出方法は、多様なコンピュータ手段を介して遂行されるプログラム命令形態で具現されてコンピュータ読み取り可能媒体に記録される。前記コンピュータ読み取り可能媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、本発明のために特別に設計されて構成されたものであったり、コンピュータソフトウェア当業者に公知されて使用可能なものであったりする。コンピュータ読み取り可能記録媒体の例としては、ハードディスク、フロッピィーディスクおよび磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、およびロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を格納して遂行するように特別に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、データ構造などを指定する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体であったりする。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記したハードウェア装置は、本発明の動作を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆も同様である。
【0052】
以上のように、本発明は、限定された実施形態と図面によって説明されたが、本発明は前記の実施形態に限定されるものではなく、本発明が属する分野において通常の知識を有する者にとっては、このような記載から多様な修正および変形が可能である。
【0053】
よって、本発明の範囲は、説明された実施形態に局限されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものによって定められなければならない。
【図面の簡単な説明】
【0054】
【図1】本発明の一実施形態によるピッチ検出装置を示したブロック図である。
【図2】図1のピッチ検出装置が遂行するピッチ検出方法を示した流れ図である。
【図3】元スペクトラムの波形、補間されたスペクトラムの波形、計算された正規化局所重心による波形、正規化局所重心の累積合計による波形をそれぞれ示した図である。
【図4】本発明によるピッチ検出方法を実験的に遂行して現われた結果波形を示した図である。
【符号の説明】
【0055】
100 ピッチ検出装置
101 前処理部
102 フーリエ変換部
103 補間部
104 正規化局所重心計算部
105 累積合計計算部
106 スケールコンバージョン部
107 SHR計算部
108 スペクトル自己相関値計算部
109 有声音区間決定部
110 ピッチ検出部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013