米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> カシオ計算機株式会社

発明の名称 音声合成装置、音声合成方法、及び、プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−233181(P2007−233181A)
公開日 平成19年9月13日(2007.9.13)
出願番号 特願2006−56732(P2006−56732)
出願日 平成18年3月2日(2006.3.2)
代理人 【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
発明者 佐藤 勝彦
要約 課題
処理速度を低下させずに高音質の合成音声を出力する。

解決手段
入力変換部10がテキスト文字列データを音素ラベル列データに変換する。音素HMM列変換部30は、音素ラベル列データを受け取り、音声合成辞書20を参照し、音素ラベル列データをLSP係数に関する音素HMM列データとピッチに関する音素HMM列データとに変換する。パラメータ生成部40は、LSP係数に関する音素HMM列データを受け取り、LSP係数を出力する周期を状態位置毎に切り替えてLSP係数系列データを生成する。また、ピッチに関する音素HMM列データを受け取り、ピッチ列データを生成する。励起音源生成部50はピッチ列データを受け取り、該ピッチ列データから励起音源データを生成する。LSP係数補間部60はLSP係数系列データを受け取り補間する。LSP合成フィルタ70は、励起音源データと補間後のLSP係数系列データを受け取る。そして、それらを合成し、合成音声を生成して出力する。
特許請求の範囲
【請求項1】
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段と、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段と、
を備えることを特徴とする音声合成装置。
【請求項2】
前記周期設定手段は、音素HMMデータの状態位置ごとの分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定することを特徴とする請求項1に記載の音声合成装置。
【請求項3】
前記LSP係数出力手段が前記周期設定手段の設定した周期で出力したLSP係数間を、時系列で隣り合うLSP係数を用いて補間する手段をさらに備えることを特徴とする請求項1又は2に記載の音声合成装置。
【請求項4】
前記LSP係数出力手段が出力したLSP係数の安定性が低いと判別した場合に、前記LSP係数の安定性が高くなるようにLSP係数を補正する手段をさらに備えることを特徴とする請求項1、2又は3に記載の音声合成装置。
【請求項5】
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶ステップと、
与えられたテキストデータから音素ラベルを生成し、前記記憶ステップで記憶した情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータから、前記周期設定ステップで設定した周期でLSP係数を出力するLSP係数出力ステップと、
を備えることを特徴とする音声合成方法。
【請求項6】
コンピュータを、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段、
として機能させるコンピュータプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、与えられたテキスト文字列から音声を合成する音声合成装置、音声合成方法、及び、プログラムに関する。
【背景技術】
【0002】
テキスト文字列から音声を合成する技術において、HMM(隠れマルコフモデル)がさまざまな形で利用されている。
【0003】
例えば、特許文献1の技術は、音声データからLSP(Line Spectrum Pair)係数を抽出し、音素ごとにHMMでモデル化する。そして、与えられた文字列に対応するHMMを選択する。そのHMMを駆動させLSP係数を出力して、出力されたLSP係数を用いて音声を合成している。
【0004】
特許文献1の音声合成装置は、HMMを一定の出力フレーム周期で駆動させて、LSP係数を出力している。このような場合に、滑らかな音声を合成出力しようとすると、HMMからLSP係数を出力する出力フレーム周期を短くしなければならない。そうすると、音声合成装置の処理負担が大きくなり、処理速度が低下してしまう。
【0005】
【特許文献1】特開2002−62890号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明は、上記問題点に鑑みてなされたものであり、高音質の音声を合成する音声合成装置、音声合成方法、及び、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の第1の観点に係る音声合成装置は、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段と、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段と、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段と、
を備えることを特徴とする。
【0008】
例えば、前記周期設定手段は、音素HMMデータの状態位置ごとの分散値の大きさを判別し、
前記分散値が第1の閾値以下であり第1の閾値より小さい第2の閾値以上である場合はLSP係数を出力する周期を第1の周期に設定し、
前記分散値が前記第1の閾値より大きい場合はLSP係数を出力する周期を第1の周期より小さい第2の周期に設定し、
前記分散値が前記第2の閾値より小さい場合はLSP係数を出力する周期を第1の周期より大きい第3の周期に設定してもよい。
【0009】
例えば、前記LSP係数出力手段が前記周期設定手段の設定した周期で出力したLSP係数間を、時系列で隣り合うLSP係数を用いて補間する手段をさらに備えてもよい。
【0010】
例えば、前記LSP係数出力手段が出力したLSP係数の安定性が低いと判別した場合に、前記LSP係数の安定性が高くなるようにLSP係数を補正する手段をさらに備えてもよい。
【0011】
本発明の第2の観点に係る音声合成方法は、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶ステップと、
与えられたテキストデータから音素ラベルを生成し、前記記憶ステップで記憶した情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定ステップと、
前記音素HMMデータ変換ステップで変換した音素HMMデータから、前記周期設定ステップで設定した周期でLSP係数を出力するLSP係数出力ステップと、
を備えることを特徴とする。
【0012】
本発明の第3の観点に係るコンピュータプログラムは、
コンピュータを、
音声を合成するためのパラメータであるLSP(Line Spectrum Pair)係数を生成するための音素HMM(隠れマルコフモデル)データと、音素ラベルと、を対応させて記憶する記憶手段、
与えられたテキストデータから音素ラベルを生成し、前記記憶手段の記憶情報を参照して、該生成した音素ラベルを対応する音素HMMデータに変換する音素HMMデータ変換手段、
前記音素HMMデータ変換手段が変換した音素HMMデータからLSP係数を出力する周期を、状態位置ごとに設定する周期設定手段、
前記音素HMMデータ変換手段が変換した音素HMMデータから、前記周期設定手段が設定した周期でLSP係数を出力するLSP係数出力手段、
として機能させることを特徴とする。
【発明の効果】
【0013】
本発明によれば、音素HMMデータの状態位置ごとにLSP係数を出力する周期を適切に設定することで、処理速度を維持しつつ高音質の音声を合成することができる。
【発明を実施するための最良の形態】
【0014】
本発明の実施形態に係る音声合成装置100について、図面を参照しながら説明する。
音声合成装置100は、任意のテキスト文字列を与えられると、該テキスト文字列の音声を合成して出力する装置である。
【0015】
音声合成装置100は、図1に示すように、入力変換部10と、音声合成辞書20と、音素HMM列変換部30と、パラメータ生成部40と、励起音源生成部50と、LSP係数補間部60と、LSP合成フィルタ70と、から構成される。
【0016】
入力変換部10は、ユーザからテキスト文字列データの入力を受ける。そして、入力変換部10は、入力されたテキスト文字列データを、音素単位のラベルの並びである音素ラベル列データに変換する。
【0017】
音声合成辞書20は、音素ラベル列データを音素HMM列データに変換する際に用いられる。音声合成辞書20は、LSP係数に関する音素HMMデータとピッチに関する音素HMMデータとを記憶する。各音素HMMデータは、多数の音声データから抽出したLSP係数と該音声データに対応する音素ラベル列データとから、学習によって作成される。
【0018】
LSP係数に関する音素HMMデータ及びピッチに関する音素HMMデータは、それぞれ図5(a)に示すように、状態数を5つもち、S1〜S3の状態位置それぞれで(S0は初期状態、S4は終了状態。S0とS4ではLSP係数及びピッチデータを出力しない)、LSP係数及びピッチデータを出力する。なお各状態毎に平均値、分散値をパラメータとして保持している。
【0019】
LSP係数は、音声の特徴を表す特徴ベクトルであり、音声を合成するためのパラメータとして用いられる。
【0020】
音素HMM列変換部30は、入力変換部10から音素ラベル列データを受け取る。そして、音声合成辞書20を参照し、受け取った音素ラベル列データをLSP係数に関する音素HMM列データとピッチに関する音素HMM列データとに変換する。音素HMM列データとは、図5(a)に示す音素HMMデータをつなぎ合わせた、図5(b)のような列データにしたものである。
【0021】
パラメータ生成部40は、音素HMM変換部30からLSP係数に関する音素HMM列データを受け取り、音声を合成するパラメータとして、LSP係数系列データを生成する。LSP係数系列データとは、図6の下段に折れ線グラフで示すように、白丸で示す時系列で変化するLSP係数を、所定の周期で並べて、つなぎ合わせたものである。ここでは、図を簡略化するため、LSP係数はそれぞれ5次元の特徴ベクトルで構成されているものとしている。
【0022】
また、パラメータ生成部40は、ピッチに関する音素HMM列データを受け取り、音声を合成するパラメータとして、図7に示すようなピッチ列データを生成する。
【0023】
パラメータ生成部40は、音素HMM列データの各音素HMMデータに対する尤度が最大となるようにパラメータを生成する。
各音素HMMデータに対する尤度を最大にするパラメータは、以下の式を解くことで求められる。
【0024】
【数1】


【0025】
ただし、Pは状態位置Qで作られるパラメータOが音素HMMデータλから観測される確率(Oに関するQでのλの尤度)、CはPを最大にするパラメータである。
【0026】
尤度を最大にするパラメータを生成することで、LSP係数系列データ及びピッチ列データのばらつきが小さくなり、不連続な変化を抑制し、より現実の発話に近い音声を合成することができる。
【0027】
また、パラメータ生成部40がLSP係数を出力する周期(フレーム周期)は、音素HMMデータの状態位置毎に設定される。
後述するLSP合成フィルタ70で、音声を合成する際のフレーム周期をFPRDとすると、パラメータ生成部40は、通常、FPRDより長い所定のフレーム周期PRDでLSP係数を出力する。
【0028】
パラメータ生成部40は、各状態位置の分散値の大きさによってフレーム周期を切り替える。即ち、ある状態位置の分散値が第1の所定の値より小さいとき、フレーム周期をPRDの2倍の長さに切り替える。また、ある状態位置の分散値が第2の所定の値より大きいとき、フレーム周期を設定できる中で最短の周期であるFPRDに切り替える。
【0029】
分散値の小さい状態位置では、通常より長い周期でパラメータを出力してもばらつきが少ないため、不連続なデータになりにくい。そこで、フレーム周期を通常の2倍に設定し、処理速度を向上することができる。
また、分散値が大きい状態位置では、短い周期でパラメータを出力しなければ不連続なデータになる。そこで、フレーム周期をFPRDに設定し、不連続なデータになることを抑制する。
【0030】
励起音源生成部50は、パラメータ生成部40から、図7のような時系列のピッチ列データを受け取り、該ピッチ列データから励起音源データを生成する。
【0031】
LSP係数補間部60は、パラメータ生成部40からLSP係数系列データを受け取る。受け取ったLSP係数系列データの係数間を、隣り合うLSP係数を用いて図6に示す黒丸のように補間して、フレーム周期FPRDのLSP係数系列データを生成する。該補間は、LSP係数系列データの隣り合うLSP係数を用いた線形補間により行う。
【0032】
LSP合成フィルタ70は、励起音源生成部50から励起音源データを受け取る。また、LSP係数補間部60からフレーム周期FPRDのLSP係数系列データを受け取る。そして、それらを合成し、合成音声を生成する。そして、生成した合成音声を出力する。
【0033】
次に、上記構成の音声合成装置100の音声を合成する音声合成処理の動作について図2を参照しながら説明する。
【0034】
まず、音声合成装置100の入力変換部10が、ユーザからテキスト文字列データの入力を受け付ける(ステップS11)。
【0035】
入力変換部10は、テキスト文字列データの入力を受け付けると、テキスト文字列データを音素ラベル列データに変換する(ステップS12)。そして、変換した音素ラベル列データを音素HMM列変換部30に引き渡す。
【0036】
次に、音素HMM列変換部30が、ステップS12で変換された音素ラベル列データを受け取り、音声合成辞書20を参照し、LSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとに変換する(ステップS13)。そして、変換したLSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとをパラメータ生成部40に引き渡す。
【0037】
パラメータ生成部40は、LSP係数に関する音素HMM列データとピッチ列に関する音素HMM列データとを受け取ると、図3に示すパラメータ生成処理を実行する(ステップS14)。
【0038】
パラメータ生成処理(ステップS14)で、パラメータ生成部40は、受け取ったピッチ列に関する音素HMM列データから図7に示すようなピッチ列データを生成する(ステップS21)。
【0039】
それと共に、受け取ったLSP係数に関する音素HMM列データからLSP係数系列データを生成するためにLSP係数系列データ生成処理(ステップS22)を実行する。
【0040】
LSP係数系列データ生成処理(ステップS22)の動作を図4に示す。
【0041】
LSP係数系列データ生成処理(ステップS22)では、パラメータ生成部40は、図6の上段に示すような、LSP係数に関する音素HMM列データ{λi|1≦i≦N}の各音素HMMデータλiの全ての状態位置S1〜S3について、LSP係数を出力する。そして、図6下段に示すような、LSP係数系列データ(白丸)を生成する。
【0042】
先ず、LSP係数を出力するフレーム周期を決定する。そのために、パラメータ生成部40は、ある状態位置の分散値が所定の閾値V1より小さいか否かを判別する(ステップS31)。
閾値V1には、分散値がこれより小さい値であれば安定したパラメータが出力される値が設定される。
【0043】
分散値が閾値V1より小さいと判別されると(ステップS31;Yes)、該状態位置でのフレーム周期を通常の出力周期PRDの2倍に設定する(ステップS32)。
【0044】
また、分散値が閾値V1より小さくないと判別されると(ステップS31;No)、分散値が所定の閾値V2より大きいか否かを判別する(ステップS33)。
閾値V2には、分散値がこれ以上であるとばらつきのあるパラメータが出力される値が設定される。
【0045】
分散値が閾値V2より大きいと判別されると(ステップS33;Yes)、該状態位置でのフレーム周期を設定できる最小の周期であるFPRDに設定する(ステップS34)。
【0046】
一方、分散値が閾値V2より大きくないと判別されると(ステップS33;No)、フレーム周期を再設定せず、フレーム周期は通常の出力周期PRDである。
【0047】
ステップS31〜S34で、フレーム周期が決定すると、該フレーム周期で、音素HMMデータに対する尤度が最大となるLSP係数を出力する(ステップS35)。
【0048】
以上のステップS31〜S35の処理を、音素HMM列データ{λi|1≦i≦N}の各音素HMMデータλiの全ての状態位置S1〜S3について繰り返し実行することで、状態位置毎に適切なフレーム周期でLSP係数を出力したLSP係数系列データを生成することができる。
【0049】
なお、図6の例では、音素HMMデータλiでの状態位置S1、S3でのフレーム周期PRDλi, S1及びPRDλi, S3は、通常のフレーム周期PRDで出力されている。また、状態位置S2では、分散値が十分小さいため、状態位置S2でのフレーム周期PRDλi, S2は、PRDの2倍のフレーム周期で出力されている。このとき、各状態位置間のフレーム周期はFPRDに設定されている。
【0050】
LSP係数系列データ生成処理(ステップS22)が終了し、パラメータ生成処理(ステップS14)が終了すると、図2示す音声合成処理に戻り、パラメータ生成部40は、生成したピッチ列データを励起音源生成部50に引き渡す。また、生成したLSP係数系列データをLSP係数補間部60に引き渡す。
【0051】
励起音源生成部50は、ピッチ列データを受け取ると、該ピッチ列データから励起音源データを生成する(ステップS15)。そして、生成した励起音源データをLSP合成フィルタ70に引き渡す。
【0052】
また、LSP係数補間部60は、LSP係数系列データを受け取ると、該LSP係数系列データの隣り合うLSP係数を用いて線形補間して、フレーム周期FPRDのLSP係数系列データを生成する(ステップS16)(図6の黒丸)。そして、生成したフレーム周期FPRDのLSP係数系列データをLSP合成フィルタ70に引き渡す。
【0053】
LSP合成フィルタ70は、励起音源データとフレーム周期FPRDのLSP係数系列データとを受け取ると、両者から音声を合成する(ステップS17)。
【0054】
続いて、LSP合成フィルタ70は、合成した音声を出力する(ステップS18)。
【0055】
以上のように、音声合成装置100は、与えられたテキスト文字列データから処理速度の低下を防ぎながら、高音質の音声を合成して出力することができる。
【0056】
なお、この発明は上記実施形態に限定されず、種々の変形及び応用が可能である。
【0057】
上記実施形態では、線形補間によりLSP係数系列データを補間していたが、これに限られるものではない。例えば、より高音質の音声を合成するため、状態位置毎に補間方法を切り替えるようにしてもよい。
【0058】
例えば、LSP係数系列データの安定性を判別して、安定性を欠くデータとなったときに該データを正常なデータに補正するLSP係数補正部80をさらに備えて、合成音声の音質をさらに向上するようにしてもよい。LSP係数補正部80による補正は、図8に示すように、LSP係数補間部60で補間後のLSP係数系列データに対してしてもよいし、図9に示すように、補間前のLSP係数系列データに対してしてもよい。
【0059】
また、音声合成装置100は、上記実施形態のように、専用の機器である場合に限られない。
例えば、コンピュータをプログラムにより音声合成装置100として機能させてもよいし、DSP(Digital Signal Processor)等にプログラムを読み込ませて音声合成装置100の動作をさせてもよい。
【図面の簡単な説明】
【0060】
【図1】本発明の実施形態に係る音声合成装置の構成を示すブロック図である。
【図2】音声合成処理の動作を示すフローチャートである。
【図3】図2のパラメータ生成処理の動作を示すフローチャートである。
【図4】図3のLSP係数系列データ生成処理の動作を示すフローチャートである。
【図5】(a)音素HMMデータの例を示す図である。(b)音素HMM列データの例を示す図である。
【図6】LSP係数系列データの例を示す図である。
【図7】ピッチ列データの例を示す図である。
【図8】音声合成装置の第1の変形例の構成を示すブロック図である。
【図9】音声合成装置の第2の変形例の構成を示すブロック図である。
【符号の説明】
【0061】
10…入力変換部、20…音声合成辞書、30…音素HMM列変換部、40…パラメータ生成部、50…励起音源生成部、60…LSP係数補間部、70…LSP合成フィルタ、80…LSP係数補正部、100…音声合成装置




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013