米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> カシオ計算機株式会社

発明の名称 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−256866(P2007−256866A)
公開日 平成19年10月4日(2007.10.4)
出願番号 特願2006−84281(P2006−84281)
出願日 平成18年3月24日(2006.3.24)
代理人 【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
発明者 佐藤 勝彦
要約 課題
ピッチ変動を強調した音声合成辞書を生成することにより、合成音声が平坦で不自然なものとならないようにする。

解決手段
ピッチデータ列抽出部15は、音声データベース23から取り出した音声データからピッチデータ列を抽出する。ピッチ編集部17は、ピッチデータの変動をより顕著にするように編集する。音素HMM学習部19は、ピッチ編集部17で編集されたピッチデータを学習に使用し、音素ラベルと音素ピッチデータとの対応関係を求める。データ書き出し部21は、学習後の音素ラベルと音素ピッチデータとの対応関係を音声合成辞書25に書き込む。
特許請求の範囲
【請求項1】
音素ラベル列とそれに対応する音声データとを受信する受信部と、
前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集部と、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。
【請求項2】
前記ピッチ編集部は、所定の基準ピッチを中心にしてピッチが拡大するように補正する、ことを特徴とする請求項1に記載の音声合成辞書構築装置。
【請求項3】
前記所定の基準ピッチは、ピッチの平均値である、ことを特徴とする請求項2に記載の音声合成辞書構築装置。
【請求項4】
前記ピッチの変動の拡大の程度は、所定の重み係数により決定される、ことを特徴とする請求項1に記載の音声合成辞書構築装置。
【請求項5】
前記所定の重み係数は、前記ピッチデータが、前記所定の基準ピッチ以上の場合と、前記所定の基準ピッチより小さい場合とで、異なる値とすることができる、ことを特徴とする請求項1に記載の音声合成辞書構築装置。
【請求項6】
前記ピッチの変動の拡大の程度は、前記ピッチデータが、前記所定の基準ピッチからどの程度逸脱しているかによって異なる、ことを特徴とする請求項1に記載の音声合成辞書構築装置。
【請求項7】
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
から構成される音声合成辞書構築方法。
【請求項8】
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
を実行させるコンピュータプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声合成に用いるデータベースを構築する、音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムに関する。
【背景技術】
【0002】
音声認識及び音声合成技術として隠れマルコフモデル(以下、HMMと称呼する。)に基づいた音声認識技術及び音声合成技術が、広く利用されている。
【0003】
HMMに基づいた音声認識技術及び音声合成技術は、例えば、特許文献1及び2に開示されている。
【0004】
【特許文献1】特開2002−244689号公報
【特許文献2】特開2002−268660号公報
【0005】
HMMに基づいた音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。
【0006】
音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース(以下、音声データベースと称呼する。)に記録されているデータについて、スペクトル分析とピッチ抽出をし、HMMに基づく学習過程を経ることにより、構築される。
【0007】
従来は、音声合成辞書を構築する際、音声データから抽出されたピッチを、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、そのように構築された音声合成辞書を用いて生成された合成音声のピッチ変動は、元の音声のピッチ変動に比べて小さい。
【0009】
このため、従来の音声合成辞書構築装置により構築された音声合成辞書を用いた合成音声は、人間の自然な音声に比べて、平坦な印象を与える不自然なものとなっていた。
【0010】
本発明は、上記実情に鑑みてなされたもので、自然な印象を与える音声を合成することができる音声合成辞書を構築可能とする音声合成辞書構築装置及び音声合成辞書構築方法を提供することを目的とする。
【0011】
本発明は、高品質のテキスト音声合成を可能とする音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、この発明の第1の観点に係る音声合成辞書構築装置は、
音素ラベル列とそれに対応する音声データとを受信する受信部と、
前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集部と、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
【0013】
上記目的を達成するために、この発明の第2の観点に係る音声合成辞書構築装置は、
第1の観点に係る音声合成辞書構築装置であって、
前記ピッチ編集部は、所定の基準ピッチを中心にしてピッチが拡大するように補正する、ことを特徴とする。
【0014】
上記目的を達成するために、この発明の第3の観点に係る音声合成辞書構築装置は、
第1の観点に係る音声合成辞書構築装置であって、
前記所定の基準ピッチは、ピッチの平均値である、ことを特徴とする。
【0015】
上記目的を達成するために、この発明の第4の観点に係る音声合成辞書構築装置は、
第1の観点に係る音声合成辞書構築装置であって、
前記ピッチの変動の拡大の程度は、所定の重み係数により決定される、ことを特徴とする。
【0016】
上記目的を達成するために、この発明の第5の観点に係る音声合成辞書構築装置は、
第1の観点に係る音声合成辞書構築装置であって、
前記所定の重み係数は、前記ピッチデータが、前記所定の基準ピッチ以上の場合と、前記所定の基準ピッチより小さい場合とで、異なる値とすることができる、ことを特徴とする。
【0017】
上記目的を達成するために、この発明の第6の観点に係る音声合成辞書構築装置は、
第1の観点に係る音声合成辞書構築装置であって、
前記ピッチの変動の拡大の程度は、前記ピッチデータが、前記所定の基準ピッチからどの程度逸脱しているかによって異なる、ことを特徴とする。
【0018】
上記目的を達成するために、この発明の第7の観点に係る音声合成辞書構築方法は、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
から構成される音声合成辞書構築方法である。
【0019】
上記目的を達成するために、この発明の第8の観点に係るコンピュータプログラムは、
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチの変動を拡大するように該ピッチデータを編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
を実行させるコンピュータプログラムである。
【発明の効果】
【0020】
本発明によれば、音声データから抽出されたピッチデータ列を、ピッチデータの変動を拡大してから音声合成辞書の学習に用いる。このため、当該音声合成辞書を利用して得られる合成音声を、ピッチ変動の大きな、自然な音声により近いという点で、高品質なものとすることができる。
【発明を実施するための最良の形態】
【0021】
以下、本発明の実施の形態に係る音声合成辞書構築装置について詳細に説明する。
【0022】
(実施形態1)
【0023】
まず、本実施形態に係る音声合成辞書構築装置の構成を説明する。
【0024】
図1は、本実施形態に係る音声合成辞書構築装置11の機能構成図である。
【0025】
音声合成辞書構築装置11は、図示するように、データ取り出し部13と、ピッチデータ列抽出部15と、ピッチ編集部17と、音素HMM学習部19と、データ書き出し部21と、を備える。
【0026】
音声合成辞書構築装置11は、図1に示すように、音声データベース23と音声合成辞書25に接続される。音声データベース23は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、ハードディスク等に記憶されている。
【0027】
音声合成辞書25は、音声合成辞書構築装置11によって構築されたデータベースであり、音素ラベルと音素学習結果とを対応させて記憶しており、ハードディスク等に記憶されている。
【0028】
前記音素学習結果は、音素ピッチ情報を含む。音声合成に必要な他のスペクトル情報は、音声合成装置の仕様により様々であり、前記音素学習結果には、かかる様々な情報も含まれるものとする。
【0029】
音声合成辞書構築装置11のデータ取り出し部13は、音声データベース23からデータを読み込み、音素ラベル列と音声データとに分離する。
【0030】
音素ラベル列は音素HMM学習部19に引き渡され、音声データは、ピッチデータ列抽出部15に引き渡される。
【0031】
ピッチデータ列抽出部15は、データ取り出し部13から引き渡された音声データから、所定のピッチデータ列を抽出し、ピッチ編集部17に引き渡す。
【0032】
ピッチ編集部17は、ピッチデータ列抽出部15から引き渡されたピッチデータ列に対し、所定の編集処理を施す。
【0033】
所定の編集処理とは、ピッチデータ列内でのピッチの変動を拡大する処理のことである。この所定の編集処理の詳細については、図3及び図4を参照して後述する。
【0034】
編集済みピッチデータ列は、音素HMM学習部19に引き渡される。
【0035】
音素HMM学習部19は、音素ラベル列と編集済みピッチデータ列の対応関係を、HMMに基づく学習により、音素ラベルと音素ピッチ情報の対応関係に変換し、当該対応関係を、データ書き出し部21に引き渡す。
【0036】
データ書き出し部21は、音素ラベルと音素ピッチ情報の対応関係を音声合成辞書25に記録する。
【0037】
図1に示す音声合成辞書構築装置11は、物理的には、図2に示すような一般的なコンピュータ装置31により、構成される。ユーザインタフェース(以下、I/Fと書く。)39、CPU33、ROM35、記憶部37、データ入出力I/F43は、バス49で相互に接続されている。
【0038】
ROM35は、HMMに基づいた学習のための動作プログラム、特に、この実施の形態においては、ピッチを拡大する編集動作を含む動作プログラムを記憶する。
【0039】
記憶部37は、RAM45やハードディスク47から構成されて、学習のための定数、音素ラベル列、音声データ、ピッチデータ列、音素ラベルと音素ピッチ情報を対応付けたもの、を記憶する。
【0040】
データ入出力I/F43は、元データ入りハードディスク55等及び処理済データ記録用ハードディスク57等に接続するためのインタフェースである。
【0041】
データ入出力I/F43は、図1に示す音声データベース23に接続され、図2に示すCPU33の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部37に格納する。
【0042】
データ入出力I/F43は、図1に示す音声合成辞書25に接続され、図2に示すCPU33による処理の結果である、音素ラベルと音素ピッチ情報の対応関係を、図1に示す音声合成辞書25に出力する。
【0043】
図2に示すユーザI/F39は、キーボード51と、モニタ53と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。特に、ピッチ編集処理においては、ユーザが該I/Fを介して、各種定数を与える必要がある。
【0044】
CPU33は、ROM35に格納された動作プログラムを実行することにより、合成辞書生成動作を実行する。
【0045】
図1に示すように、本実施形態に係る音声合成辞書構築装置11の特徴は、ピッチ編集部17において各ピッチデータ列内でのピッチの変動を拡大する所定の編集処理を行うことである。
【0046】
ピッチ編集部17が実行する所定の編集処理は、ピッチ変動を強調する処理であれば、いかなる処理でもよいが、以下に、編集処理の好適な具体例について説明する。
【0047】
なお、以下の説明では、フレームとは、ピッチ抽出のために用いられる時間区分を意味し、記号fmで表す。
【0048】
(編集処理の具体例1)
【0049】
図3に示すフローチャートを参照して、編集処理の具体例1を説明する。
【0050】
本具体例においては、あらかじめ、ユーザが、ピッチの基準値C及び後述の重み係数αを、図2のユーザI/F39を介して、記憶部37に設定しておくものとする(ステップ23)。
【0051】
図1に示すように、音声合成辞書構築装置11により音声合成辞書25を構築する際には、音声合成辞書構築装置11には、音声データベース23と、例えば、空状態の音声合成辞書25が接続される。
【0052】
音声合成辞書25生成の開始の指示が図2のユーザI/F39からされると、図1のデータ取り出し部13は、音声データベース23から、
音素ラベル列と音声データSp(但し、1≦m≦NSPであり、NSPは音声データベースのデータ数である。)の対を順次読み出し、図2の記憶部37に記憶する。
【0053】
図1のピッチデータ列抽出部15は、音声データSpからピッチデータ列Pit[fm](但し、0≦fm≦Nfm[m]であり、Nfm[m]は音声データSpについてのフレーム数である。)を抽出し、図2の記憶部37に記憶する(図3のステップS11)。
【0054】
音声データを識別するための番号を指定するポインタmを1に初期化する(ステップS13)。
【0055】
各mについて、ピッチデータ列Pit[fm](但し、0≦fm≦Nfm[m]である。)を図2の記憶部37から読み出す(ステップS15)。
【0056】
m番目のピッチデータ列についての、フレームの番号を示すポインタfmを0に初期化する(ステップS17)。
【0057】
ピッチデータPit[fm]に着目し(ステップS19)、処置対象のフレームfmが有声音・無声音のいずれであるかを判別する(ステップS21)。
【0058】
ステップS21で有声音であると判別された場合、Pit[fm]に対して、
EdPit[fm]=(Pit[fm]−C)×α+C
(但し、Cは所定の基準値、αは所定の重み係数とする。)
とする編集処理を施す(ステップS25)。
【0059】
なお、前記したとおり、基準値C及び重み係数αは、ユーザが、図2のユーザI/F39を介して、設定すべきものである(ステップS23)。
【0060】
ステップS21で無声音であると判別された場合、Pit[fm]に対して、
EdPit[fm]=Pit[fm]
とする(ステップS27)。
【0061】
ステップS25またはステップS27により算出されたEdPit[fm]は、図2の記憶部37に記憶される(ステップS29)。
【0062】
全てのfmについて処理が完了したか否かを判別する(ステップS31)。
【0063】
当該処理が完了したと判別された場合は、全てのmについて処理が完了したか否かを判別する(ステップS33)。
【0064】
ステップS31にて、全てのfmについての処理が完了してはいないと判別された場合には、fmを1だけインクリメントして、ステップS19に戻る。
【0065】
全てのmについて処理が完了したか否かを判別(ステップS33)した結果、完了したと判別された場合には、処理を終了する。
【0066】
全てのmについての処理が完了してはいないと判別された場合には、mを1だけインクリメントして、ステップS15に戻る。
【0067】
以上の処理により、図1の音声データベース23から取り出し得る全てのEdPit[fm]は、図2の記憶部37に記憶される。当該EdPit[fm]は、図1の音素HMM学習部19にて使用される。
【0068】
本具体例では、図1に示す音素HMM学習部19にて使用されるピッチデータ列を、あらかじめピッチ編集部17にてピッチ変動の強調されたピッチデータ列とすることにより、より自然な合成音声を合成するのに資する音声合成辞書の構築が達成できる。
【0069】
(編集処理の具体例2)
【0070】
図4に示すフローチャートを参照して、編集処理の具体例2を説明する。
【0071】
具体例1では、基準値Cをユーザ自身で設定する必要があったが、適切な値を事前に知ることが困難な場合もある。
【0072】
そこで、本具体例においては、ユーザがあらかじめ設定しなければならない値を重み係数αのみとしてユーザの負担を軽減し、基準値Cについては、ピッチデータ列Pit[fm]毎にピッチデータPit[0]、Pit[1]、…、Pit[Nfm[m]]の平均値Aveを算出してこれを基準値Cとすることとする。
【0073】
ただし、前記平均値Aveの算出にあたっては、有声音に対応するフレームに属するピッチデータの値のみが用いられる。
【0074】
本具体例の動作の流れは、基本的には、図4に示すとおり、図3を用いて説明した具体例1と同様である。
【0075】
そこで、図4においては、図3と同一の処理を行うステップには、同一の符号を付してある。
【0076】
本具体例が具体例1と異なる主な点は、図4を図3と比較すれば明らかなように、有声音・無声音判別分岐ステップ(ステップS55)とfm走査ループ(ステップS53、S55、S57及びS59)が付加されている点である。
【0077】
かかる付加が必要になるのは、基準値Cとして用いる平均値Aveは、有声音のフレームに属するピッチデータのみの平均値であるため、かかるピッチデータのみを取り出すための有声音・無声音判別(ステップS55)が必要になるためと、かかる取り出し作業を全てのfmについて行った後でないと、平均値Aveの算出(ステップS61)ができないためである。
【0078】
なお、図2の記憶部37には、図4のステップS57に示すように、平均値Aveの算出のために取り出されたピッチデータを蓄えておくためにテンポラリデータVPit[fm]が用意される。
【0079】
そして、平均値Aveは、該テンポラリデータVPit[fm]の平均値として算出される。これにより、ピッチデータ列Pit[fm]の有声音におけるピッチデータの平均値であるAveが求まったことになる。
【0080】
本実施例においても、実施例1と同様に、編集処理には、各フレームが有声音に対応しているか、それとも無声音に対応しているか、を判別し、当該判別結果に基づき、条件分岐をするステップ(ステップS21)が含まれる。
【0081】
ステップS21にて無声音であると判別された場合には、具体例1と同じく、EdPit[fm]=Pit[fm]とする(ステップS27)。
【0082】
ステップS21にて有声音であると判別された場合は、具体例1とは異なり、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とする(ステップS73)。
【0083】
ここで、前記したとおり、重み係数αは、ユーザが、図2のユーザI/F39を介して、設定すべきものである(ステップS71)。
【0084】
一方、Aveは、前記のとおりピッチデータ列から自動的に算出されるものであるため、ユーザが設定する必要はない。
【0085】
このように、本具体例によれば、自然な合成音声の出力に資する音声合成辞書構築装置であって、ユーザが使いやすい装置を提供することができる。
【0086】
(編集処理の具体例3)
【0087】
具体例2では、ユーザが、重み係数として単一のαを設定することとしていたが、条件に応じてαの値を使い分けたほうが、より適切な音声合成辞書を構築できる場合もあり得る。
【0088】
本具体例では、ユーザが設定する重み係数として、αとαの2種類を設ける。そして、具体例2と同様に基準値Cを平均値Aveとしつつ、ピッチデータの値がAve以上の場合には、重み係数としてαを用い、ピッチデータの値がAveより小さい場合には、重み係数としてαを用いる。
【0089】
すなわち、fmが有声音に対応するフレームの場合は、
Pit[fm]≧Aveのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Aveとし、
Pit[fm]<Aveのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Aveとし、
fmが無声音に対応するフレームの場合は、
EdPit[fm]=Pit[fm]とする。
【0090】
本具体例におけるピッチ編集処理の動作は、基本的には、具体例2と同様に、図4で示される動作である。相違点は、ユーザが、図2のユーザI/F39を介して、重み係数として2種類の値α、αを設定することである。
【0091】
(編集処理の具体例4)
【0092】
具体例3では、重み係数を2種類設定し、それぞれをピッチデータが平均値Aveを上回る場合と下回る場合とに対応させた。これに対し、本実施例では、2種類の重み係数を、それぞれ、ピッチデータが平均値を大幅に逸脱した場合のピッチ変動の強調の程度と、さほど逸脱していない場合の強調の程度とに対応させる。
【0093】
すなわち、α及びαを重み定数、εを任意の閾値として、フレームfmが有声音に対応している場合、
|Pit[fm]−Ave|≧εのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とし、
|Pit[fm]−Ave|<εのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とし、
当該フレームが無声音の場合は、
EdPit[fm]=Pit[fm]とする。
【0094】
本具体例におけるピッチ編集処理の動作は、基本的には、具体例2と同様に、図4で示される動作である。相違点は、ユーザが、図2のユーザI/F39を介して、重み係数として2種類の値α、αを設定することと、閾値εを設定することである。
【0095】
なお、編集処理の具体例として以上のように4例示したが、編集処理はこれらに限定されるものではない。ピッチデータの変動を、ある基準値を中心に顕著化するものであれば、いかなるものでもよい。上記具体例3及び4において、敢えて平均値Aveのかわりに具体例1と同様にユーザの設定した基準値Cを用いることや、基準値Cを単一の値とせず、ユーザが状況に応じて、m毎かつfm毎に異なる値とすることなど、様々なバリエーションが考えられる。
【0096】
以上では理解を容易にするため、図1の音声データベース23から、データを、データ取り出し部13により図2に示す記憶部37に一旦全部読み込む例を示したが、かかる一括処理は本実施形態の本質的要件ではない。例えば、図1に示す音素HMM学習部19の仕様次第では、より動的に音声合成辞書を構築することも考えられる。
【0097】
(実施形態2)
【0098】
実施形態1においては、音声合成辞書構築装置11により音素ラベルと音素ピッチ情報とを対応付けた。この発明はこれに限定されず、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付ける場合にも適用可能である。
以下、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付けて音声合成辞書に書き出す音声合成辞書構築装置71について説明する。
【0099】
本実施形態に係る音声合成辞書構築装置71は、図5に示すように、データ取り出し部13と、ピッチデータ列抽出部15と、ピッチ編集部17と、を備える。これらの各部は、実施形態1に係る音声合成辞書構築装置11の対応する各部と同一の構成と機能を有する。
【0100】
音声合成辞書構築装置71は、さらに、スペクトル分析部73と、音素HMM学習部75と、データ書き出し部77と、を備える。
【0101】
スペクトル分析部73は、データ取り出し部13により取り出された音声データをスペクトル分析してスペクトルパラメータデータ列(例えば、隠れマルコフモデルに基づきフレーム毎に生成された多次元のLSP係数から成るLSP(Line Spectrum Pair)係数群の時系列データ)を生成する。
【0102】
音素HMM学習部75は、音素ラベル列と対応する編集済みピッチデータ列の対応関係を、HMMに基づいて学習することにより、音素ラベルと音素ピッチ情報との対応関係を示す情報に変換し、データ書き出し部77に引き渡す。さらに、音素HMM学習部75は、音素ラベル列とスペクトルパラメータデータ列(例えば、LSP係数群の時系列データ)との対応関係を、HMMに基づいて学習し、音素ラベルと音素スペクトルパラメータ情報との対応関係を示す情報に変換し、データ書き出し部77に引き渡す。
【0103】
データ書き出し部77は、音素ラベルと音素ピッチ情報の対応関係、及び、音素ラベルと音素スペクトルパラメータ情報の対応関係を、音声合成辞書25に書き出す。
【0104】
このようにして構築された音声合成辞書25を用いることにより、音素ラベル毎に音素ピッチ情報と音素スペクトルパラメータ情報とを用いて、高品質な音声を合成することができる。
【0105】
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。
【0106】
例えば、上述のハードウエア構成やブロック構成、フローチャートは例示であって、限定されるものでもない。
【0107】
また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行されるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。
【図面の簡単な説明】
【0108】
【図1】実施形態1に係る、ピッチ編集部を備えた音声合成辞書構築装置の機能構成図である。
【図2】実施形態1に係る音声合成辞書構築装置の物理的な構成を示す図である。
【図3】ピッチ編集処理の具体例1における動作の流れを示す図である。
【図4】ピッチ編集処理の具体例2における動作の流れを示す図である。
【図5】実施形態2に係る、スペクトル分析部を備えた音声合成辞書構築装置の機能構成図である。
【符号の説明】
【0109】
11・・・実施形態1に係る音声合成辞書構築装置、13・・・データ取り出し部、15・・・ピッチデータ列抽出部、17・・・ピッチ編集部、19・・・音素HMM学習部、21・・・データ書き出し部、23・・・音声データベース、25・・・音声合成辞書、31・・・コンピュータ装置、33・・・CPU、35・・・ROM、37・・・記憶部、39・・・ユーザI/F、43・・・データ入出力I/F、45・・・RAM、47・・・ハードディスク、49・・・バス、51・・・キーボード、53・・・モニタ、55・・・元データ入りハードディスク、57・・・処理済データ記録用ハードディスク、71・・・音声合成辞書構築装置、73・・・スペクトル分析部、75・・・音素HMM学習部、77・・・データ書き出し部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013