米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 三菱電機株式会社

発明の名称 韻律生成装置及び音声合成装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−11042(P2007−11042A)
公開日 平成19年1月18日(2007.1.18)
出願番号 特願2005−192473(P2005−192473)
出願日 平成17年6月30日(2005.6.30)
代理人 【識別番号】100066474
【弁理士】
【氏名又は名称】田澤 博昭
発明者 大塚 貴弘 / 藤井 洋一 / 山浦 正 / 古田 訓
要約 課題
韻律情報の予測精度を高めることができる韻律生成装置を得ることを目的とする。

解決手段
音声データベース21に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準JC,JVを計算するとともに、複数の韻律情報に対する誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから韻律モデルのモデルパラメータA,Bを推定するモデルパラメータ推定部22を設け、そのモデルパラメータ推定部22により推定された韻律モデルのモデルパラメータA,Bとテキストの言語情報から韻律情報を生成する。
特許請求の範囲
【請求項1】
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、上記音声データベースに登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成する韻律情報生成手段とを備えた韻律生成装置。
【請求項2】
モデルパラメータ推定手段は、複数の韻律情報に対する誤差基準として、複数の韻律情報の和に対する誤差基準、または、複数の韻律情報の差に対する誤差基準を計算することを特徴とする請求項1記載の韻律生成装置。
【請求項3】
モデルパラメータ推定手段は、音声データベースに登録されている言語情報に対応する韻律情報が母音長と子音長を表す音韻継続時間長であれば、複数の韻律情報に対する誤差基準として、複数の音韻継続時間長の和に対する誤差基準、または、複数の音韻継続時間長の差に対する誤差基準を計算することを特徴とする請求項2記載の韻律生成装置。
【請求項4】
モデルパラメータ推定手段は、音声データベースに登録されている言語情報に対応する韻律情報が音の高さを表す基本周波数であれば、複数の韻律情報に対する誤差基準として、複数の基本周波数の和に対する誤差基準、または、複数の基本周波数の差に対する誤差基準を計算することを特徴とする請求項2記載の韻律生成装置。
【請求項5】
モデルパラメータ推定手段は、言語情報に対応する韻律情報として、母音長と子音長を表す音韻継続時間長と、音の高さを表す基本周波数とが音声データベースに登録されている場合、複数の韻律情報に対する誤差基準として、複数の音韻に亘る基本周波数の傾きに対する誤差基準を計算することを特徴とする請求項2記載の韻律生成装置。
【請求項6】
モデルパラメータ推定手段は、音声データベースに登録されている言語情報に対応する韻律情報が音の大きさを表すパワーであれば、複数の韻律情報に対する誤差基準として、複数のパワーの和に対する誤差基準、または、複数のパワーの差に対する誤差基準を計算することを特徴とする請求項2記載の韻律生成装置。
【請求項7】
テキストを言語解析して、その解析結果である言語情報を出力する言語解析手段と、予め言語情報と韻律情報の対応関係が登録されている音声データベースと、上記音声データベースに登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータと上記言語解析手段より出力された言語情報から韻律情報を生成する韻律情報生成手段と、上記韻律情報生成手段により生成された韻律情報から音声信号を生成する音声信号生成手段とを備えた音声合成装置。
【請求項8】
モデルパラメータ推定手段は、複数の韻律情報に対する誤差基準として、複数の韻律情報の和に対する誤差基準、または、複数の韻律情報の差に対する誤差基準を計算することを特徴とする請求項7記載の音声合成装置。
発明の詳細な説明
【技術分野】
【0001】
この発明は、テキストの言語情報から韻律情報を生成する韻律生成装置と、テキストを言語解析して、その解析結果である言語情報から音声信号を生成する音声合成装置とに関するものである。
【背景技術】
【0002】
任意の文章から機械的に音声信号を生成する音声合成装置が開発されている。一般に、音声合成装置は、言語解析部、韻律生成部及び音声信号生成部の3つのモジュールから構成されている。
音声合成装置の言語解析部は、テキストを入力すると、形態素解析や構文解析などの言語解析を実施することにより、音韻記号列、アクセント型、品詞などの言語情報を出力する。
音声合成装置の韻律生成部は、言語解析部から言語情報を受けると、その言語情報から基本周波数や音韻継続時間長やパワーなどの韻律情報を生成する。
【0003】
即ち、韻律生成部は、音韻継続時間長生成部と基本周波数生成部とパワー生成部から構成されており、音韻継続時間長生成部は、言語解析部から出力された言語情報から各音韻の音韻継続時間長を生成する。
韻律生成部の基本周波数生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、声の高さを表す基本周波数を生成する。
韻律生成部のパワー生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、音声の大きさを表すパワーを生成する。
音声合成装置の音声信号生成部は、韻律生成部から韻律情報を受けると、その韻律情報などから音声信号を生成する。
【0004】
なお、韻律生成部における性能は、音声合成装置により合成された音声の自然性や了解性に大きく影響する。
テキストの音声合成における言語情報と韻律情報(抑揚、音韻継続時間長、パワー)の対応関係を韻律モデルで表す場合、その韻律モデルのパラメータ(以下、モデルパラメータと称する)の設定が、音声の韻律の自然性に大きく影響する。
このモデルパラメータの設定方法として、音声データベースに登録されている言語情報と韻律情報の対応関係を参照しながら、数量化I類を用いて、自動的にモデルパラメータを推定する方法が以下の特許文献1に開示されている。即ち、子音長に対する誤差基準と、母音長に対する誤差基準とを計算し、これらの個別の誤差基準から韻律モデルのモデルパラメータを推定する方法が以下の特許文献1に開示されている。
【0005】
しかしながら、音声データベースに登録されているデータの中には、不安定な発声や、音声データの韻律分析の失敗や、言語情報と関係のない要因(例えば、強調、感情)によって、乱れているデータが含まれていることがある。
このような場合、モデルパラメータの推定精度が劣化するため、適正な韻律情報が生成されず、合成音声の韻律が不自然になる場合がある。
【0006】
そこで、特許文献1に開示されている音声合成装置では、一旦、音声データベースを参照してモデルパラメータを推定し、そのモデルパラメータを用いて韻律情報を予測する。
そして、音声合成装置は、その予測した韻律情報と音声データベースに登録されている韻律情報をカテゴリ毎に比較し、その絶対誤差が閾値以上である韻律情報を音声データベースから除外する。
その後、音声合成装置は、不適正な韻律情報を除外した音声データベースを参照して、再度、モデルパラメータを推定することにより、韻律情報の予測精度を高めるようにしている。
【0007】
【特許文献1】特開平9−68993号公報(段落番号[0022]から[0042]、図1)
【発明の開示】
【発明が解決しようとする課題】
【0008】
従来の音声合成装置は以上のように構成されているので、個別の誤差基準から韻律モデルのモデルパラメータを推定するが、個別の誤差基準から韻律モデルのモデルパラメータを推定しても、関連のある韻律情報の和や差などを精度よく推定することができず(例えば、子音長と母音長の和に対する予測精度が悪い)、合成音声の韻律が不自然になる場合がある課題があった。
【0009】
この発明は上記のような課題を解決するためになされたもので、韻律情報の予測精度を高めることができる韻律生成装置を得ることを目的とする。
また、この発明は、韻律情報の予測精度を高めて、韻律が不自然な音声信号の生成を回避することができる音声合成装置を得ることを目的とする。
【課題を解決するための手段】
【0010】
この発明に係る韻律生成装置は、音声データベースに登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段を設け、そのモデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成するようにしたものである。
【発明の効果】
【0011】
この発明によれば、音声データベースに登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段を設け、そのモデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果がある。
【発明を実施するための最良の形態】
【0012】
実施の形態1.
図1はこの発明の実施の形態1による音声合成装置を示す構成図であり、図において、言語解析部1はテキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。なお、言語解析部1は言語解析手段を構成している。
韻律生成装置2は言語解析部1より出力されたテキストの言語情報から韻律情報を生成する処理を実施する。
音声信号生成部3は韻律生成装置2により生成された韻律情報から音声信号を生成する処理を実施する。なお、音声信号生成部3は音声信号生成手段を構成している。
【0013】
図2はこの発明の実施の形態1による韻律生成装置2を示す構成図であり、図において、音韻継続時間長生成部11は言語解析部1より出力されたテキストの言語情報から母音長と子音長を表す音韻継続時間長を韻律情報として生成する処理を実施する。
基本周波数生成部12は言語解析部1より出力されたテキストの言語情報から音の高さを表す基本周波数を韻律情報として生成する処理を実施する。
パワー生成部13は言語解析部1より出力されたテキストの言語情報から音の大きさを表すパワーを韻律情報として生成する処理を実施する。
図2では、韻律生成装置2が音韻継続時間長生成部11、基本周波数生成部12及びパワー生成部13から構成されている例を示しているが、この実施の形態1では、説明の便宜上、韻律生成装置2が音韻継続時間長生成部11だけで構成されているものとして説明する。基本周波数生成部12やパワー生成部13を実装している韻律生成装置2については、別の実施の形態で説明する。
【0014】
図3はこの発明の実施の形態1による韻律生成装置2における音韻継続時間長生成部11を示す構成図であり、図において、音声データベース21には予め言語情報と音韻継続時間長(韻律情報)の対応関係が登録されている。
モデルパラメータ推定部22は音声データベース21に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定する処理を実施する。即ち、子音長に対する個別の誤差基準JCと母音長に対する個別の誤差基準JVを計算するとともに、子音長と母音長の和に対する関連の誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから韻律モデルのモデルパラメータを推定する処理を実施する。モデルパラメータ推定部22により推定されるモデルパラメータは、数量化I類で表されるカテゴリ係数(あるいは、カテゴリ数量)に相当する。なお、モデルパラメータ推定部22はモデルパラメータ推定手段を構成している。
韻律情報生成部23はモデルパラメータ推定部22により推定された韻律モデルのモデルパラメータと言語解析部1より出力されたテキストの言語情報から韻律情報である音韻継続時間長(子音長、母音長)を生成する処理を実施する。なお、韻律情報生成部23は韻律情報生成手段を構成している。
【0015】
図4は音韻継続時間長を示す説明図であり、図において、Cは子音、Vは母音、C+Vは母音と子音の和を表している。
Vは母音Vの予測モデル、DCは子音Cの予測モデル、xは数量化された言語情報を表している。
図5はこの発明の実施の形態1による韻律生成装置2の処理内容を示すフローチャートである。
【0016】
次に動作について説明する。
言語解析部1は、テキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。
言語情報の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。
【0017】
韻律生成装置2の音韻継続時間長生成部11は、言語解析部1からテキストの言語情報を受けると、その言語情報から母音長と子音長を表す音韻継続時間長を韻律情報として生成する処理を実施する。
具体的には、以下の通りである。
音韻継続時間長生成部11の音声データベース21には、図6に示すように、言語情報として、当該音素と後続音素(当該音素の1つ後の音素)が登録され、当該音素に対応する音韻継続時間長として、当該音素の長さ(音素長)が登録されている。
【0018】
音韻継続時間長生成部11のモデルパラメータ推定部22は、音声データベース21から音素の読み込みを実施する(ステップST1)。
モデルパラメータ推定部22は、音声データベース21から読み込んだ当該音素が子音であれば、入力xCjに当該音素と後続音素の種類を表す値を設定し、音声データベース21から読み込んだ当該音素が母音であれば、入力xVjに当該音素と後続音素の種類を表す値を設定する(ステップST2)。
【0019】
即ち、モデルパラメータ推定部22は、ベクトルxのn個の要素に対して、下記に示すような意味付けを実施する。ただし、意味付けの順番は任意でよい。
なお、xは長さnの横ベクトルであり、nは当該音素と後続音素の種類の数である。
音素の種類は30種類であり、当該音素と後続音素の種類の数を合わせると、n=60になる。
1番目の要素は当該音素が母音a
2番目の要素は当該音素が母音i
・・・
30番目の要素は当該音素が子音z
31番目の要素は後続音素が母音a
32番目の要素は後続音素が母音i
・・・
60番目の要素は後続音素が子音のz
【0020】
モデルパラメータ推定部22は、上記のような意味付けを行うと、ベクトルxの要素に“0”または“1”を割り当てることにより、当該音素と後続音素が何であるのかがわかるようにする。例えば、当該音素が“a”で、後続音素が“i”であれば、ベクトルxの要素は次の値を有することになる。
xの1番目の要素の値 → 1
xの2番目の要素の値 → 0
・・・
xの30番目の要素の値 → 0
xの31番目の要素の値 → 0
xの32番目の要素の値 → 1
・・・
xの60番目の要素の値 → 0
【0021】
また、モデルパラメータ推定部22は、音声データベース21から読み込んだ当該音素が子音であれば、子音長Cjに当該音素の長さを設定し、音声データベース21から読み込んだ当該音素が母音であれば、母音長Vjに当該音素の長さを設定する(ステップST2)。
【0022】
モデルパラメータ推定部22は、上記の設定処理が完了すると、以下に示すように、子音長に対する個別の誤差基準JCと母音長に対する個別の誤差基準JVを計算するとともに、子音長と母音長の和に対する関連の誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから誤差基準JDを計算する。
D=wVV+wCC+wCVCV (1)
C=Σ(Cj−DC(xCj,A))2
V=Σ(Vj−DV(xVj,B))2
CV=Σ((Cj+Vj)−(DC(xCj,A)+DV(xVj,B)))2
j :第jサンプルの子音長
j :第jサンプルの母音長
Cj :第jサンプルの子音長に対する要因
Vj :第jサンプルの母音長に対する要因
A :子音長予測モデルのモデルパラメータ
B :母音長予測モデルのモデルパラメータ
C(xCj,A) :第jサンプルの子音長予測値
V(xVj,B) :第jサンプルの母音長予測値
V,wC,wCV :重み係数
Σ :音声データベース中に含まれるサンプルの和
【0023】
ここで、D(x,A)は、数量化I類の式であって、入力xと出力を対応付ける式であり、モデルパラメータAを用いて記述している。
D(x,A)=xA
Aは長さnの縦ベクトルであり、nはxの場合と同様に、当該音素と後続音素の種類の数であり、n=60になる。
【0024】
モデルパラメータ推定部22は、上記のようにして誤差基準JDを計算すると、その誤差基準JDを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部22は、DC(xCj,A)及びDV(xVj,B)を数量化I類の式で表す場合、その誤差基準JDがモデルパラメータの2次式で表されるので、その誤差基準JDをモデルパラメータA,Bで微分して連立方程式を立て、その連立方程式をモデルパラメータA,Bについて解くことにより、その誤差基準JDを最小化するモデルパラメータA,Bを推定する(ステップST3)。
【0025】
音韻継続時間長生成部11の韻律情報生成部23は、モデルパラメータ推定部22が誤差基準JDを最小化するモデルパラメータA,Bを推定すると、そのモデルパラメータA,Bと、言語解析部1から出力される言語情報(当該音素と後続音素で表される言語情報xCj,xVj)とを用いて、子音長DC(xCj,A)と母音長DV(xVj,B)を音韻継続時間長(韻律情報)として計算する(ステップST5)。
【0026】
音声信号生成部3は、韻律生成装置2の音韻継続時間長生成部11から音韻継続時間長である子音長DC(xCj,A)と母音長DV(xVj,B)を受けると、その子音長DC(xCj,A)と母音長DV(xVj,B)から音声信号を生成する処理を実施する。
音声信号の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。
なお、従来の音声合成装置は、子音長に対する個別の誤差基準JCと、母音長に対する個別の誤差基準JVから、個別にモデルパラメータA,Bを計算するようにしていたので、子音長と母音長の和に対する誤差が大きくなることがあったが、この実施の形態1では、子音長と母音長の和に対する誤差基準JCVを含む誤差基準JDからモデルパラメータA,Bを計算するようにしているので、子音長と母音長の和に対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
【0027】
以上で明らかなように、この実施の形態1によれば、音声データベース21に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準JC,JVを計算するとともに、複数の韻律情報に対する誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから韻律モデルのモデルパラメータA,Bを推定するモデルパラメータ推定部22を設け、そのモデルパラメータ推定部22により推定された韻律モデルのモデルパラメータA,Bとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果を奏する。
【0028】
以下、この実施の形態1の効果を明確にするため、実験データを用いて説明する。
子音長DC(xCj,A)と母音長DV(xVj,B)に対して、個別の誤差基準JC,JVを用いてモデルパラメータA,Bを推定する場合と、式(1)の誤差基準JDを用いてモデルパラメータA,Bを推定する場合とを比較する。即ち、各場合の予測誤差(平均誤差E)と誤差削減率Rを比較する。ただし、重み係数は、説明の便宜上、wV,wC,wCV=1とする。
【0029】
平均誤差Eは、誤差基準Jを用いて、次式で表されるものとする。
E=(J/N)1/2
N :音声データベース21に含まれるサンプルの数
誤差削減率Rは、次式で表されるものとする。
R=−(En−E0)×100/E0
n :本法(実施の形態1)による平均誤差
0 :従来法による平均誤差
【0030】
平均誤差Eと誤差削減率Rを、モデルパラメータA,Bを推定するために用いたデータ(学習データ)と、モデルパラメータA,Bの推定に用いていないデータ(未学習データ)に分けて示すと、図7のようになる。図7において、Cは子音を表し、Vは母音を表している。
図7に示すように、未学習データにおいては、従来法と比べて本法では、子音Cの誤差が0.42%だけ増加し、母音Vの誤差が0.97%だけ増加しているが、C+Vが2.76%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、子音Cの誤差が1.54%だけ増加し、母音Vの誤差が1.46%だけ増加しているが、C+Vが4.68%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
【0031】
実施の形態2.
上記実施の形態1では、言語解析部1がテキストの言語解析を実施して、音韻記号列の言語情報を出力するものについて示したが、これに限るものではなく、例えば、アクセント型、品詞、係り先、ポーズ、音韻数などの言語情報を出力するようにしてもよい。
また、上記実施の形態1では、言語解析部1が出力する音韻記号列が当該音素と後続音素であるものについて示したが、後続音素の代わりに、先行音素(当該音素の1つの前の音素)、先々行音素(当該音素の2つの前の音素)、あるいは、後々続音素(当該音素の2つの後の音素)などを出力するようにしてもよい。また、当該音素と後続音素に加えて、先行音素等を出力するようにしてもよい。
【0032】
上記実施の形態1では、音韻継続時間長生成部11が音韻継続時間長として、2つの音素の長さ(母音長、子音長)を計算するものについて示したが、音素を複数に分割して(例えば、音素を前半と後半に分割する)、分割した音素の長さを計算するようにしてもよい。
この場合、母音の前半の長さを表すモデルと、母音の後半の長さ表すモデルとを設定し、これらのパラメータを推定する際の誤差基準は、母音の前半の長さに対する誤差と、母音の後半の長さ対する誤差と、母音の前半と後半の長さの和に対する誤差の3つから構成される。
【0033】
上記実施の形態1では、音声データベース21に言語情報として当該音素と後続音素が登録されるとともに、当該音素の長さが登録されるものについて示したが、予測する韻律情報に合わせて、母音が分割(例えば、母音が前半と後半に分割)された長さが登録されるようにしてもよい。
【0034】
上記実施の形態1では、モデルパラメータ推定部22が音声データベース21に登録されている音韻継続時間長を使用して、韻律モデルのモデルパラメータA,Bを推定するものについて示したが、下記に示すように、音声データベース21に登録されている音韻継続時間長を適宜変換し、変換後の音韻継続時間長を使用して、韻律モデルのモデルパラメータA,Bを推定するようにしてもよい。
変換例(1) p’ ← γ(p+β)α
変換例(2) p’ ← γlog(p+β)α
ただし、pは変換前の音韻継続時間長、p’は変換後の音韻継続時間長、α,β,γは任意の変換パラメータである。
【0035】
上記実施の形態1では、モデルパラメータ推定部22が子音及び母音の入力xCj,xVj,に同一の値を設定するものについて示したが、言語情報を選択して、母音と子音で異なる値を設定するようにしてもよい。
また、上記実施の形態1では、モデルパラメータ推定部22がベクトルxの要素に“0”または“1”を割り当てるものについて示したが、言語情報を表すことができればよく、ベクトルxの要素に他の2つの値(例えば、“0.1”と“−1”)を割り当てるようにしてもよい。
ベクトルxの要素に2値ではなく、多値を割り当てるようにしてもよい。例えば、ポーズ長に応じて、次のような値を割り当てるようにしてもよい。
ポーズ長が0から25msecの場合 → 0
ポーズ長が26から50msecの場合 → 1
ポーズ長が51から75msecの場合 → 2
ポーズ長が76以上の場合 → 3
【0036】
上記実施の形態1では、音素の種類が30種類であるものについて示したが、音素をグループ化(例えば、摩擦音sと破擦音tsをグループ化して、摩擦・破擦音stsとする)することにより、音素の種類数を少なくしてもよい。
また、音素を分割化(例えば、破擦音tsを後続の母音で分割し、後続の母音がaのときはtsa、後続の母音がuのときはtsu、これら以外の後続の母音のときは、tsx)することにより、音素の種類数を増やすようにしてもよい。
【0037】
上記実施の形態1では、モデルパラメータ推定部22が重み係数wV,wC,wCVで重み付けられた誤差基準JC,JV,JCVを加算して、誤差基準JDを求めるものについて示したが、これに限るものではなく、例えば、3つの誤差基準JC,JV,JCVを乗算して誤差基準JDを求めるようにしてもよいし、乗算と加算を組み合わせて誤差基準JDを求めるようにしてもよい。
D=JC・JV・JCV
D=JC・JV+JCV
【0038】
上記実施の形態1では、予測値を計算するD(x,A)を数量化I類の式で表されているものについて示したが、他の入出力関数で表されているものであってもよい。
例えば、人工ニューラルネットワークで表されるような関数や、モデルパラメータAに対して非線形な関数や、入力xに対して非線形な式であってもよい。
【0039】
上記実施の形態1では、モデルパラメータAを、入力xと同じ長さnのベクトルで表すものについて示したが、Aの長さはxの長さと一致している必要はなく、入出力関数の形にしたがって任意の長さでもよい。
【0040】
上記実施の形態1では、モデルパラメータ推定部22が誤差基準JDをモデルパラメータA,Bで微分して連立方程式を立て、その連立方程式をモデルパラメータA,Bについて解くことにより、その誤差基準JDを最小化するモデルパラメータA,Bを推定するものについて示したが、これに限るものではなく、例えば、公知の数値解析を実施して、誤差基準JDを最小化するモデルパラメータA,Bを推定するようにしてもよい。
【0041】
上記実施の形態1では、音声データベース21における韻律情報と予測値の誤差の2乗の和で誤差基準を表すものについて示したが、これに限るものではなく、例えば、韻律情報と予測値をベクトルで表し、このベクトルの距離で誤差基準を表すようにしてもよい。
【0042】
実施の形態3.
上記実施の形態1では、子音長に対する個別の誤差基準JCと母音長に対する個別の誤差基準JVを計算するとともに、子音長と母音長の和に対する関連の誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから誤差基準JDを計算するものについて示したが、下記の3つ誤差基準から誤差基準JDを計算するようにしてもよい。
【0043】
即ち、この実施の形態3では、モデルパラメータ推定部22が子音長と母音長の和のモデルと、子音長のモデルを設定することにより、子音長と母音長の和に対する関連の誤差基準JCVと、子音長に対する個別の誤差基準JCと、関連の誤差基準JCVと個別の誤差基準JCの差(子音長と母音長−子音長)の誤差基準JCV-Cを計算し、それらの誤差基準JCV,JC,JCV-Cから誤差基準JDを計算するようにする。
D=wCVCV+wCC+wCV-CCV-C
ただし、wCV,wC,wCV-Cは重み係数である。
【0044】
このように、モデルパラメータ推定部22が、関連の誤差基準JCVと個別の誤差基準JCの差(子音長と母音長−子音長)の誤差基準JCV-Cを誤差基準JDに含めて、その誤差基準JDが最小になるように、モデルパラメータA,Bを推定することにより、従来よりも、予測値の差(子音長と母音長−子音長)を小さくすることができるため、合成音声の韻律の品質を改善することができる。
図8は平均誤差Eと誤差削減率Rを示す説明図であり、図において、Cは子音長のモデルを示し、CVは子音長と母音長の和のモデルを示し、CV−Cはこれらの差(子音長と母音長−子音長)のモデルを示している。
【0045】
図8に示すように、未学習データにおいては、従来法と比べて本法では、子音Cの誤差が0.99%だけ増加しているが、CV−Cが8.65%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、子音Cの誤差が3.65%だけ増加し、C+Vの誤差が0.84%だけ増加しているが、CV−Cが10.72%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
【0046】
実施の形態4.
上記実施の形態1〜3では、音韻継続時間長が韻律情報であるものについて示したが、この実施の形態4では、音の高さを表す基本周波数が韻律情報であるものについて説明する。
即ち、図2の基本周波数生成部12が韻律生成装置2に実装されている形態について説明する。基本周波数生成部12は、音韻継続時間長生成部11と同様に、音声データベース21、モデルパラメータ推定部22及び韻律情報生成部23から構成されている(音韻継続時間長生成部11の音声データベース21、モデルパラメータ推定部22及び韻律情報生成部23とは若干処理内容が相違している)。
ただし、この実施の形態4では、音声データベース21が、図9に示すように、言語情報として、音韻数とアクセント型を登録し、韻律情報として、当該フレーズの代表となる4つの基本周波数(第1基本周波数、第2基本周波数、第3基本周波数、第4基本周波数)を登録している。
【0047】
ここで、フレーズは、韻律の基本単位であって、1音節以上の長さであり、1つ以下のアクセントを含む単位である。
代表となる4つの基本数周波数における第1基本周波数はフレーズの開始時刻における基本周波数であり、第2基本周波数はフレーズ中の第2音節の母音の中央の時刻における基本周波数である。
また、第3基本周波数はアクセントのある音節の母音の中央の時刻における基本周波数であり、第4基本周波数はアクセントのある音節の次の音節の中央の時刻における基本周波数である。
図9の例では、2つのフレーズからなる文の基本周波数の時間変化を示しており、第1基本周波数はf1j、第2基本周波数はf2j、第3基本周波数はf3j、第4基本周波数はf4jで示されるものとする。
また、音韻数は、フレーズに含まれる音節の数である。
【0048】
基本周波数生成部12のモデルパラメータ推定部22は、音声データベース21から言語情報(音韻数、アクセント型)の読み込みを実施して、その音韻数をx2jに設定するとともに、そのアクセント型をx3jに設定する。また、その言語情報の第2基本周波数をf2jに設定して、その言語情報の第3基本周波数をf3jに設定する。
【0049】
モデルパラメータ推定部22は、上記の設定処理が完了すると、以下に示すように、第2基本周波数に対する個別の誤差基準J2と第3基本周波数に対する個別の誤差基準J3を計算するとともに、第2基本周波数と第3基本周波数の差に対する関連の誤差基準J5を計算し、それらの誤差基準J2,J3,J5から誤差基準JFを計算する。
F=w22+w33+w55 (2)
2=Σ(f2j−F2(x2j,C))2
3=Σ(f3j−F3(x3j,D))2
5=Σ((f2j−f3j)−(F2(x2j,C)−F3(x3j,D)))2
ij :第jサンプルの第i基本周波数
ij :第jサンプルの第i基本周波数に対する要因
i(xij) :第jサンプルの第i基本周波数の予測モデル
2,w3,w5 :誤差関数に対する重み係数(正の値)
Σ :第jサンプルに対する和
【0050】
モデルパラメータ推定部22は、上記のようにして誤差基準JFを計算すると、その誤差基準JFを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部22は、F2(x2j,C)及びF3(x3j,D)を数量化I類の式で表す場合、その誤差基準JFがモデルパラメータの2次式で表されるので、その誤差基準JFをモデルパラメータC,Dで微分して連立方程式を立て、その連立方程式をモデルパラメータC,Dについて解くことにより、その誤差基準JFを最小化するモデルパラメータC,Dを推定する。
【0051】
基本周波数生成部12の韻律情報生成部23は、モデルパラメータ推定部22が誤差基準JFを最小化するモデルパラメータC,Dを推定すると、そのモデルパラメータC,Dと、言語解析部1から出力される言語情報x2j,x3jとを用いて、第2基本周波数F2(x2j,C)と第3基本周波数F3(x3j,D)を韻律情報として計算する。
【0052】
音声信号生成部3は、韻律生成装置2の基本周波数生成部12から第2基本周波数F2(x2j,C)と第3基本周波数F3(x3j,D)を受けると、その第2基本周波数F2(x2j,C)と第3基本周波数F3(x3j,D)から音声信号を生成する処理を実施する。
なお、従来の音声合成装置は、第2基本周波数F2(x2j,C)に対する個別の誤差基準J2と、第3基本周波数F2(x3j,C)に対する個別の誤差基準J3から、個別にモデルパラメータC,Dを計算するようにしていたので、第2基本周波数と第3基本周波数の差に対する誤差が大きくなることがあったが、この実施の形態4では、第2基本周波数と第3基本周波数の差に対する関連の誤差基準J5を含む誤差基準JFからモデルパラメータC,Dを計算するようにしているので、第2基本周波数と第3基本周波数の差に対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
【0053】
以上で明らかなように、この実施の形態4によれば、音声データベース21に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準J2,J3を計算するとともに、複数の韻律情報に対する誤差基準J5を計算し、それらの誤差基準J2,J3,J5から韻律モデルのモデルパラメータC,Dを推定するモデルパラメータ推定部22を設け、そのモデルパラメータ推定部22により推定された韻律モデルのモデルパラメータC,Dとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果を奏する。
【0054】
以下、この実施の形態4の効果を明確にするため、実験データを用いて説明する。
第2基本周波数F2(x2j,C)と第3基本周波数F3(x3j,D)に対して、個別の誤差基準J2,J3を用いてモデルパラメータC,Dを推定する場合と、式(2)の誤差基準JFを用いてモデルパラメータC,Dを推定する場合とを比較する。即ち、各場合の予測誤差(平均誤差E)と誤差削減率Rを比較する。ただし、重み係数は、説明の便宜上、w2,w3,w5=1とする。
【0055】
平均誤差Eと誤差削減率Rを、モデルパラメータC,Dを推定するために用いたデータ(学習データ)と、モデルパラメータC,Dの推定に用いていないデータ(未学習データ)に分けて示すと、図10のようになる。
なお、基本周波数は、次式のようにlog変換を実施し、f0は変換前の基本周波数、f0'は変換後の基本周波数である。
0'=12log(f0
【0056】
図10に示すように、未学習データにおいては、従来法と比べて本法では、第2基本周波数の誤差が0.06%だけ増加し、第3基本周波数の誤差が0.10%だけ増加しているが、f2−f3が5.45%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、第2基本周波数の誤差が0.36%だけ増加し、第3基本周波数の誤差が0.44%だけ増加しているが、f2−f3が6.00%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
【0057】
実施の形態5.
上記実施の形態4では、音声データベース21が言語情報として、音韻数とアクセント型を登録するものについて示したが、これに限るものではなく、例えば、音韻系列、品詞、係り先、ポーズなどの言語情報を登録するようにしてもよい。
【0058】
また、上記実施の形態4では、第2基本周波数と第3基本周波数に対する誤差基準J2,J3を計算するものについて示したが、これに限るものではなく、他の代表となる基本周波数に対する誤差基準Jを計算するようにしてもよい。
例えば、第1基本周波数と第2基本周波数に対する誤差基準J1,J2、第1基本周波数と第3基本周波数に対する誤差基準J1,J3、第1基本周波数と第4基本周波数に対する誤差基準J1,J4、第2基本周波数と第4基本周波数に対する誤差基準J2,J4などを計算するようにしてもよい。
【0059】
上記実施の形態4では、代表となる基本周波数をフレーズ中の第1,2,3,4基本周波数で表しているものを示したが、フレーズ中の音節毎の基本周波数を、代表となる基本周波数としてもよい。
また、上記実施の形態4では、同一フレーズ内の第2基本周波数と第3基本周波数のモデルの誤差基準J5について述べたが、前後のフレーズに跨った基本周波数をモデルとしてもよい。例えば、当該フレーズの第2基本周波数のモデルと、次のフレーズの第2基本周波数を2つのモデルとしてもよい。
【0060】
実施の形態6.
上記実施の形態1〜5では、音韻継続時間長又は基本周波数に対する誤差基準を最小にするモデルパラメータを推定するものについて示したが、音韻継続時間長に対する誤差基準と基本周波数に対する誤差基準の双方を含む誤差基準を最小にするモデルパラメータを推定するようにしてもよい。
具体的には、以下の通りである。
【0061】
この実施の形態6では、音声データベース21が、図11に示すように、言語情報として、音韻記号列と音韻数とアクセント型を登録し、韻律情報として、音節の長さと、当該フレーズの代表となる2つの基本周波数(第1基本周波数、第2基本周波数)とを登録している。
なお、第1基本周波数はフレーズの開始時刻における基本周波数であり、第2基本周波数はフレーズ中の第2音節の母音の中央の時刻における基本周波数ある。
図12は2つのフレーズからなる文の基本周波数の時間変化を示しており、第1基本周波数はf1j、第2基本周波数はf2jで表されている。また、Cは子音、Vは母音を表している。また、P1は母音終了位置から第1基本周波数を設定する時刻、P2は母音終了位置から第2基本周波数を設定する時刻である。
【0062】
モデルパラメータ推定部22は、音声データベース21から言語情報(音韻記号列、音韻数、アクセント型)の読み込みを実施して、その音韻数をx2jに設定するとともに、そのアクセント型をx3jに設定する。また、当該音素と後続音素を入力xMiに設定する。さらに、その言語情報の第1基本周波数をf1jに設定して、その言語情報の第2基本周波数をf2jに設定する。
【0063】
モデルパラメータ推定部22は、上記の設定処理が完了すると、以下の式(5)に示すように、複数の音韻に亘る基本周波数の傾きに対する誤差基準JPを計算する。
ここで、複数の音韻に亘る基本周波数の傾きは、下記示すように、比の式で表すことができる。
(f2j−f1j):(Mj2+P1−P2
=(F2(x2j,A)−F1(x1j,E):(DM(xMj2,F)+P1−P2
(3)
1 :母音終了位置から第1基本周波数を設定する時刻
2 :母音終了位置から第2基本周波数を設定する時刻
j2 :第jサンプルの第2音節の子音長と母音長の和
Mj2 :第jサンプルの第2音節の子音長と母音長の和に対する要因
【0064】
したがって、傾きに関する誤差Jgは、次式で定義することができる。
g=Σ((Mj12+P1−P2)(F2(x2j,A)−F1(x1j,E))
−(DM(xMj2,F)+P1−P2)(f2j−f1j))2
(4)
Σ :第jサンプルに対する和
【0065】
モデルパラメータ推定部22は、従来、独立に表現される誤差関数JM,J1,J2を使用して、誤差基準JPを式(5)のように定義する。
P=wMM+w11+w22+wgg (5)
M=Σ(Mj−DM(xMj,F))2
1=Σ(f1j−F1(x1j,E))2
2=Σ(f2j−F2(x2j,C))2
j :第jサンプルの子音長と母音長の和
Mj :第jサンプルの子音長と母音長の和に対する要因
M(xMj,F) :第jサンプルの子音長と母音長の和の予測モデル
ij :第jサンプルの第i基本周波数
ij :第jサンプルの第i基本周波数に対する要因
i(xij) :第jサンプルの第i基本周波数の予測モデル
M,w1,w2,w3 :誤差関数に対する重み係数(正の値)
Σ :第jサンプルに対する和
【0066】
モデルパラメータ推定部22は、上記のようにして誤差基準JPを計算すると、その誤差基準JPを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部22は、DM(xMj,F)、F1(x1j,E)及びF2(x2j,C)を数量化I類の式で表す場合、その誤差基準JPがモデルパラメータの2次式で表されるので、その誤差基準JPをモデルパラメータF,E,Cで微分して連立方程式を立て、その連立方程式をモデルパラメータF,E,Cについて解くことにより、その誤差基準JPを最小化するモデルパラメータF,E,Cを推定する。
【0067】
韻律情報生成部23は、モデルパラメータ推定部22が誤差基準JPを最小化するモデルパラメータF,E,Cを推定すると、そのモデルパラメータF,E,Cと、言語解析部1から出力される言語情報x1j,x2j,xMjとを用いて、音節長DM(xMj,F)と第1基本周波数F1(x1j,C)と第2基本周波数F2(x2j,D)を韻律情報として計算する。
【0068】
音声信号生成部3は、韻律生成装置2の基本周波数生成部12から音節長DM(xMj,F)と第1基本周波数F1(x1j,C)と第2基本周波数F2(x2j,D)を受けると、その音節長DM(xMj,F)と第1基本周波数F1(x1j,C)と第2基本周波数F2(x2j,D)から音声信号を生成する処理を実施する。
なお、従来の音声合成装置は、音節長DM(xMj,F)に対する個別の誤差基準JMと、第1基本周波数F1(x1j,C)に対する個別の誤差基準J1と、第2基本周波数F2(x2j,C)に対する個別の誤差基準J2から、個別にモデルパラメータF,E,Cを計算するようにしていたので、基本周波数の傾きに対する誤差が大きくなることがあったが、この実施の形態6では、複数の音韻に亘る基本周波数の傾きの誤差基準JMを含む誤差基準JPからモデルパラメータF,E,Cを計算するようにしているので、基本周波数の傾きに対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
【0069】
実施の形態7.
上記実施の形態1〜6では、韻律情報として、音韻継続時間長又は基本周波数を使用するものについて示したが、韻律情報として、音の大きさを表すパワーを使用するようにしてもよく、上記実施の形態1〜6と同様の効果を奏することができる。
なお、上記実施の形態6では、基本周波数の代わりに、音の大きさを表すパワーを使用するようにすればよい。
【図面の簡単な説明】
【0070】
【図1】この発明の実施の形態1による音声合成装置を示す構成図である。
【図2】この発明の実施の形態1による韻律生成装置を示す構成図である。
【図3】この発明の実施の形態1による韻律生成装置における音韻継続時間長生成部を示す構成図である。
【図4】音韻継続時間長を示す説明図である。
【図5】この発明の実施の形態1による韻律生成装置の処理内容を示すフローチャートである。
【図6】音声データベースの登録内容を示す説明図である。
【図7】平均誤差Eと誤差削減率Rを示す説明図である。
【図8】平均誤差Eと誤差削減率Rを示す説明図である。
【図9】音声データベースの登録内容を示す説明図である。
【図10】平均誤差Eと誤差削減率Rを示す説明図である。
【図11】音声データベースの登録内容を示す説明図である。
【図12】2つのフレーズからなる文の基本周波数の時間変化を示す説明図である。
【符号の説明】
【0071】
1 言語解析部(言語解析手段)、2 韻律生成装置、3 音声信号生成部(音声信号生成手段)、11 音韻継続時間長生成部、12 基本周波数生成部、13 パワー生成部、21 音声データベース、22 モデルパラメータ推定部(モデルパラメータ推定手段)、23 韻律情報生成部(韻律情報生成手段)。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013