米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音声合成装置,音声合成方法,およびコンピュータプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−140002(P2007−140002A)
公開日 平成19年6月7日(2007.6.7)
出願番号 特願2005−332354(P2005−332354)
出願日 平成17年11月17日(2005.11.17)
代理人 【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
発明者 兼安 勉
要約 課題
所望のイントネーションをもつ合成音声を簡単に生成させる。

解決手段
予め録音された音声を用いてテキストを読み上げる合成音声を作成する音声合成装置に,予め録音された音声である収録音声が格納されている収録音声記憶部124と,合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部110と,読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列,及び各ラベルに対応する各音素の境界位置を示すラベル情報を入力する属性情報入力部112と,ラベル列,ラベル情報,および読み上げ音声に基づいて,読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出部116と,収録音声記憶部から,特徴パラメータに応じて収録音声を選択し,選択した収録音声を合成してテキストを読み上げる合成音声を作成する音声合成部122とを設けた。
特許請求の範囲
【請求項1】
予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置において:
予め録音された音声である収録音声が格納されている収録音声記憶部と;
前記合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部と;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力部と;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出部と;
前記収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択し,選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成部と;
を備えることを特徴とする音声合成装置。
【請求項2】
前記パラメータ抽出部により抽出される前記特徴パラメータには,前記読み上げ音声の音響的特徴を示す音響パラメータ,および前記読み上げ音声の韻律的特徴を示す韻律パラメータが含まれることを特徴とする,請求項1に記載の音声合成装置。
【請求項3】
前記パラメータ抽出部により抽出される前記特徴パラメータには,前記読み上げ音声の韻律的特徴を示す韻律パラメータが含まれ,
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された,前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と;
前記合成音声を作成する対象のテキストを入力するテキスト入力部と;
前記テキストを解析し,言語韻律情報を取得するテキスト解析部と;
前記ラベル列と,前記ラベル情報と,前記韻律パラメータと,前記言語韻律情報と,前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて,前記テキストが読み上げられる際の自然音声の音響的特徴を推定し,該特徴を示す音響パラメータを導出する特徴推定部と;
を備えることを特徴とする,請求項1に記載の音声合成装置。
【請求項4】
前記ラベル毎に,前記ラベルに対応する前記各音素の音響的な特徴をモデル化したラベル別音響モデルが格納されているラベル別音響モデル記憶部と;
前記読み上げ音声と,前記ラベル列と,前記ラベル別音響モデルとに基づいて,前記ラベル情報を導出するラベル情報導出部と;
を備えることを特徴とする,請求項1〜3のいずれか1項に記載の音声合成装置。
【請求項5】
コンピュータをして,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置であって:
前記合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力処理と;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力処理と;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出処理と;
予め録音された音声である収録音声が格納されている収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択する選択処理と;
前記選択処理により選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成処理と;
を実行せしめることを特徴とするコンピュータプログラム。
【請求項6】
予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成方法において:
前記合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力ステップと;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力ステップと;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出ステップと;
予め録音された音声である収録音声が格納されている収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択する選択ステップと;
前記選択ステップにより選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成ステップと;
を含むことを特徴とする音声合成方法。
【請求項7】
予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置において:
予め録音された音声である収録音声が格納されている収録音声記憶部と;
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された,前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と;
前記合成音声を作成する対象のテキストを入力するテキスト入力部と;
前記テキストに含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力部と;
前記音素の韻律的および/または音響的に異なる複数の状態に従って,前記各状態の境界位置を設定するラベル情報調整部と;
前記テキストを解析し,言語韻律情報を取得するテキスト解析部と;
前記ラベル列と,前記ラベル情報調整部により調整されたラベル情報と,前記言語韻律情報と,前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて,前記テキストが読み上げられる際の自然音声の特徴を推定し,該特徴を示す特徴パラメータを導出する特徴推定部と;
前記収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択し,選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成部と;
を備えることを特徴とする音声合成装置。
【請求項8】
前記ラベル情報は,前記各ラベルに対応する前記各音素の継続時間を示す情報であり,
前記ラベル情報調整部は,前記複数の状態に応じて,前記継続時間を前記各状態に振り分ける
ことを特徴とする,請求項7に記載の音声合成装置。
【請求項9】
コンピュータをして,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置であって:
予め録音された音声である収録音声が格納されている収録音声記憶部と;
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された,前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と;
を用いて,
前記合成音声を作成する対象のテキストを入力するテキスト入力処理と;
前記テキストに含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力処理と;
前記音素の韻律的および/または音響的に異なる複数の状態に従って,前記各状態の境界位置を設定するラベル情報調整処理と;
前記テキストを解析し,言語韻律情報を取得するテキスト解析処理と;
前記ラベル列と,前記ラベル情報調整部により調整されたラベル情報と,前記言語韻律情報と,前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて,前記テキストが読み上げられる際の自然音声の特徴を推定し,該特徴を示す特徴パラメータを導出する特徴推定処理と;
前記収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択し,選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成処理と;
を実行せしめることを特徴とするコンピュータプログラム。
【請求項10】
予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成方法において:
予め録音された音声である収録音声が格納されている収録音声記憶部と;
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された,前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と;
を用いて実行され,
前記合成音声を作成する対象のテキストを入力するテキスト入力ステップと;
前記テキストに含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力ステップと;
前記音素の韻律的および/または音響的に異なる複数の状態に従って,前記各状態の境界位置を設定するラベル情報調整ステップと;
前記テキストを解析し,言語韻律情報を取得するテキスト解析ステップと;
前記ラベル列と,前記ラベル情報調整部により調整されたラベル情報と,前記言語韻律情報と,前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて,前記テキストが読み上げられる際の自然音声の特徴を推定し,該特徴を示す特徴パラメータを導出する特徴推定ステップと;
前記収録音声記憶部から,前記特徴パラメータに応じて前記収録音声を選択し,選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成ステップと;
を含むことを特徴とする音声合成方法。

発明の詳細な説明
【技術分野】
【0001】
本発明は,音声合成装置,音声合成方法,およびコンピュータプログラムに関する。詳しくは,テキストを読み上げる合成音声を,予め収録された音声を用いて生成する,音声合成装置,音声合成方法,およびコンピュータプログラムに関する。
【背景技術】
【0002】
予め録音された人の自然音声を用いて,PC(パーソナルコンピュータ)等に入力されたテキスト文書を音声に変換して読み上げる音声合成装置が一般に知られている。このような音声合成装置は,品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて音声を合成する。
【0003】
上記音声合成装置は,まず,入力されたテキストに対して,例えば,形態素解析,係り受け解析を実行し,音素記号,アクセント記号などに変換する。次に,音素記号,アクセント記号列,および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定を行う。推定された韻律パラメータに最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときのゆがみが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。
【0004】
韻律パラメータは,合成音声によるテキスト読み上げ時のイントネーションやアクセントなどに関係する。従来の音声合成装置は,上述のように,テキストの解析結果から推定された韻律パラメータに基づいて音声を合成するため,ユーザの希望に沿ったイントネーションやアクセントをもつ合成音声を生成することは困難であった。そこで,ユーザの所望のイントネーションやアクセントをもつ合成音声を生成するために,GUIを介してユーザに韻律パラメータを指定させて,指定された韻律パラメータに基づいて音声を合成する装置が提案されている。
【0005】
【非特許文献1】「コーパス・ベース音声合成システムXIMERA」電子情報通信学会,信学技報,SP2005-18,P37-42(2005.5)
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし,一般のユーザは,どの韻律パラメータをどのような値にすれば所望のイントネーションを作り出すことができるか分からない場合が多い。従って,上記のような韻律パラメータを指定させる装置では,一般のユーザが所望のイントネーション等の合成音声を生成させることは難しかった。
【0007】
そこで,本発明は,このような問題に鑑みてなされたもので,その目的とするところは,一般のユーザでも簡単に所望のイントネーション,アクセントをもつ合成音声を生成させることの可能な,新規かつ改良された音声合成装置,音声合成方法,およびコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために,本発明のある観点によれば,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置において,予め録音された音声である収録音声が格納されている収録音声記憶部と,合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部と,読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,各ラベルに対応する各音素の境界位置を示すラベル情報と,を入力する属性情報入力部と,ラベル列,ラベル情報,および読み上げ音声に基づいて,読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出部と,収録音声記憶部から,特徴パラメータに応じて収録音声を選択し,選択した収録音声を合成してテキストを読み上げる合成音声を作成する音声合成部と,を備える音声合成装置が提供される。
【0009】
上記発明によれば,合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声から,その音声の特徴を示す特徴パラメータが抽出され,抽出された特徴パラメータに応じて収録音声が選択される。そのため,自然音声の特徴に類似した特徴をもつ収録音声を選択し,その収録音声を合成して合成音声を作成することにより,自然音声の特徴に類似した特徴をもつ合成音声が生成される。従って,ユーザは,合成音声を作成する対象のテキストを読み上げた際の自然音声を本発明にかかる音声合成装置に入力することにより,その自然音声に類似した合成音声を生成させることができる。
【0010】
上記パラメータ抽出部により抽出される特徴パラメータには,読み上げ音声の音響的特徴を示す音響パラメータ,および読み上げ音声の韻律的特徴を示す韻律パラメータが含まれていてもよい。音響的特徴としては,スペクトル,ケプストラム,デルタケプストラム,デルタデルタケプストラム,パワー,デルタパワー,デルタデルタパワー,それらの組み合わせを挙げることができる。韻律的特徴としては,基本周波数(声の高さ),母音中心のパワー(声の大きさ),音素の継続時間などを挙げることができる。かかる構成によれば,入力された自然音声の音響的特徴,および韻律的特徴と同一または類似した音響的特徴と韻律的特徴をもつ合成音声を生成することができる。
【0011】
上記パラメータ抽出部により抽出される特徴パラメータには,読み上げ音声の韻律的特徴を示す韻律パラメータが含まれ,上記音声合成装置は,収録音声記憶部に格納されている収録音声に基づいて予め生成された,収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と,合成音声を作成する対象のテキストを入力するテキスト入力部と,テキストを解析し,言語韻律情報を取得するテキスト解析部と,ラベル列と,ラベル情報と,韻律パラメータと,言語韻律情報と,音韻モデル記憶部に格納されている音響モデルおよび韻律モデルとに基づいて,テキストが読み上げられる際の自然音声の音響的特徴を推定し,該特徴を示す音響パラメータを導出する特徴推定部と,をさらに備えていてもよい。言語韻律情報には,例えば,品詞やアクセントの情報が含まれる。かかる構成によれば,収録音声の音響的特徴をモデル化した音響モデル,収録音声の韻律的特徴をモデル化した韻律モデルを用いて,合成音声に持たせるべき音響的特徴が推定される。つまり,発話者によって相違する音響的特徴が,収録音声の発話者自身の音声の音響的特徴をモデル化した音響モデルに従って推定される。そのため,入力された自然音声の発話者と,収録音声の発話者とが異なる場合であっても,合成音声が不自然になることを防止できる。
【0012】
上記音声合成装置は,ラベル毎に,ラベルに対応する各音素の音響的な特徴をモデル化したラベル別音響モデルが格納されているラベル別音響モデル記憶部と,読み上げ音声と,ラベル列と,ラベル別音響モデルとに基づいて,ラベル情報を導出するラベル情報導出部と,をさらに備えていてもよい。かかる構成によれば,音声合成装置がラベル情報を導出するため,ユーザがラベル情報を作成しなくても済み,より簡単に合成音声を作成させることができる。
【0013】
上記課題を解決するために,本発明の別の観点によれば,コンピュータに上記の音声合成装置として機能させるコンピュータプログラムが提供される。コンピュータプログラムは,コンピュータが備える記憶部に格納され,コンピュータが備えるCPUに読み込まれて実行されることにより,そのコンピュータを上記の音声合成装置として機能させる。また,コンピュータプログラムが記録された,コンピュータで読み取り可能な記録媒体も提供される。記録媒体は,例えば,磁気ディスク,光ディスクなどである。
【0014】
上記課題を解決するために,本発明の別の観点によれば,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成方法において,合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力ステップと,読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,各ラベルに対応する各音素の境界位置を示すラベル情報と,を入力する属性情報入力ステップと,ラベル列,ラベル情報,および読み上げ音声に基づいて,読み上げ音声の特徴を示す特徴パラメータを抽出するパラメータ抽出ステップと,予め録音された音声である収録音声が格納されている収録音声記憶部から,特徴パラメータに応じて収録音声を選択する選択ステップと,選択ステップにより選択された収録音声を合成してテキストを読み上げる合成音声を作成する音声合成ステップと,を含む音声合成方法が提供される。
【0015】
上記課題を解決するために,本発明の別の観点によれば,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置において,予め録音された音声である収録音声が格納されている収録音声記憶部と,収録音声記憶部に格納されている収録音声に基づいて予め生成された,収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と,合成音声を作成する対象のテキストを入力するテキスト入力部と,テキストに含まれる各音素に付与されたラベルを時系列に並べたラベル列と,各ラベルに対応する各音素の境界位置を示すラベル情報と,を入力する属性情報入力部と,音素の韻律的および/または音響的に異なる複数の状態に従って,各状態の境界位置を設定するラベル情報調整部と,テキストを解析し,言語韻律情報を取得するテキスト解析部と,ラベル列と,ラベル情報調整部により調整されたラベル情報と,言語韻律情報と,音韻モデル記憶部に格納されている音響モデルおよび韻律モデルとに基づいて,テキストが読み上げられる際の自然音声の特徴を推定し,該特徴を示す特徴パラメータを導出する特徴推定部と,収録音声記憶部から,特徴パラメータに応じて収録音声を選択し,選択した収録音声を合成してテキストを読み上げる合成音声を作成する音声合成部と,を備える音声合成装置が提供される。
【0016】
音素の韻律的および/または音響的に異なる複数の状態は,例えば,HMM(ヒドゥンマルコフモデル)に従って決定される状態であってもよい。上記発明によれば,ユーザは,各音素について,各状態の境界位置を設定することができる。そのため,各音素の韻律を細かく調整することができ,作成される合成音声のイントネーション等の微妙な調整が可能となる。
【0017】
上記ラベル情報は,各ラベルに対応する各音素の継続時間を示す情報であってもよく,その場合,上記ラベル情報調整部は,複数の状態に応じて,継続時間を各状態に振り分けるようにしてもよい。
【0018】
上記課題を解決するために,本発明の別の観点によれば,コンピュータに上記の音声合成装置として機能させるコンピュータプログラムが提供される。
【0019】
上記課題を解決するために,本発明の別の観点によれば,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成方法において,予め録音された音声である収録音声が格納されている収録音声記憶部と,収録音声記憶部に格納されている収録音声に基づいて予め生成された,収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と,を用いて実現され,合成音声を作成する対象のテキストを入力するテキスト入力ステップと,テキストに含まれる各音素に付与されたラベルを時系列に並べたラベル列と,各ラベルに対応する各音素の境界位置を示すラベル情報と,を入力する属性情報入力ステップと,音素の韻律的および/または音響的に異なる複数の状態に従って,各状態の境界位置を設定するラベル情報調整ステップと,テキストを解析し,言語韻律情報を取得するテキスト解析ステップと,ラベル列と,ラベル情報調整部により調整されたラベル情報と,言語韻律情報と,音韻モデル記憶部に格納されている音響モデルおよび韻律モデルとに基づいて,テキストが読み上げられる際の自然音声の特徴を推定し,該特徴を示す特徴パラメータを導出する特徴推定ステップと,収録音声記憶部から,特徴パラメータに応じて収録音声を選択し,選択した収録音声を合成してテキストを読み上げる合成音声を作成する音声合成ステップと,を含む音声合成方法が提供される。
【発明の効果】
【0020】
以上説明したように本発明によれば,一般のユーザでも簡単に所望のイントネーション,アクセントをもつ合成音声を生成させることの可能な音声合成装置,音声合成方法,およびコンピュータプログラムを提供できるものである。
【発明を実施するための最良の形態】
【0021】
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
【0022】
(第1実施形態)
第1実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置102とクライアント装置104を含む音声合成システム100に適用して説明する。音声合成システム100では,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。従って,ユーザは,合成音声を生成させる対象のテキストを,所望のイントネーションやアクセントで読み上げて,読み上げた際の自然音声を音声合成システム100に入力することにより,所望のイントネーション,アクセントにより対象のテキストを合成音声で読み上げさせることができる。
【0023】
具体的には,例えば,音声合成システム100にテキスト「こんにちは」の京都弁風の合成音声を生成させたい場合には,ユーザは自ら京都弁風に「こんにちは」を読み上げて,その自然音声を音声合成システム100に入力する。または,他人により京都弁で「こんにちは」と読み上げられた自然音声を収録するなどして,その収録された自然音声を音声合成システム100に入力してもよい。このように,音声合成システム100では,ユーザは,所望のイントネーション,アクセントを持つ合成音声を生成させるために,そのイントネーション,アクセントで実際に読み上げられた自然音声を入力すればよいため,感覚的に所望のイントネーション等を指定することができ,一般のユーザでも簡単に指定を行うことができる。
【0024】
なお,本実施形態において,サーバ装置102とクライアント装置104に備えられる各構成要素のすべてが,ひとつのコンピュータに備えられており,そのコンピュータをして音声合成装置としてもよい。
【0025】
まず,図1に基づいて,音声合成システム100の全体構成について説明する。図1に示すように,音声合成システム100は,サーバ装置102と,クライアント装置104と,ネットワーク106とを備える。
【0026】
サーバ装置102は,クライアント装置104からの要求を受けて,合成音声を生成する機能を有する。詳細には,サーバ装置102は,クライアント装置104から,合成音声を生成する対象のテキストを読み上げた際の自然音声(以下,合成音声を生成する対象のテキストを読み上げた際の自然音声を,読み上げ音声とも称する。)と,その自然音声の属性情報とをネットワーク106を介して受信する。サーバ装置102は,受信した自然音声の特徴を示す特徴パラメータを導出し,導出した特徴パラメータと属性情報とに基づいて合成音声を生成する。
【0027】
属性情報には,テキストのラベル列と,ラベル情報が含まれる。ラベル列は,読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたものである。ラベル情報は,各ラベルに対応する各音素の境界位置を示す情報であり,各音素の開始時間,終了時間,継続時間などである。本実施形態では,各音素の継続時間とする。
【0028】
特徴パラメータには,読み上げ音声の音響的特徴を示す音響パラメータ,および読み上げ音声の韻律的特徴を示す韻律パラメータが含まれる。音響的特徴としては,スペクトル,ケプストラム,デルタケプストラム,デルタデルタケプストラム,パワー,デルタパワー,デルタデルタパワー,それらの組み合わせを挙げることができる。本実施形態では,音響的特徴を主にスペクトルとし,音響パラメータ=スペクトルを示す値とする。韻律的特徴としては,基本周波数(声の高さ),母音中心のパワー(声の大きさ),音素の継続時間などを挙げることができる。本実施形態では,韻律的特徴を主に基本周波数(以後,ピッチとも称する。)と音素の継続時間とする。そして,韻律パラメータ=ピッチを示す値とし,音素の継続時間=ラベル情報とする。
【0029】
以上,音声合成装置100の全体構成について説明した。次に,図1に基づいて,音声合成装置100に含まれるサーバ装置102およびクライアント装置104の機能構成について説明する。
【0030】
クライアント装置104は,読み上げ音声と,読み上げ音声の属性情報を入力される機能と,入力された読み上げ音声および属性情報をネットワーク106を介してサーバ装置102に送信する機能と,サーバ装置102から合成音声を受信して出力する機能とを主に備えるコンピュータである。クライアント装置104としては,パーソナルコンピュータ,携帯電話やPDA(Personal Digital Assistant)等の携帯端末,テレビ,ゲーム機器などを例示することができる。
【0031】
クライアント装置104は,図1に示すように,音声入力部110,属性情報入力部112,および合成音受信部114などを主に備える。音声入力部110は,合成音声を生成する対象となるテキストを読み上げた際の自然音声を入力する機能を有する。音声入力部110は,例えば,ユーザが自らテキストを読み上げて,その読み上げ音声を入力することができるように,マイクを含んでいてもよい。または,音声入力部110は,コンパクトディスクやフレキシブルディスク,USBメモリなどの記録媒体に予め記録された読み上げ音声を入力できるように,各記録媒体から読み上げ音声を読み取ることができてもよい。音声入力部110は,入力した読み上げ音声をネットワーク106を介してサーバ装置102に送信する。
【0032】
属性情報入力部112は,ラベル列およびラベル情報を入力する機能を有する。詳細には,属性情報入力部112は,ユーザにより予め生成されたラベル列と,ラベル情報を入力する。ユーザは,音声入力部110に入力した読み上げ音声に基づいて,ラベル列とラベル情報を生成し,属性情報入力部112に入力する。ここで,ラベル列およびラベル情報について,図2を参照して説明する。
【0033】
図2では,音声入力部110に入力された音声が,テキスト「むかし」を読み上げた音声であった場合の,ラベル列とラベル情報を示す。ラベル列1120は,テキスト「むかし」を各音素に分け,各音素を示すラベルを時系列に並べたものである。ラベル情報1122は,各音素の継続時間を示す。図2において,ラベル情報の各数値の単位はミリ秒である。図2によれば,音声入力部110に入力された音声は,テキスト「むかし」を読み上げた音声であり,「むかし」を構成する音素のうち,「M」の音が200ミリ秒継続し,「U」の音が150ミリ秒継続し,同様に「K」が25ミリ秒,「A」が300ミリ秒,「SH」が110ミリ秒,「I」が130ミリ秒継続していることが分かる。
【0034】
図1に戻り,クライアント装置104の機能構成についての説明を続ける。属性情報入力部112は,入力されたラベル列とラベル情報を,ネットワーク106を介してサーバ装置102に送信する。
【0035】
合成音受信部114は,サーバ装置102から,サーバ装置102によって生成された合成音声をネットワーク106を介して受信する。また,合成音受信部114は,受信した合成音声をクライアント装置104が備えるスピーカを通じて出力するようにしてもよい。以上,クライアント装置104の機能構成について説明した。
【0036】
次に,サーバ装置102の機能構成について説明する。サーバ装置102は,クライアント装置104から,読み上げ音声,ラベル列,およびラベル情報をネットワーク106を介して受信し,受信した読み上げ音声,ラベル列およびラベル情報に基づいて読み上げ音声の特徴パラメータを導出し,導出したパラメータに従って音声を合成し,生成した合成音声をネットワーク106を介してクライアント装置104に送信するコンピュータである。
【0037】
図1に示すように,サーバ装置102は,パラメータ抽出部116,音声合成部122,収録音声記憶部124,合成音送信部126などを主に備える。パラメータ抽出部116は,クライアント装置104から受信した読み上げ音声,ラベル列およびラベル情報を入力されて,読み上げ音声の特徴パラメータを導出する機能を有する。詳細には,パラメータ抽出部116は,ピッチ抽出部118およびスペクトル抽出部120を備える。ピッチ抽出部118は,読み上げ音声の韻律的特徴のひとつであるピッチを抽出する。スペクトル抽出部120は,読み上げ音声の音響的特徴のひとつであるスペクトルを抽出する。音声のピッチ抽出およびスペクトル抽出は,公知の方法を用いて行うことができる。パラメータ抽出部116は,ピッチ抽出部118により抽出されたピッチと,スペクトル抽出部120により抽出されたスペクトルと,パラメータ抽出部116に入力されたラベル列およびラベル情報とを,音声合成部122に出力する。
【0038】
音声合成部122は,読み上げ音声のピッチ,スペクトル,ラベル列,およびラベル情報をパラメータ抽出部116から入力されて,入力された各情報に基づいて合成音声を生成する機能を有する。詳細には,音声合成部122は,ラベル列により示される各音素に基づいて,該当する音声を収録音声記憶部124から取得し,取得した音声をラベル列により示された時系列に従って並べてつなぎ合わせることにより,合成音声を生成する。そして,音声合成部122は,各音声を収録音声記憶部124から取得する際に,入力されたピッチ,スペクトル,およびラベル情報を基に,最も近いピッチ,スペクトル,および継続時間を持つ音声を選択し,取得する。それにより,音声合成部122により生成される合成音声は,読み上げ音声のピッチ,スペクトルに類似したピッチ,スペクトルを持ち,かつ,合成音声を構成する各音素の継続時間もまた,読み上げ音声を構成する各音素の継続時間と類似した継続時間を持つ。ピッチは声の高さを示し,ピッチの変化は声の抑揚を示すので,ピッチと各音素の継続時間が類似していれば,イントネーションおよびアクセントが類似すると言える。このように,音声合成部122は,入力されたピッチ,スペクトル,ラベル列,およびラベル情報を用いて,読み上げ音声と類似したイントネーションおよびアクセントを持つ合成音声を生成する。音声合成部122は,生成した合成音声を合成音送信部126に出力する。
【0039】
合成音送信部126は,音声合成部122から入力された合成音声を,ネットワーク106を介してクライアント装置104に送信する。
【0040】
収録音声記憶部124には,予め録音された音声である収録音声が格納されている。収録音声は,多様なテキスト,文章などを人が読み上げた際の自然音声を録音したものであり,音素単位,または,音素を2分割した単位に分割可能な自然音声が記録されている音声コーパスである。以後,収録音声記憶部124に格納されている音声を発した人を,話者とも称する。収録音声記憶部124には,一人の話者の音声が格納されていてもよいし,複数の話者の音声が格納されていてもよい。また,クライアント装置104の音声入力部110に読み上げ音声を入力するユーザと,話者とが同一人物であってもよいし,別人であってもよい。以上,サーバ装置102の機能構成について説明した。
【0041】
次に,図3に基づいて,音声合成システム100による音声合成処理の流れについて説明する。図3に示すように,まず音声合成システム100は自然音声を入力する(S100)。詳細には,ユーザにより所望のテキストを読み上げられた自然音声を入力する。続いて,音声合成システム100は,S100で入力された自然音声のラベル列,およびラベル情報を入力する(S102)。入力後,音声合成システム100は,入力された自然音声のピッチ,スペクトルを抽出する(S104)。そして,音声合成システム100は,抽出されたピッチ,スペクトル,およびS102で入力されたラベル列,ラベル情報に基づいて,収録音声を選択する(S106)。音声合成システム100は,S106で選択した音声をつなぎ合わせて合成し(S108),生成した合成音声を出力する(S110)。
【0042】
以上,第1実施形態にかかる音声合成システム100について説明した。第1実施形態において,クライアント装置104とサーバ装置102が上記のように構成されることによって,ユーザがクライアント装置104に所望のテキストを所望のイントネーション,アクセントで読み上げた音声を入力することにより,サーバ装置102がその読み上げ音声と類似したイントネーション,アクセントを持つ合成音声を生成し,クライアント装置104がその合成音声を出力する。つまり,ユーザは,合成音声に望むイントネーション,アクセントを,自らが実施することにより指定できる。感覚的な指定が可能であるため,ユーザは簡単に所望のイントネーション,アクセントを指定することができる。
【0043】
(第2実施形態)
第2実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置202とクライアント装置204を含む音声合成システム200に適用して説明する。音声合成システム200でも,第1実施形態にかかる音声合成システム100と同様に,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。第1実施形態では,入力された読み上げ音声から,ピッチとスペクトルの双方を抽出したが,本実施形態では,ピッチのみを抽出し,スペクトルは,抽出されたピッチと,入力されたラベル列およびラベル情報と,後述の言語韻律情報と,音韻モデルとによって推測する点で,第1実施形態と異なる。以後,第1実施形態と異なる点を中心に説明する。
【0044】
まず,図4に基づいて,音声合成システム200の全体構成について説明する。図4に示すように,音声合成システム200は,サーバ装置202と,クライアント装置204と,ネットワーク106とを備える。
【0045】
サーバ装置202は,クライアント装置204からの要求を受けて,合成音声を生成する機能を有する。詳細には,サーバ装置202は,クライアント装置204から,読み上げ音声と,その自然音声の属性情報と,読み上げられたテキストとをネットワーク106を介して受信する。サーバ装置202は,受信したテキストを品詞単位に解析して,テキストの品詞毎に,該当する品詞とアクセントとを付与した言語韻律情報を生成する。また,サーバ装置202は,受信した自然音声の韻律的特徴を示す特徴パラメータであるピッチを抽出する。そして,サーバ装置202は,生成した言語韻律情報,抽出したピッチ,クライアント装置204から受信したラベル列およびラベル情報を基に,音韻モデルを参照し,該当するスペクトルを導出する。その後,サーバ装置202は,読み上げ音声から抽出したピッチ,上述のように導出したスペクトル,およびクライアント装置204から受信したラベル列およびラベル情報に基づいて合成音声を生成する。
【0046】
なお,本実施形態において,サーバ装置202とクライアント装置204に備えられる各構成要素のすべてが,ひとつのコンピュータに備えられており,そのコンピュータをして音声合成装置としてもよい。
【0047】
以上,音声合成システム200の全体構成について説明した。次に,図4に基づいて,クライアント装置204およびサーバ装置202の機能構成について説明する。なお,第1実施形態と同一の機能を有するものについては,同一の符号を付しており,詳細な説明を省略する。
【0048】
クライアント装置204は,読み上げ音声と,読み上げ音声の属性情報と,読み上げられたテキストとを入力される機能と,入力された読み上げ音声,属性情報,およびテキストをネットワーク106を介してサーバ装置202に送信する機能と,サーバ装置202から合成音声を受信して出力する機能とを主に備えるコンピュータである。
【0049】
図4に示すように,クライアント装置204は,テキスト入力部230,音声入力部110,属性情報入力部112,および合成音受信部114などを主に備える。
【0050】
テキスト入力部230は,音声入力部110に入力された読み上げ音声により読み上げられているテキストを入力する。詳細には,テキスト入力部230は,例えばキーボード等の入力装置を含んで構成され,ユーザによりテキストを入力され,入力されたテキストをネットワーク106を介してサーバ装置202に送信する。
【0051】
サーバ装置202は,クライアント装置204から,読み上げ音声,テキスト,ラベル列,およびラベル情報をネットワーク106を介して受信し,受信した読み上げ音声,ラベル列およびラベル情報に基づいて読み上げ音声の韻律的特徴を示す特徴パラメータを導出する。そしてサーバ装置202は,導出したパラメータ,テキストの解析結果,および音韻モデルから,合成音声に持たせるべき音響的特徴を示すパラメータを導出し,各パラメータに従って音声を合成し,生成した合成音声をネットワーク106を介してクライアント装置204に送信するコンピュータである。
【0052】
図4に示すように,サーバ装置202は,テキスト解析部232,パラメータ抽出部216,音韻モデル記憶部234,韻律予測部236,音声合成部122,収録音声記憶部124,および合成音送信部126などを主に備える。パラメータ抽出部216は,クライアント装置204から受信した読み上げ音声,ラベル列およびラベル情報を入力されて,読み上げ音声の特徴パラメータを導出する機能を有する。詳細には,パラメータ抽出部216は,ピッチ抽出部118を備え,読み上げ音声のピッチを抽出する。
【0053】
テキスト解析部232は,クライアント装置204から受信したテキストを対象に形態素解析,係り受け解析等を行い,品詞単位に解析して,テキストの品詞毎に,該当する品詞とアクセントとを付与した言語韻律情報を生成する機能を有する。テキストの解析は,公知の方法により実施することができる。
【0054】
韻律予測部236は,ピッチと,ラベル列およびラベル情報(図2中では,まとめて属性情報と示す)と,言語韻律情報とを基に,音韻モデル記憶部234に記憶される音韻モデルを参照し,合成音声に持たせるべきスペクトルを導出する機能を有する。音韻モデル記憶部234には,収録音声記憶部124に格納されている収録音声に基づいて予め生成された,収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている。ここで,収録音声記憶部124について,図5を参照して説明する。
【0055】
図5に示すように,音韻モデル記憶部234には,ラベル毎に音響モデルと韻律モデルとが対になって格納される。詳細には,ラベルa2340についての話者の音響的な特徴をモデル化した音響モデルが,音響モデルa2342であり,ラベルa2340についての話者の韻律的な特徴をモデル化した韻律モデルが,韻律モデルa2344であり,音響モデルa2342と韻律モデルa2344は関連付けられている。同様に,ラベルi2346についての話者の音響的な特徴をモデル化した音響モデルが,音響モデルi2348であり,ラベルi2346についての話者の韻律的な特徴をモデル化した韻律モデルが,韻律モデルi2350であり,音響モデルi2348と韻律モデルi2350は関連付けられている。このように,音韻モデル記憶部234には,各ラベルについて,音響モデルと韻律モデルの対が格納されている。なお,音響モデルおよび韻律モデルは,HMMモデル(ヒドゥンマルコフモデル)であってもよい。
【0056】
また,音響モデルと韻律モデルの対が,図5に示すようにグループ分けされていてもよい。グループ分けは,例えば,収録音声記憶部124に複数の話者の音声が格納されている場合には,話者ごとのグループであってもよいし,口調ごとのグループであってもよい。口調ごとのグループとは,例えば,会話口調で発せられた音声と,ニュースを読み上げるように読み上げ口調で発せられた音声とを,異なるグループとしてそれぞれモデル化されてもよい。また,標準語で発せられた音声と関西弁で発せられた音声とを,異なるグループとしてそれぞれモデル化されてもよい。具体的には,例えば,図5のグループ1(符号2341)は,収録音声記憶部124に格納されている音声のうち,会話口調で発せられた音声によりモデル化された音響モデルおよび韻律モデルであり,グループ2は,読み上げ口調で発せられた音声によりモデル化された音響モデルおよび韻律モデルであるようにしてもよい。
【0057】
図4に戻り,サーバ装置202の機能構成についての説明を続ける。韻律予測部236は,テキスト解析部232により生成された言語韻律情報,ピッチ抽出部により抽出されたピッチ,クライアント装置204から受信したラベル列およびラベル情報とに基づいて,音韻モデル記憶部234を参照し,適切なスペクトルを導出する。詳細には,韻律予測部236は,ラベル列に含まれる各ラベルに関連付けられている音響モデルを音韻モデル記憶部234から取得し,取得した音響モデルを並べ,フレームシフト長とラベル情報にあわせてスペクトルを求める。そして,韻律予測部236は,求めたスペクトルを音声合成部122に出力する。
【0058】
音声合成部122は,ピッチ抽出部118により抽出されたピッチと,クライアント装置104から受信したラベル列およびラベル情報と,韻律予測部236により求められたスペクトルとに基づいて,合成音声を生成する。以上,サーバ装置202の機能構成について説明した。
【0059】
次に,図6に基づいて,音声合成システム200による音声合成処理の流れについて説明する。まず,音声合成システム200は,合成音声を生成する対象のテキストを入力する(S200)。また,音声合成システム200は,テキストを読み上げた自然音声を入力する(S204)。さらに,音声合成システム200は,S202で入力された自然音声のラベル列およびラベル情報を入力する(S204)。なお,S200とS202の順序は逆でも構わない。
【0060】
続いて,音声合成システム200は,S200で入力されたテキストを解析して言語韻律情報を生成する(S206)。また,音声合成システム200は,S202で入力された読み上げ音声からピッチを抽出し(S208),スペクトルを導出する(S210)。そして,音声合成システム200は,S208で抽出されたピッチ,S210で導出されたスペクトル,およびS204で入力されたラベル列並びにラベル情報に基づいて,収録音声を選択する(S212)。その後,音声合成システム200は,選択した音声を合成して合成音声を生成し(S214),生成した合成音声を出力する(S216)。
【0061】
次に,図6のS210におけるスペクトル導出処理の詳細を,図7を参照して説明する。図7は,音声合成システム200においてスペクトル導出処理を行う韻律予測部236による処理の流れを示している。図7に示すように,韻律予測部236は,属性情報(ラベル列およびラベル情報)を入力し(S300),言語韻律情報を入力する(S302)。そして,ラベル列の最後尾に至るまで(S304),ラベル毎に対応する音響モデルを音韻モデル記憶部234から取得する(S306)。ラベル列に含まれる全てのラベルについてS306の処理を行った後,韻律予測部236は,取得した音響モデルを並べる(S308)。そして,フレームシフト長およびラベル情報にあわせて,スペクトルを求める(S310)。フレームシフト長とは,スペクトルを求める間隔であり,ここではピッチ抽出部118により読み上げ音声からピッチが抽出される間隔と同一の間隔とする。具体的には例えば,読み上げ音声の開始時点から5ミリ秒ごとにピッチが抽出された場合には,フレームシフト長を5ミリ秒とし,スペクトルが求められる。
【0062】
以上,第2実施形態にかかる音声合成システム200について説明した。第2実施形態において,クライアント装置204とサーバ装置202が上記のように構成されることによって,ユーザがクライアント装置204に所望のテキストを所望のイントネーション,アクセントで読み上げた音声を入力することにより,サーバ装置202がその読み上げ音声と類似したイントネーション,アクセントを持つ合成音声を生成し,クライアント装置204がその合成音声を出力する。つまり,ユーザは,合成音声に望むイントネーション,アクセントを,自らが実施することにより指定できる。感覚的な指定が可能であるため,ユーザは簡単に所望のイントネーション,アクセントを指定することができる。さらに,第2実施形態では,サーバ装置202が,入力された読み上げ音声から抽出したピッチ,入力されたラベル情報等と,収録音声記憶部124に格納される音声データからモデル化された音韻モデルとに基づいて最適なスペクトルを導出している。そのため,読み上げ音声の発話元であるユーザと,収録音声に収録されている音声の発話元である話者とが異なる場合でも,音質劣化を軽減でき,さらに,微妙な韻律変更を行うことができる。
【0063】
(第3実施形態)
第3実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置302とクライアント装置304を含む音声合成システム300に適用して説明する。音声合成システム300でも,第1実施形態にかかる音声合成システム100と同様に,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。第1実施形態では,入力された読み上げ音声から,ピッチとスペクトルの双方を抽出したが,本実施形態では,ピッチのみを抽出し,スペクトルは,抽出されたピッチと,ラベル列およびラベル情報と,言語韻律情報と,音韻モデルとによって推測する点で,第1実施形態と異なる。また,スペクトルを上記のように推測する点で第2実施形態と同様であるが,第2実施形態ではラベル列およびラベル情報がクライアント装置204から入力されたのに対し,本実施形態ではサーバ装置202でラベル列およびラベル情報を生成する点で異なる。以後,第1実施形態および第2実施形態と異なる点を中心に説明する。
【0064】
まず,図8に基づいて,音声合成システム300の全体構成について説明する。図8に示すように,音声合成システム300は,サーバ装置302と,クライアント装置304と,ネットワーク106とを備える。
【0065】
サーバ装置302は,クライアント装置304からの要求を受けて,合成音声を生成する機能を有する。詳細には,サーバ装置302は,クライアント装置304から,読み上げ音声と,読み上げられたテキストとをネットワーク106を介して受信する。サーバ装置302は,受信したテキストを品詞単位に解析し,言語韻律情報およびラベル列を生成する。また,サーバ装置302は,受信した自然音声の韻律的特徴を示す特徴パラメータであるピッチを抽出する。さらに,サーバ装置302は,テキスト解析により得たラベル列と,入力された読み上げ音声と,後述のラベル別音響モデル記憶部342に格納されるラベル別音響モデルとに基づいて,読み上げ音声のラベル情報を生成する。そして,サーバ装置302は,生成した言語韻律情報,生成したラベル列およびラベル情報,抽出したピッチを基に,音韻モデルを参照し,該当するスペクトルを導出する。その後,サーバ装置302は,読み上げ音声から抽出したピッチ,上述のように導出したスペクトル,およびクライアント装置304から受信したラベル列およびラベル情報に基づいて合成音声を生成する。
【0066】
なお,本実施形態において,サーバ装置302とクライアント装置304に備えられる各構成要素のすべてが,ひとつのコンピュータに備えられており,そのコンピュータをして音声合成装置としてもよい。
【0067】
以上,音声合成システム300の全体構成について説明した。次に,図8に基づいて,クライアント装置304およびサーバ装置302の機能構成について説明する。なお,第1実施形態または第2実施形態と同一の機能を有するものについては,同一の符号を付しており,詳細な説明を省略する。
【0068】
クライアント装置304は,読み上げ音声と,読み上げられたテキストとを入力される機能と,入力された読み上げ音声およびテキストをネットワーク106を介してサーバ装置302に送信する機能と,サーバ装置302から合成音声を受信して出力する機能とを主に備えるコンピュータである。
【0069】
図8に示すように,クライアント装置304は,テキスト入力部230,音声入力部110,および合成音受信部114などを主に備える。クライアント装置304には,第1実施形態にかかるクライアント装置104,および第2実施形態にかかるクライアント装置204に備えられていた属性情報入力部112が備えられていない。従って,ユーザは,テキストと,テキストを読み上げた自然音声とをクライアント装置304に入力すればよい。
【0070】
サーバ装置302は,クライアント装置304から,読み上げ音声とテキストをネットワーク106を介して受信し,テキストを解析してラベル列を生成し,ラベル列と読み上げ音声とを用いて読み上げ音声のラベル情報を生成する。また,サーバ装置302は,受信した読み上げ音声,生成したラベル列およびラベル情報に基づいて読み上げ音声の韻律的特徴を示す特徴パラメータを導出する。そしてサーバ装置302は,導出したパラメータ,テキストの解析結果,および音韻モデルから,合成音声に持たせるべき音響的特徴を示すパラメータを導出し,各パラメータに従って音声を合成し,生成した合成音声をネットワーク106を介してクライアント装置304に送信する。
【0071】
図8に示すように,サーバ装置302は,テキスト解析部332,パラメータ抽出部316,音韻モデル記憶部234,韻律予測部236,音声合成部122,収録音声記憶部124,および合成音送信部126などを主に備える。テキスト解析部332は,クライアント装置304から受信したテキストを解析して,言語韻律情報とラベル列とを生成する機能を有する。テキスト解析部332は,生成したラベル列をパラメータ抽出部316に出力する。
【0072】
パラメータ抽出部316は,読み上げ音声のピッチを抽出するピッチ抽出部118と,読み上げ音声のラベル情報を導出するラベル情報導出部340とを含む。ラベル情報導出部340は,クライアント装置204から受信した読み上げ音声と,テキスト解析部332から入力されたラベル列とに基づいて,読み上げ音声のラベル情報を導出する機能を有する。詳細には,ラベル情報導出部340は,読み上げ音声のスペクトルを抽出し,抽出されたスペクトルを基に,ラベル別音響モデル記憶部342中の,読み上げ音声を構成する各音素に対応する音響モデルから,ラベル情報を算出する。ここで,ラベル別音響モデル記憶部342について図9を参照して説明する。
【0073】
図9に示すように,ラベル別音響モデル記憶部342には,ラベル毎に不特定話者の音響モデルが格納されている。不特定話者の音響モデルは,不特定の単数または複数の話者の音声に基づいて,各ラベルに対応する音素の音響的な特徴を統計的にモデル化したものである。図9によれば,ラベルa3420に対応する音響モデルは,不特定話者の音響モデルa3422であり,ラベルi3424に対応する音響モデルは,不特定話者の音響モデルi3426である。
【0074】
図8に戻り,サーバ装置302の機能構成についての説明を続ける。ラベル情報導出部340は,読み上げ音声から抽出したスペクトル(音響的特徴)の時系列であるスペクトル列と,ラベル列とを用意し,ラベル別音響モデル記憶部342に格納された音響モデルに従って,ラベルとスペクトル列の音響的類似性に基づいて両者の時間的対応を決定することで,読み上げ音声のラベル情報を算出する。
【0075】
韻律予測部236は,テキスト解析部332により生成された言語韻律情報と,ピッチ抽出部118により抽出されたピッチと,ラベル情報導出部340により算出されたラベル情報と,音韻モデル記憶部234とに基づいて,最適なスペクトルを求める。その他は第2実施形態と同様であるため,説明を省略する。以上,サーバ装置302の機能構成について説明した。
【0076】
次に,図10に基づいて,音声合成システム300による音声合成処理の流れについて説明する。まず,音声合成システム300は,合成音声を生成する対象のテキストを入力する(S400)。また,音声合成システム300は,テキストを読み上げた自然音声を入力する(S402)。
【0077】
続いて,音声合成システム300は,S400で入力されたテキストを解析して言語韻律情報とラベル列を生成する(S404)。また,音声合成システム300は,S402で入力された読み上げ音声からピッチを抽出する(S406)。音声合成システム300は,S402で入力された自然音声と,S404で生成されたラベル列とに基づいて,読み上げ音声のラベル情報を導出する(S408)。そして,音声合成システム300は,スペクトルを導出し(S410),S406で抽出されたピッチ,S410で導出されたスペクトル,S404で生成されたラベル列,およびS408で導出されたラベル情報に基づいて,収録音声を選択する(S412)。その後,音声合成システム300は,選択した音声を合成して合成音声を生成し(S414),生成した合成音声を出力する(S416)。
【0078】
以上,第3実施形態にかかる音声合成システム300について説明した。第3実施形態において,クライアント装置304とサーバ装置302が上記のように構成されることによって,ユーザがクライアント装置304に所望のテキストを所望のイントネーション,アクセントで読み上げた音声を入力することにより,サーバ装置302がその読み上げ音声と類似したイントネーション,アクセントを持つ合成音声を生成し,クライアント装置304がその合成音声を出力する。つまり,ユーザは,合成音声に望むイントネーション,アクセントを,自らが実施することにより指定できる。感覚的な指定が可能であるため,ユーザは簡単に所望のイントネーション,アクセントを指定することができる。また,第3実施形態では,第2実施形態と同様に,サーバ装置302が,入力された読み上げ音声から抽出したピッチ,ラベル情報等と,収録音声記憶部124に格納される音声データからモデル化された音韻モデルとに基づいて最適なスペクトルを導出している。そのため,読み上げ音声の発話元であるユーザと,収録音声に収録されている音声の発話元である話者とが異なる場合でも,音質劣化を軽減でき,さらに,微妙な韻律変更を行うことができる。さらに,第3実施形態では,サーバ装置302がラベル列およびラベル情報を生成するため,ユーザはラベル列およびラベル情報をクライアント装置304に入力しなくてもよく,ユーザはより簡単に所望のイントネーション,アクセントを指定することができる。
【0079】
(第4実施形態)
第4実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置402とクライアント装置404を含む音声合成システム400に適用して説明する。音声合成システム400は,第1〜第3実施形態と異なり,読み上げ音声は入力されない。音声合成システム400では,ラベル情報を詳細に設定することにより,ユーザの所望のイントネーションに近い合成音声を生成する。
【0080】
まず,図11に基づいて,音声合成システム400の全体構成について説明する。図11に示すように,音声合成システム400は,サーバ装置402と,クライアント装置404と,ネットワーク106とを備える。
【0081】
サーバ装置402は,クライアント装置404からの要求を受けて,合成音声を生成する機能を有する。詳細には,サーバ装置402は,クライアント装置404から,合成音声を生成する対象のテキストと,ラベル列およびラベル情報と,ラベルフレームの情報とをネットワーク106を介して受信する。ラベルフレームの情報とは,ラベル情報を詳細に設定するための情報である。ラベル情報は,ラベルに対応する音素の継続時間であるが,ひとつの音素には複数の状態が含まれる。この複数の状態は,HMMモデルに従って区別することの可能な状態であってもよい。各音素について,各状態の継続時間を変化させることで,イントネーションの微妙な調整が可能となる。ユーザは,クライアント装置404から各音素の各状態のフレーム数を指定することにより,各状態の継続時間を変化させることができる。ラベル毎のフレーム数は,各ラベルに対応する音素の継続時間を,ピッチやスペクトルの値が指定される間隔(フレームシフト長)で割った値となる。図12を参照して具体的に説明する。
【0082】
図12によれば,ラベル「u」の継続時間は150ミリ秒(符号502)である。フレームシフト長を5ミリ秒とすると,ラベル「u」には150÷5で30フレームが割り当てられていることとなる。ラベル「u」に対応する音素には,HMMモデルに従った状態が,状態1〜4の4つある。図12によれば,状態1には8フレームが割り当てられており(符号504),つまり状態1は40ミリ秒継続することとなる。同様に,状態2には14フレーム(符号506),状態3には6フレーム(符号508),状態4には2フレーム(符号510)が各々割り当てられている。ユーザは,クライアント装置404から,所望の状態に所望のフレーム数を指定することにより,各状態のフレーム数を変更し,合成音声のイントネーションを調整することができる。
【0083】
サーバ装置402は,クライアント装置404からテキストと,ラベル列およびラベル情報(属性情報)を受信し,受信したテキストを読み上げる合成音声を生成する。その際に,クライアント装置404から上述のフレーム数を指定されて,指定に基づいてラベル情報を変更し,変更されたラベル情報に基づいて合成音声を生成する。以上,音声合成システム400の全体構成について説明した。次に,図11に基づいて,クライアント装置404およびサーバ装置402の機能構成について説明する。
【0084】
図11に示すように,クライアント装置404は,テキスト入力部230,属性情報入力部112,ラベルフレーム入力部440,および合成音受信部114などから主に構成される。ラベルフレーム入力部440は,属性情報入力部112に入力されるラベル情報に関連し,所望のラベルの所望の状態と,その状態に割り当てるフレーム数とをユーザに入力される。ラベルフレーム入力部440は,入力されたフレーム数の情報を,サーバ装置402に送信する。クライアント装置404は,第1〜第3実施形態にかかるクライアント装置と異なり,読み上げ音声を入力されなくてもよい。
【0085】
サーバ装置402は,テキスト解析部332,ラベルフレーム変更部442,韻律予測部444,音韻モデル記憶部234,音声合成部122,収録音声記憶部124,および合成音送信部126などを主に備える。ラベルフレーム変更部442は,クライアント装置404からラベル列,ラベル情報,およびラベルフレームの情報を受信し,ラベル情報をラベルフレームの情報に基づいて変更する。ラベルフレーム入力部440とラベルフレーム変更部442の組み合わせは,ラベルに対応する音素の韻律的/音響的に異なる複数の状態に従って,各状態の境界位置を設定するラベル情報調整部の一例として構成される。
【0086】
韻律予測部444は,テキスト解析部332により生成された言語韻律情報と,ラベルフレーム変更部442から出力されるラベル列およびラベル情報と,音韻モデル記憶部234とに基づいて,適切なピッチとスペクトルを導出する。その他は,第1実施形態等と同様であるため,説明を省略する。サーバ装置402は,第1〜第3実施形態にかかるサーバ装置と異なり,クライアント装置404から読み上げ音声が入力されないので,入力されたテキスト,ラベル列およびラベル情報に基づいてピッチ,スペクトルを求める。以上,サーバ装置402の機能構成について説明した。
【0087】
次に,図13に基づいて,音声合成システム400による音声合成処理の流れについて説明する。まず,音声合成システム400は,合成音声を生成する対象のテキストを入力する(S500)。続いて,音声合成システム400は,S500で入力されたテキストのラベル列とラベル情報を入力する(S502)。さらに,音声合成システム400は,ラベル毎に,各状態のフレーム数を入力する(S504)。そして,音声合成システム400は,S504で入力されたフレーム数に基づいて,S502で入力されたラベル情報を変更する(S506)。また,音声合成システム400は,S500で入力されたテキストを解析して,言語韻律情報を導出する(S508)。その後,音声合成システム400は,ラベル列,ラベル情報,言語韻律情報,および音韻モデル記憶部234に格納される音響モデル並びに韻律モデルに基づいて,ピッチとスペクトルを導出する(S510)。そして,音声合成システム400は,導出したピッチとスペクトルに基づいて収録音声を選択し(S512),選択した音声を合成してS500で入力されたテキストを読み上げる合成音声を生成し(S514),出力する(S516)。
【0088】
以上,第4実施形態にかかる音声合成システム400について説明した。音声合成システム400によれば,サーバ装置402で生成される合成音声について,ラベルフレーム数を指定することにより,微妙なイントネーションを調節することができる。
【0089】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【産業上の利用可能性】
【0090】
本発明は,音声合成装置に適用可能であり,特に,所望のテキストを読み上げる合成音声を,予め収録された音声を用いて生成する,音声合成装置に適用可能である。
【図面の簡単な説明】
【0091】
【図1】本発明の第1の実施形態にかかる音声合成システムを示すブロック図である。
【図2】同実施の形態におけるラベル列およびラベル情報を示す説明図である。
【図3】同実施の形態における音声合成処理を示すフローチャートである。
【図4】本発明の第2の実施形態にかかる音声合成システムを示すブロック図である。
【図5】同実施の形態における音韻モデル記憶部を示す説明図である。
【図6】同実施の形態における音声合成処理を示すフローチャートである。
【図7】同実施の形態における音声合成処理の一部を示すフローチャートである。
【図8】本発明の第3の実施形態にかかる音声合成システムを示すブロック図である。
【図9】同実施の形態におけるラベル別音響モデル記憶部を示す説明図である。
【図10】同実施の形態における音声合成処理を示すフローチャートである。
【図11】本発明の第4の実施形態にかかる音声合成システムを示すブロック図である。
【図12】同実施の形態におけるラベルフレームを説明するための説明図である。
【図13】同実施の形態における音声合成処理を示すフローチャートである。
【符号の説明】
【0092】
100,200,300,400 音声合成システム
102,202,302,402 サーバ装置
104,204,304,404 クライアント装置
110 音声入力部
112 属性情報入力部
114 合成音受信部
116,216,316 パラメータ抽出部
118 ピッチ抽出部
120 スペクトル抽出部
122 音声合成部
124 収録音声記憶部
126 合成音送信部
230 テキスト入力部
232,332 テキスト解析部
234 音韻モデル記憶部
236 韻律予測部
340 ラベル情報導出部
342 ラベル別音響モデル記憶部
440 ラベルフレーム入力部
442 ラベルフレーム変更部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013