米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−101632(P2007−101632A)
公開日 平成19年4月19日(2007.4.19)
出願番号 特願2005−288147(P2005−288147)
出願日 平成17年9月30日(2005.9.30)
代理人 【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
発明者 兼安 勉
要約 課題
少量の音声データを用いて予め作成された音韻モデルを効率よく選択する。

解決手段
音韻モデル選択装置に,入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する音声データの特徴量を抽出する特徴量抽出部104と;予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部108と;特徴量抽出部により抽出された特徴量を基に,入力された音声データの各音素に対応する音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する第2ラベル情報算出部106と;第1ラベル情報と第2ラベル情報に応じて,音韻モデル格納部から音響モデルおよび韻律モデルを選択する音韻モデル選択部112と;を備えた。
特許請求の範囲
【請求項1】
テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置であって:
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する特徴量抽出部と;
予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部と;
前記特徴量抽出部により抽出された前記特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する第2ラベル情報算出部と;
前記第1ラベル情報と前記第2ラベル情報に応じて,前記音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択する音韻モデル選択部と;
を備えることを特徴とする,音韻モデル選択装置。
【請求項2】
前記第1ラベル情報と前記第2ラベル情報とを比較するラベル情報比較部を備え,
前記音韻モデル選択部は,
前記ラベル情報比較部の比較結果に応じて,前記音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択することを特徴とする,請求項1に記載の音韻モデル選択装置。
【請求項3】
前記第1ラベル情報および前記第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,
前記ラベル情報比較部は,
前記第1ラベル情報と前記第2ラベル情報の差分値により,前記第1ラベル情報と前記第2ラベル情報とを比較することを特徴とする,請求項1に記載の音韻モデル選択装置。
【請求項4】
前記第1ラベル情報および前記第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,
前記ラベル情報比較部は,
音声を構成する音素ごとに前記第1ラベル情報と前記第2ラベル情報の差分値を算出し,前記算出された差分値が所定の閾値以上である音素以外の音素の前記第1ラベル情報と前記第2ラベル情報との差分値により,前記第1ラベル情報と前記第2ラベル情報とを比較することを特徴とする,請求項1に記載の音韻モデル選択装置。
【請求項5】
前記音韻モデル格納部には,音声を構成する音素ごとに,前記音響モデルと前記韻律モデルとの対が格納されており,
前記第2ラベル情報算出部は,前記入力された音声データを構成する各音素の特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから前記第2ラベル情報を算出することを特徴とする,請求項1に記載の音韻モデル選択装置。
【請求項6】
前記音韻モデル格納部には,
複数の前記音韻モデルがグループ化されて記憶されていることを特徴とする,請求項1に記載の音韻モデル選択装置。
【請求項7】
前記第2ラベル情報算出部は,前記グループ化された音韻モデルごとの第2ラベル情報を算出し,
前記ラベル情報比較部は,前記第1ラベル情報と前記グループ化された音韻モデルの第2ラベル情報とを比較し,
前記音韻モデル選択部は,前記ラベル情報比較部の比較結果に応じて,前記音韻モデル格納部から前記グループ化された音韻モデルを選択することを特徴とする,請求項6に記載の音韻モデル選択装置。
【請求項8】
テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択方法であって:
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する方法と;
前記音声データの特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する方法と;
前記第1ラベル情報と前記第2ラベル情報に応じて,予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択する方法と;
を含むことを特徴とする,音韻モデル選択方法。
【請求項9】
前記第1ラベル情報と前記第2ラベル情報とを比較する方法をさらに含み,
前記ラベル情報の比較結果に応じて,前記音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択することを特徴とする,請求項8に記載の音韻モデル選択方法。
【請求項10】
テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置をして,
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する処理と;
前記音声データの特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する処理と;
前記第1ラベル情報と前記第2ラベル情報に応じて,予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択する処理と;
を実行せしめることを特徴とする,コンピュータプログラム。
【請求項11】
前記第1ラベル情報と前記第2ラベル情報とを比較する処理をさらに実行せしめ,
前記第1ラベル情報と前記第2ラベル情報との比較結果に応じて,前記音韻モデル格納部から前記音響モデルおよび前記韻律モデルを選択させることを特徴とする,請求項10に記載のコンピュータプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は,音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラムに関し,特に少量の音声データから,音声を合成する際に用いられる音韻モデルを選択する音韻モデル選択装置に関する。
【背景技術】
【0002】
予め録音された人の自然音声等を基にして,PC(パーソナルコンピュータ)等に入力されたテキスト文書を音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は,品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて音声を合成する。
【0003】
上記音声合成装置は,まず,入力されたテキストに対して,例えば,形態素解析,係り受け解析を実行し,音素記号,アクセント記号などに変換する。次に,音素記号,アクセント記号列,および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定を行う。推定された韻律パラメータに最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときのゆがみが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。
【0004】
【非特許文献1】「コーパス・ベース音声合成システムXIMERA」電子情報通信学会,信学技報,SP2005-18,P37-42(2005.5)
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記韻律パラメータの推定は,ある話者の声の音響的な特徴をモデル化した音響モデルと,声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとを含む音韻モデルを用いて行われる。音韻モデルは,話者の言い回しや音響的な特徴を含む音声データを用いて,音素ごとに予め統計的に作成される。高品質な合成音声を作成するためには,話者の言い回しや声質を忠実に精度よく再現する音韻モデルを構築する必要がある。このような音韻モデルを構築するためには,数十時間におよぶ大量の音声データが必要となり,大量の音声データを解析してモデル化するために長時間を要する。
【0006】
音韻モデルが作成されていない話者の音声を用いて合成音声を作成する場合には,新たにその話者の大量の音声データを収集,解析して音声モデルを作成しなければならない。複数の話者の音声を用いて合成音声を作成するためには,それぞれの話者の音韻モデルを作成することは,多くの時間と当力を費やすという問題があった。また,すでに音韻モデルが作成された話者に対して,録音されたものとは異なる言い回しの音声を用いて合成音声を作成する場合にも,新たに異なる言い回しの音韻モデルを作成しなければならないという問題があった。
【0007】
そこで,本発明は,このような問題に鑑みてなされたもので,その目的とするところは,少量の音声データを用いて予め作成された音韻モデルを効率よく選択することが可能な,新規かつ改良された音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために,本発明のある観点によれば,テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置であって:入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する音声データの特徴量を抽出する特徴量抽出部と;予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部と;特徴量抽出部により抽出された特徴量を基に,入力された音声データの各音素に対応する音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する第2ラベル情報算出部と;第1ラベル情報と第2ラベル情報に応じて,音韻モデル格納部から音響モデルおよび韻律モデルを選択する音韻モデル選択部と;を備えることを特徴とする,音韻モデル選択装置が提供される。
【0009】
上記音韻モデル選択装置は,第1ラベル情報と第2ラベル情報とを比較するラベル情報比較部を備え,音韻モデル選択部は,ラベル情報比較部の比較結果に応じて,音韻モデル格納部から音響モデルおよび韻律モデルを選択するようにしてもよい。
【0010】
上記第1ラベル情報は,ユーザにより特定された各音素の境界位置の情報であって,各音素の属性情報である。第1ラベル情報は,例えば,各音素の開始時間,終了時間,継続時間などの時間情報である。上記第2ラベル情報は,例えば,予め録音された各音素の開始時間,終了時間,継続時間などの時間情報であり,第1ラベル情報と同一の評価尺度に基づく情報である。
【0011】
上記構成によれば,入力された音声データの特徴量を抽出し,抽出した特徴量を基に入力された音声データの各音素に対応する音響モデルから,各音素の属性情報を示す第2ラベル情報を算出し,入力データに付与された第1ラベル情報と第2ラベル情報に応じて,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から音響モデルおよび韻律モデルを選択することができる。
【0012】
上記発明によれば,上記音韻モデル格納部に格納された音韻モデルのなかから,入力された音声データの音響的な特徴および韻律的な特徴に最も近似した音韻モデルを選択することができる。その結果,音声データの音韻モデルを作成せずとも,音声データの音響的な特徴と韻律的な特徴に最も近似した音韻モデルを音韻モデル格納部から選択して,音韻モデル格納部に格納された音韻モデルに対応する音声以外の音声に対しても,音声を合成する音声合成装置に用いられる音韻モデルを提供することができる。音韻モデルの作成には数十時間におよぶ大量の音声データが必要となるが,上記音韻モデル選択装置によれば,数分程度の少量の音声データにより,音声データの特徴量に近似した音韻モデルを選択して,音声合成を効率よく行うことが可能となる。
【0013】
また,第1ラベル情報および第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,ラベル情報比較部は,第1ラベル情報と第2ラベル情報の差分値により,第1ラベル情報と第2ラベル情報とを比較してもよい。これにより,第1ラベル情報と第2ラベル情報との差分値を算出して,より差分値の小さい,つまり,より音声データの特徴量に近似した音韻モデルを選択することができる。
【0014】
また,第1ラベル情報および第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,ラベル情報比較部は,音声を構成する音素ごとに第1ラベル情報と第2ラベル情報の差分値を算出し,算出された差分値が所定の閾値以上である音素以外の音素の第1ラベル情報と第2ラベル情報との差分値により,第1ラベル情報と第2ラベル情報とを比較してもよい。これにより,第1ラベル情報と第2ラベル情報との差分値が所定の閾値以上である音素の差分値を除いて第1ラベル情報と第2ラベル情報との差分値を算出することができる。その結果,例えば,手動により精度の悪い第1ラベル情報が音声データに付与されている場合でも,精度の悪い第1ラベル情報を無視して第1ラベル情報と第2ラベル情報とを比較することができる。
【0015】
また,上記音韻モデル格納部には,音声を構成する音素ごとに,音響モデルと韻律モデルとの対が格納されており,第2ラベル情報算出部は,入力された音声データを構成する各音素の特徴量を基に,入力された音声データの各音素に対応する音響モデルから第2ラベル情報を算出してもよい。これにより,音素ごとの第2ラベル情報を算出することができ,音声データにより近い音韻モデルを正しく選択することが可能となる。
【0016】
また,上記音韻モデル格納部には,複数の音韻モデルがグループ化されて記憶されていてもよい。上記第2ラベル情報算出部は,グループ化された音韻モデルごとの第2ラベル情報を算出し,ラベル情報比較部は,第1ラベル情報とグループ化された音韻モデルの第2ラベル情報とを比較し,音韻モデル選択部は,ラベル情報比較部の比較結果に応じて,音韻モデル格納部からグループ化された音韻モデルを選択してもよい。
【0017】
これにより,音韻モデル格納部に複数のグループ化された音韻モデルを格納して,入力された音声データに最も近似した音韻モデルを選択することが可能となる。例えば,音韻モデル格納部には,異なる話者の音韻モデルや,1の話者の異なる言い回しの音韻モデルがグループ化されて記憶されている。従来,話者Aの音声を用いて合成音声を作成する場合には,話者Aの音韻モデルが必要であり,話者Bの音声を用いて合成音声を作成する場合には,話者Bの音韻モデルが必要であった。しかし,音韻モデル格納部に話者Aと話者Bの音韻モデルをグループ化して格納することにより,話者Cの音響的な特徴と韻律的な特徴が話者Aの音響的な特徴と韻律的な特徴と近い場合には,話者Aの音韻モデルを話者Cの音韻モデルに代えて利用することが可能となる。
【0018】
上記課題を解決するために,本発明の別の観点によれば,テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択方法であって:入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する音声データの特徴量を抽出する方法と;音声データの特徴量を基に,入力された音声データの各音素に対応する音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する方法と;第1ラベル情報と第2ラベル情報に応じて,予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から音響モデルおよび韻律モデルを選択する方法と;を含むことを特徴とする,音韻モデル選択方法が提供される。
【0019】
また,上記音韻モデル選択方法により,第1ラベル情報と第2ラベル情報とを比較する方法をさらに含み,ラベル情報の比較結果に応じて,音韻モデル格納部から音響モデルおよび韻律モデルが選択されるようにしてもよい。
【0020】
上記課題を解決するために,本発明の別の観点によれば,コンピュータに上記の音韻モデル選択装置として機能させるコンピュータプログラムが提供される。上記コンピュータプログラムは,コンピュータが備える記憶部に格納され,コンピュータが備えるCPUに読み込まれて実行されることにより,そのコンピュータを上記の情報処理装置として機能させる。また,コンピュータプログラムが記録された,コンピュータで読み取り可能な記録媒体も提供される。記録媒体は,例えば,磁気ディスク,光ディスクなどである。
【発明の効果】
【0021】
以上説明したように本発明によれば,少量の音声データを用いて予め作成された音韻モデルを効率よく選択することにより,大量の音声データを収集して,大量の音声データを解析してモデル化する必要がなく,モデル化するための労力を省力化することができる。
【発明を実施するための最良の形態】
【0022】
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書および図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
【0023】
(第1実施形態)
本発明の第1実施形態にかかる音韻モデル選択装置100について説明する。音韻モデル選択装置100は,テキストから音声を合成する音声合成装置に必要な音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを,少量の音声データから構築することが可能な装置である。音声合成装置は,入力されたテキスト文書を解析して,テキスト文書の解析結果から,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定を行って,推定された韻律パラメータに最も近い音声を,音素単位に分割可能な自然音声が記録されている音声コーパスから取得して組み合わせることにより音声を合成する装置である。
【0024】
上記韻律パラメータの推定は,ある話者の声の音響的な特徴をモデル化した音響モデルと,声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとを含む音韻モデルを用いて行われる。音韻モデル選択装置100は,少量の音声データを用いて,予め作成された音韻モデルのなかから,入力された音声データに最も適合する音韻モデルを選択することができる。音韻モデルを作成するためには,数十時間におよぶ大量の音声データを解析しなければならず,音韻モデル作成処理に長時間を要する。しかし,音韻モデル選択装置100により,予め音韻モデルが作成されていない話者の音声を用いて合成音声を作成する場合でも,新たにその話者の音韻モデルを作成せずとも,予め作成された音韻モデルを選択することにより,大量の音声データを解析して音韻モデルを作成する時間を省力化することができる。音韻モデル選択装置100としては,PC(Personal Computer)等のコンピュータ装置(ノート型,デスクトップ型を問わない)を例示できる。
【0025】
図1に基づいて,音韻モデル選択装置100の機能構成について説明する。図1に示したように,音韻モデル選択装置100は,入力データ102と,特徴量抽出部104と,第2ラベル情報算出部106と,音韻モデル格納部108と,ラベル情報比較部110と,音韻モデル選択部112などを備える。
【0026】
入力データ102は,ユーザにより入力されるデータであって,第1ラベル情報1021と,ラベル列1022と,音声データ1023を含む。予め,ユーザにより音声データ1023の読み仮名と音声データの聴取結果等に基づき,音声データ1023を構成する各音素にラベルが付与される。また,音声データ1023の波形やスペクトルを参照しながら,各音素の境界位置の特定が行われて第1ラベル情報が設定される。
【0027】
ラベル列1022は,上記ラベルを音声データ1023の時間的な流れに沿って格納したラベルの集合である。第1ラベル情報1021は,ユーザにより特定された各音素の境界位置の情報であって,各ラベルに付与される音素の属性情報である。第1ラベル情報1021は,例えば,ラベルが付与された各音素の開始時間,終了時間,継続時間などの時間情報である。
【0028】
音韻モデル格納部108は,予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対を記憶する機能を有し,例えばハードディスクなどを例示することができる。図2に基づいて,モデル格納部108に記憶された音韻モデルについて説明する。図2は,モデル格納部108に記憶された音韻モデルについて説明する説明図である。
【0029】
図2に示したように,音声を構成する各音素の音響的な特徴をモデル化した音響モデルと,話者の声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとの対が複数格納されている。各音素にはラベルが付与されており,ラベルごとの音響モデルと韻律モデルの対が格納される。例えば,「あ」という音素には,ラベルa122が付与され,ラベルa122に音響モデルa124および韻律モデルa126が関連付けられて格納されている。音響モデルおよび韻律モデルは,話者の大量の音声データを収集し,大量の音声データを解析して統計的にモデル化されたデータである。音響的な特徴としては,例えば,ケプストラム,デルタケプストラム,パワー,デルタパワー,デルタデルタパワー,またはこれらの組み合わせなどを例示することができる。また,韻律的な特徴としては,例えば,声の高さ(ピッチ),声の大きさ,継続時間などを例示することができる。
【0030】
また,音韻モデル格納部108に記憶された,複数の音響モデルと韻律モデルの対は,所定のグループにグループ化されて格納されている。所定のグループとは,発話者ごとのグループでもよいし,会話文と読み上げ文,標準語と関西弁のように音韻が異なる音声や文ごとのグループであってもよい。例えば,グループ1は話者Aの音声の音韻モデルであり,グループ2は話者Bの音声の音韻モデルとしてもよい。音韻モデル格納部108には,複数のグループの音韻モデルが格納されている。音韻モデル格納部108に格納された音韻モデルのデータは,グループ化された音韻モデルを変更,追加するようにしてもよいし,新たにグループ化された音韻モデルを追加するようにしてもよい。例えば,グループ3として,話者Cの音韻モデルを追加するようにしてもよい。
【0031】
図1に戻り,特徴量抽出部104は,入力された音声データ1023の特徴量を抽出する機能を有する。音声データ1023の特徴量としては,ケプストラム,デルタケプストラム,デルタデルタケプストラム,パワー,デルタパワー,デルタデルタパワー,またはこれらの組み合わせなどを例示することができる。特徴量抽出部104により抽出された特徴量は,上述した音韻モデル格納部108に格納された音響モデルを形成する特徴量の一部である。
【0032】
第2ラベル情報算出部106は,特徴量抽出部104により抽出された音声データ1023の特徴量を基に,音声データ1023の音素に対応する音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する機能を有する。具体的には,第2ラベル情報算出部106は,特徴量抽出部104により抽出された特徴量の時系列である特徴量列と,ラベル列1022を用意し,音韻モデル格納部108に格納された音韻モデルに従って,ラベルと特徴量列の音響的類似性に基づき両者の時間的対応を決定することで,第2ラベル情報を算出する。第2ラベル情報は,例えば,ラベルが付与された各音素の開始時間,終了時間,継続時間などであり,第1ラベル情報と同一の評価尺度に基づく情報である。また,「「波形接続型音声合成のための自動音素セグメンテーションの評価」信学技報SP2002-170 P5-10」に示される自動ラベリング手法によって,第2ラベル情報を求めるようにしてもよい。
【0033】
ここで,図3に基づいて,ラベル情報について説明する。本実施形態では,ラベル情報を各ラベルの継続時間として説明する。図3は,ラベル情報について説明する説明図である。図3に示したように,音声データ1023が「昔」であった場合,ラベル列1022は,「M,U,K,A,S,H,I」となる。また,第1ラベル情報1021は,各ラベルが表す音響的な特徴が表れている継続時間をミリ秒単位で表す時間情報であって,ラベル「M」の第1ラベル情報は200ミリ秒,「U」の第1ラベル情報は150ミリ秒,「K」の第1ラベル情報は25ミリ秒,「A」の第1ラベル情報は300ミリ秒,「SH」の第1ラベル情報は110ミリ秒,「I」の第1ラベル情報は130ミリ秒となっている。
【0034】
そして,第2ラベル情報算出部106により算出された,ラベル列「MUKASHI」のグループ1に対応した第2ラベル情報は,「M」が160ミリ秒,「U」が200ミリ秒,「K」が32ミリ秒,「A」が370ミリ秒,「SH」が130ミリ秒,「I」が150ミリ秒となる。また,グループ2に対応した第2ラベル情報は,「M」が150ミリ秒,「U」が130ミリ秒,「K」が25ミリ秒,「A」が310ミリ秒,「SH」が110ミリ秒,「I」が130ミリ秒となる。
【0035】
図1に戻り,ラベル情報比較部110は,第1ラベル情報と第2ラベル情報とを比較する機能を有する。ラベル情報が,図3に示した継続時間であった場合には,ラベルごとの第1ラベル情報と第2ラベル情報との差分の絶対値を算出することにより,第1ラベル情報と第2ラベル情報との比較を行う。例えば,図3に示した第1ラベル情報とグループ1に対応した第2ラベル情報との差分の絶対値d1は,以下のようになる。
d1=|200-160|+|150-200|+|25-32|+|300-370|+|110-130|+|130-150|=207
また,第1ラベル情報とグループ2に対応した第2ラベル情報との差分の絶対値d2は,以下のようになる。
d2=|200-150|+|150-130|+|25-25|+|300-310|+|110-110|+|130-130|=80
上記計算式により,第1ラベル情報とグループ2に対応した第2ラベル情報との差分の絶対値d2は,第1ラベル情報とグループ1に対応した第2ラベル情報との差分の絶対値d1よりも小さいことがわかる。したがって,音声データ1023の音響的な特徴および韻律的な特徴は,グループ2の音響モデルの音響的な特徴および韻律モデルの韻律的な特徴に近似していることがわかる。ラベル情報比較部110は,第1ラベル情報と第2ラベル情報との比較結果を音韻モデル選択部112に提供する。
【0036】
また,ラベル情報比較部110は,ラベル列の種類に応じて,第1ラベル情報と第2ラベル情報との差分に乗じる重み係数を変えるようにしてもよい。例えば,ラベルが子音の場合と母音の場合とで重み係数を変えるようにしてもよい。また,第1ラベル情報に対して,第2ラベル情報が前後のどちらにずれているかにより,第1ラベル情報と第2ラベル情報との差分に乗じる重み係数を変えるようにしてもよい。
【0037】
音韻モデル選択部112は,ラベル情報比較部110により提供された比較結果に応じて,音韻モデル格納部108から音響モデルおよび韻律モデルを選択する機能を有する。上述したように,グループ1に対応した第2ラベル情報との差分値よりも,グループ2に対応した第2ラベル情報との差分値のほうが小さい場合には,グループ2の音響モデルと韻律モデルとを選択するようにする。
【0038】
これにより,音韻モデル格納部108に格納された音韻モデルのなかから,音声データ1023の音響的な特徴および韻律的な特徴に最も近似した音韻モデルを選択することができる。その結果,音声データ1023の音韻モデルを作成せずとも,音声データ1023の音響的な特徴と韻律的な特徴に最も近似した音韻モデルを音韻モデル格納部108から選択して,音韻モデル格納部108に格納された音韻モデルに対応する音声以外の音声に対しても,音声を合成する音声合成装置に用いられる音韻モデルを提供することができる。音韻モデルの作成には数十時間におよぶ大量の音声データが必要となるが,音韻モデル選択装置100によれば,数分程度の少量の音声データにより,音声データの特徴量に近似した音韻モデルを選択して,音声合成を効率よく行うことが可能となる。
【0039】
従来,話者Aの音声を用いて合成音声を作成する場合には,話者Aの音韻モデルが必要であり,話者Bの音声を用いて合成音声を作成する場合には,話者Bの音韻モデルが必要であった。そして,新たに話者Cの音声を用いて合成音声を作成する場合には,話者Cの音韻モデルを作成しなければならなかった。しかし,音韻モデル選択装置100によれば,音韻モデル格納部108に話者Aの音韻モデルと話者Bの音韻モデルが格納され,話者Cの音響的な特徴と韻律的な特徴が話者Aの音響的な特徴と韻律的な特徴と近い場合には,話者Aの音韻モデルを話者Cの音韻モデルに代えて利用することが可能となる。
【0040】
また,話者Aの東京弁の韻律的な特徴を持つ音韻モデルが音韻モデル格納部108に格納されている場合に,話者Aの大阪弁の韻律的な特徴を持つ音声で合成音声を作成する場合には,従来,新たに話者Aの大阪弁の音韻モデルを作成する必要があった。しかし,音韻モデル選択装置100によれば,話者Aの大阪弁の音響的な特徴は,話者Aの東京弁の音響的な特徴と近いため,話者Aの大阪弁の音声で合成音声を作成する場合でも,新たに話者Aの大阪弁の音韻モデルを作成せずとも,話者Aの東京弁の音韻モデルを話者Aの大阪弁の音韻モデルに代えて利用することが可能となる。
【0041】
以上,音韻モデル選択装置100の機能構成について説明した。次に,図4に基づいて,音韻モデル選択装置100における音韻モデル選択方法について説明する。図4は,本実施形態にかかる音韻モデル選択方法について説明するフローチャートである。
【0042】
まず,入力された音声データ1023の特徴量を抽出する(S102)。上述したように,特徴量は,例えば,ケプストラム,デルタケプストラム,デルタデルタケプストラム,パワー,デルタパワー,デルタデルタパワーであり,それらの組み合わせでもよく,例えば以下のように表される。
特徴量=cept+Δcept+ΔΔcept+pow+Δpow+ΔΔpow
【0043】
次に,音声データ1023に付与された各ラベルに対応する音響モデルを選択する(S104)。そして,音声データ1023のラベルごとの特徴量を基に,ステップS104において選択された音響モデルから,第2ラベル情報を算出する(S106)。ステップS106において算出された第2ラベル情報と,予め音声データ1023に付与された第1ラベル情報とを比較する(S108)。上述したように,第1ラベル情報と第2ラベル情報が各音素の継続時間であった場合,第1ラベル情報と第2ラベル情報との差分の絶対値を算出することにより,第1ラベル情報と第2ラベル情報との比較を行う。
【0044】
そして,音声データ1023の第1ラベル情報に対応する第2ラベル情報があるか否かを判定する(S110)。ステップS110では,第1ラベル情報に近い第2ラベル情報があるか否かを判定している。例えば,音韻モデル格納部108に,グループ化された複数の音韻モデルが格納されている場合には,第1ラベル情報と,各グループの第2ラベル情報とをそれぞれ比較する。第1ラベル情報に近い第2ラベル情報が音韻モデル格納部108に格納されている場合には,その音韻モデルを選択する(S112)。
【0045】
ステップS110において,第1ラベル情報に対応する第2ラベル情報がないと判定された場合には,処理を終了する。例えば,第1ラベル情報と第2ラベル情報との差分が所定の差分値以上の場合は,音声データ1023の音響的な特徴と韻律的な特徴に最も近似した音韻モデルが音韻モデル格納部108に格納されていないと判定するようにしてもよい。第1ラベル情報と第2ラベル情報との差分が所定の差分以上の場合には,第2ラベル情報に対応する音韻モデルを用いて,音声データ1023の音声で正しく音声を合成することができないこととなる。
【0046】
ステップS112において選択された音韻モデルは,テキスト文書から音声を合成する音声合成装置において,入力テキストの解析結果から音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定に用いられる音韻モデルとなる。以上,本実施形態にかかる音韻モデル選択装置100の音韻モデル選択方法について説明した。
【0047】
上記音韻モデル選択方法により,音声データ1023の音韻モデルが音韻モデル格納部108に格納されていない場合でも,音声合成装置に用いられる音韻モデルを提供することができる。通常,精度のよい音韻モデルを作成するためには,数十時間におよぶ大量の音声データが必要となり,大量の音声データを解析するために長時間を要する。一方,音韻モデル格納部108に格納された音韻モデルを選択するのに必要な音声データ1023は,数分程度の音声データでよく,ラベルごとの特徴量を用いて効率よく音韻モデル格納部108に格納された音韻モデルを選択することができる。これにより,少量の音声データで音声データの特徴量に近似した音韻モデルを選択して,音声合成を効率よく行うことが可能となる。以上,第1実施形態について説明した。次に,第2実施形態について説明する。
【0048】
(第2実施形態)
本実施形態は,第1実施形態と比べ,ラベルごとの第1ラベル情報と第2ラベル情報との差分をそれぞれ算出する点は同じである。算出した差分を第1ラベル情報の誤差値とし,誤差値が所定の閾値以上か否かを判定して,誤差値が所定の閾値以上であるラベル以外の第1ラベル情報と第2ラベル情報との差分値を算出することにより,音声データ1023の音響的な特徴および韻律敵な特徴に近似している音韻モデルを選択する点で第1実施形態と異なっている。
【0049】
第1ラベル情報は,ユーザにより手動で特定された各音素の境界位置の情報であるため,手動でラベリングされたラベル列および第1ラベル情報は,正しく設定されていない場合もある。しかし,本実施形態にかかる音韻モデル選択装置100を用いることにより,手動で設定された精度の悪い第1ラベル情報を除いて第1ラベル情報と第2ラベル情報とを比較することができるため,手動によるラベリングミスを無視できる。
【0050】
以下では,第1実施形態と異なる機能について主に説明する。図5に基づいて,本実施形態にかかる音韻モデル選択装置100の機能構成について説明する。図5は,本実施形態にかかる音韻モデル選択装置100の機能構成を示すブロック図である。図5に示したように,音韻モデル選択装置100は,入力データ102と,特徴量抽出部104と,第2ラベル情報算出部106と,音韻モデル格納部108と,音韻モデル選択部112と,ラベル誤差値判定部114などを備える。
【0051】
入力データ102と,特徴量抽出部104と,第2ラベル情報算出部106と,音韻モデル格納部108と,音韻モデル選択部112については,第1実施形態とほぼ同様の機能を備えるため,説明を省略する。以下では,第1実施形態と異なるラベル誤差値判定部114について主に説明する。
【0052】
ラベル誤差値判定部114は,音声を構成する音素ごとに第1ラベル情報と第2ラベル情報との時間情報の差分を算出し,算出された時間情報の差分が所定の閾値以上である音素以外の音素の第1ラベル情報と第2ラベル情報との時間情報の差分により,第1ラベル情報と第2ラベル情報とを比較する機能を有する。本実施形態の音韻モデル選択装置100に備わるラベル誤差値判定部114は,第1実施形態にかかる音韻モデル選択装置100に備わるラベル情報比較部110に代えて,音韻モデル格納部108に格納された音韻モデルのうち,どの音韻モデルが音声データ1023の音響的な特徴および韻律的な特徴に近似しているかを判定しているが,第1実施形態にかかるラベル情報比較部110にラベル誤差値判定部114の機能を設けて,音韻モデル選択装置100を構成するようにしてもよい。
【0053】
図6および図7に基づいて,ラベル誤差値判定部114におけるラベル誤差値の判定について説明する。図6は,入力データ102に含まれる5ファイルのラベル列1022の例を示す表500と,入力データ102に含まれる5ファイルの第1ラベル情報1021の例を示す表520である。表500に示すように,音声データ1023の5ファイルには,それぞれラベルが付与されている。
【0054】
例えば,1fileには,A11,A12,A13,A14のラベル502が付与され,2fileには,A21,A22,A23,A24のラベル504が付与され,同様に,3file,4file,5fileにそれぞれ,ラベル506,ラベル508,ラベル510が付与されている。そして,表520に示すように,音声データ1023の5ファイルの第1ラベル情報1021は,各ファイルのラベル列順に設定されている。例えば,1fileには第1ラベル情報522は,D11,D12,D13,D14が設定され,2fileの第1ラベル情報524は,D21,D22,D23,D24が設定され,同様に,3file,4file,5fileにそれぞれ,第1ラベル情報526,第1ラベル情報528,第1ラベル情報530が設定されている。
【0055】
図7は,第2ラベル情報算出部106により音韻モデル格納部108に格納された音韻モデルのグループごとに対応した第2ラベル情報を示した表である。表600は,グループ1の第2ラベル情報を示した表であり,表620は,グループ2の第2ラベル情報を示した表である。表600に示したように,グループ1に対応する1fileの第2ラベル情報602は,E11,E12,E13,E14が算出され,2fileの第2ラベル情報604は,E21,E22,E23,E24が算出され,同様に,3file,4file,5fileの,第2ラベル情報606,第2ラベル情報608,第2ラベル情報610がそれぞれ算出される。また,表620に示したように,グループ2に対応する1fileの第2ラベル情報622は,F11,F12,F13,F14が算出され,2fileの第2ラベル情報624は,F21,F22,F23,F24が算出され,同様に,3file,4file,5fileの,第2ラベル情報626,第2ラベル情報628,第2ラベル情報630がそれぞれ算出される。
【0056】
上述したように,第1ラベル情報は,ユーザにより手動でラベリングされた各音素の境界位置の情報であるため,正しいラベル位置とはずれてしまう場合がある。例えば,表520の5fileの第1ラベル情報530のうち,D52〜D54のラベル位置がずれてしまったとする。正しい位置よりずれて設定された第1ラベル情報を,D’52,D’53,D’54とする。このとき,各ファイルの第1ラベル情報とグループ1の第2ラベル情報との差分値の絶対値は以下のように表される。
1fileの差分値:d11=|E11-D11|+|E12-D12|+|E13-D13|+|E14-D14|
2fileの差分値:d12=|E21-D21|+|E22-D22|+|E23-D23|+|E24-D24|
3fileの差分値:d13=|E31-D31|+|E32-D32|+|E33-D33|+|E34-D34|
4fileの差分値:d14=|E41-D41|+|E42-D42|+|E43-D43|+|E44-D44|
5fileの差分値:d15=|E51-D51|+|E52-D’52|+|E53-D’53|+|E54-D’54|
上記各ファイルの差分値から,全体の差分値d1が以下のように求められる。
d1=(d11+d12+d13+d14+d15)/5
【0057】
また,各ファイルの第1ラベル情報とグループ2の第2ラベル情報との差分値の絶対値は以下のように表される。
1fileの差分値:d21=|F11-D11|+|F12-D12|+|F13-D13|+|F14-D14|
2fileの差分値:d22=|F21-D21|+|F22-D22|+|F23-D23|+|F24-D24|
3fileの差分値:d23=|F31-D31|+|F32-D32|+|F33-D33|+|F34-D34|
4fileの差分値:d24=|F41-D41|+|F42-D42|+|F43-D43|+|F44-D44|
5fileの差分値:d25=|F51-D51|+|F52-D’52|+|F53-D’53|+|F54-D’54|
上記各ファイルの差分値から,全体の差分値d2が以下のように求められる。
d2=(d21+d22+d23+d24+d25)/5
【0058】
ラベル誤差値判定部114は,各ファイルの差分値が所定の閾値以上であった場合に,その差分値を除いて,全体の差分値を算出する。上述したように,第1ラベル情報D’52,D’53,D’54は,正しいラベル位置とはずれた値である。したがって,グループ1の差分値においては異常値となるd15を除き,グループ2の差分値においては異常値となるd25を除いて全体の差分値を算出するようにする。異常値を除いて算出された差分値d1,d2は以下のように表される。
d1=(d11+d12+d13+d14)/4
d2=(d21+d22+d23+d24)/4
【0059】
このように,異常値を除いて全体の差分値を算出することにより,入力データ102の手動ラベリングによって,大幅に第1ラベル情報がずれてしまった場合でも,音声データ1023の音響的な特徴および韻律的な特徴に近似した音韻モデルを正しく選択することが可能となる。
【0060】
また,例えば上記の例において,入力データ102の5ファイルのうち,4ファイルの第1ラベル情報がずれてしまった場合,つまり,4ファイルの差分値が異常値であった場合には,差分値が異常値ではない1ファイルのみを全体の差分値とする。差分値が異常値である4ファイルも含めて全体の差分値とする場合には,各差分値に対して重みをかけるようにしてもよい。例えば,差分値が異常値ではないファイルにw1の重みをかけ,差分値が異常値であるファイルにw1より小さい値となるw2の重みをかける。w1およびw2の重みをかけた差分値d1は,例えば以下のように表される。
d1={w1*d11+w2*(d12+d13+d14+d15)}/5
【0061】
また,手動ラベリングされた第1ラベル情報のすべてがずれてしまっており,上記5ファイルのすべての差分値が異常値であった場合には,ユーザに対して,選択すべき音韻モデルが音韻モデル格納部108に格納されていない旨通知するようにしてもよい。また,ユーザの入力に応じて,差分値が異常値であった場合でも,差分値を計算して,音韻モデル格納部108に格納された音韻モデルの第2ラベル情報との差分値が最も小さい音韻モデルを選択するようにしてもよい。
【0062】
以上,本実施形態にかかる音韻モデル選択装置100の機能構成について説明した。次に,図8に基づいて,本実施形態にかかる音韻モデル選択装置100の音韻モデル選択方法について説明する。図8は,本実施形態にかかる音韻モデル選択方法を示すフローチャートである。
【0063】
まず,入力された音声データ1023の特徴量を抽出する(S202)。上述したように,特徴量は,例えば,ケプストラム,デルタケプストラム,デルタデルタケプストラム,パワー,デルタパワー,デルタデルタパワーであり,それらの組み合わせでもよく,例えば以下のように表される。
特徴量=cept+Δcept+ΔΔcept+pow+Δpow+ΔΔpow
【0064】
次に,音声データ1023に付与された各ラベルに対応する音響モデルを選択する(S204)。そして,音声データ1023のラベルごとの特徴量を基に,ステップS204において選択された音響モデルから,第2ラベル情報を算出する(S206)。ステップS206において算出された第2ラベル情報と,予め音声データ1023に付与された第1ラベル情報との差分を算出する(S208)。上述したように,第1ラベル情報と第2ラベル情報が各音素の継続時間であった場合,第1ラベル情報と第2ラベル情報との差分の絶対値を算出する。
【0065】
ステップS208において算出された差分値が異常値であるか否かを判定する(S210)。ここで,算出された差分値が所定の閾値以上である場合に,その差分値を異常値とする。ステップS210において,差分値に異常値があると判定された場合には,異常値を除去して第1ラベル情報と第2ラベル情報とを比較する(S212)。具体的には,異常値である差分値以外の差分値を加算する。ステップS210において,差分値に異常値がないと判定された場合には,ステップS214の処理を行なう。
【0066】
そして,音声データ1023の第1ラベル情報に対応する第2ラベル情報があるか否かを判定する(S214)。ステップS214では,第1ラベル情報に近い第2ラベル情報があるか否かを判定している。例えば,音韻モデル格納部108に,グループ化された複数の音韻モデルが格納されている場合には,第1ラベル情報と,各グループの第2ラベル情報とをそれぞれ比較する。第1ラベル情報に近い第2ラベル情報が音韻モデル格納部108に格納されている場合には,その音韻モデルを選択する(S216)。
【0067】
ステップS214において,第1ラベル情報に対応する第2ラベル情報がないと判定された場合には,処理を終了する。例えば,第1ラベル情報と第2ラベル情報との差分が所定の差分値以上の場合は,音声データ1023の音響的な特徴と韻律的な特徴に最も近似した音韻モデルが音韻モデル格納部108に格納されていないと判定するようにしてもよい。第1ラベル情報と第2ラベル情報との差分が所定の差分以上の場合には,第2ラベル情報に対応する音韻モデルを用いて,音声データ1023の音声で正しく音声を合成することができない。
【0068】
ステップS216において選択された音韻モデルは,テキスト文書から音声を合成する音声合成装置において,入力テキストの解析結果から音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定に用いられる音韻モデルとなる。以上,本実施形態にかかる音韻モデル選択装置100の音韻モデル選択方法について説明した。
【0069】
上記音韻モデル選択方法により,入力データ102の手動ラベリングによって,大幅に第1ラベル情報がずれてしまった場合でも,音声データ1023の音響的な特徴および韻律的な特徴に近似した音韻モデルを正しく選択することが可能となる。また,音声データ1023の音韻モデルが音韻モデル格納部108に格納されていない場合でも,音声合成装置に用いられる音韻モデルを提供することができる。通常,精度のよい音韻モデルを作成するためには,数十時間におよぶ大量の音声データが必要となり,大量の音声データを解析するために長時間を要する。一方,音韻モデル格納部108に格納された音韻モデルを選択するのに必要な音声データ1023は,数分程度の音声データでよく,ラベルごとの特徴量を用いて効率よく音韻モデル格納部108に格納された音韻モデルを選択することができる。これにより,少量の音声データで音声データの特徴量に近似した音韻モデルを選択して,音声合成を効率よく行うことが可能となる。以上,第2実施形態について説明した。
【0070】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0071】
上記実施形態においては,音韻モデル選択装置100に音韻モデル格納部108が備えられているが,かかる例に限定されず,音韻モデル格納部108を音韻モデル選択装置100とは別の装置に備えてもよい。例えば,音韻モデル格納部108を備えた記憶装置と音韻モデル選択装置100とをネットワークを介して接続することにより,音韻モデル格納部108に記憶された音韻モデルを,複数のユーザが利用して,自己のPC等に音韻モデルを有していない場合でも,少量の音声データを用いて音韻モデルを構築して,合成音声を作成することが可能となる。
【産業上の利用可能性】
【0072】
本発明は,本発明は,音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラムに適用可能であり,特に少量の音声データから,音声を合成する際に用いられる音韻モデル選択する音韻モデル選択装置に適用可能である。
【図面の簡単な説明】
【0073】
【図1】本発明の第1の実施形態にかかる音韻モデル選択装置の機能構成を示すブロック図である。
【図2】同実施の形態におけるモデル格納部に記憶された音韻モデルについて説明する説明図である。
【図3】同実施の形態におけるラベル情報について説明する説明図である。
【図4】同実施の形態における音韻モデル選択方法を示すフローチャートである。
【図5】本発明の第2の実施形態にかかる音韻モデル選択装置の機能構成を示すブロック図である。
【図6】同実施の形態における入力データに含まれる第1ラベル情報の例を示す表である。
【図7】同実施の形態における音韻モデルに対応した第2ラベル情報の例を示す表である。
【図8】同実施の形態における音韻モデル選択方法を示すフローチャートである。
【符号の説明】
【0074】
100 音韻モデル選択装置
102 入力データ
1021 第1ラベル情報
1022 ラベル列
1023 音声データ
104 特徴量抽出部
106 第2ラベル情報算出部
108 音韻モデル格納部
110 ラベル情報比較部
112 音韻モデル選択部
114 ラベル誤差値判定部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013