Warning: copy(.htaccess): failed to open stream: Permission denied in /home/jp321/public_html/header.php on line 8
音声合成装置及び方法 - 沖電気工業株式会社
米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音声合成装置及び方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−212682(P2007−212682A)
公開日 平成19年8月23日(2007.8.23)
出願番号 特願2006−31472(P2006−31472)
出願日 平成18年2月8日(2006.2.8)
代理人 【識別番号】100090620
【弁理士】
【氏名又は名称】工藤 宣幸
発明者 渡辺 聡 / 兼安 勉
要約 課題
計算量を抑えた上で、複数の音声データベースを探索し、音素波形の選択精度を向上させ得る音声合成装置を提供する。

解決手段
本発明は、指定された音素に対し、指定された音声データベースの中から、相違度の低い音素波形データを所定個数だけ選択する音素波形選択手段と、音素列の各音素ごとに音響情報を対応付けた韻律情報のいずれかの音素と、いずれかの音声データベースとを指定して、音素波形データを選択させると共に、合成音データで利用する選択音素波形データを決定する探索範囲判断手段と、選択された音素波形データに基づき、韻律情報の音素列に対応した合成音データを得る音素波形接続手段とを備える。探索範囲判断手段は、1つの音声データベースから選択された音声波形データの相違度に基いて、他の音声データベースからの検索を行うかどうかを判断する。
特許請求の範囲
【請求項1】
複数の音素波形データをその音素ラベル及び音響情報と関連付けて記憶する、複数の音声データベースと、
指定された音素に対し、指定された上記音声データベースの中から、相違度の低い音素波形データを所定個数だけ選択する音素波形選択手段と、
音素列であってその各音素ごとに音響情報を対応付けた韻律情報のいずれかの音素と、いずれかの上記音声データベースとを指定して、上記音素波形選択手段による音素波形データを選択させると共に、合成音データで利用する選択音素波形データを決定する探索範囲判断手段と、
上記探索範囲判断手段の制御下で、上記音素波形選択手段によって選択され、利用するものと決定された音素波形データに基づき、上記韻律情報の音素列に対応した合成音データを得る音素波形接続手段とを備え、
上記探索範囲判断手段は、
1つの上記音声データベースから選択された上記音声波形データの選択結果の相違度に基いて、他の音声データベースからの検索を行うかどうかを判断する第1の判断部と、
上記第1の判断部の判断に従って、複数の上記音声データベースから選択された音素波形データを得た場合に、どの音素波形データを合成音データで利用するかを判断する第2の判断部とを有する
ことを特徴とする音声合成装置。
【請求項2】
上記第1の判断部は、1つの上記音声データベースから選択された所定個数の上記音声波形データの選択結果の相違度が全て、予め定められている閾値より相違が大きいことを表す場合に、他の音声データベースから検索させると判断することを特徴とする請求項1に記載の音声合成装置。
【請求項3】
上記各音声データベースには、異なる話者の音声波形データを収録したことを特徴とする請求項1又は2に記載の音声合成装置。
【請求項4】
複数の音素波形データをその音素ラベル及び音響情報と関連付けて記憶する、複数の音声データベースが予め用意されていると共に、
指定された音素に対し、指定された上記音声データベースの中から、相違度の低い音素波形データを所定個数だけ選択する音素波形選択工程と、
音素列であってその各音素ごとに音響情報を対応付けた韻律情報のいずれかの音素と、いずれかの上記音声データベースとを指定して、上記音素波形選択工程によって音素波形データを選択させると共に、合成音データで利用する選択音素波形データを決定する探索範囲判断工程と、
上記音素波形選択工程によって選択され、利用するものと決定された音素波形データに基づき、上記韻律情報の音素列に対応した合成音データを得る音素波形接続工程とを有し、
上記探索範囲判断工程は、
1つの上記音声データベースから選択された上記音声波形データの選択結果の相違度に基いて、他の音声データベースからの検索を行うかどうかを判断する第1のサブ判断工程と、
上記第1のサブ判断工程での判断に従って、複数の上記音声データベースから選択された音素波形データを得た場合に、どの音素波形データを合成音データで利用するかを判断する第2のサブ判断工程とを有する
ことを特徴とする音声合成方法。
【請求項5】
上記第1のサブ判断工程は、1つの上記音声データベースから選択された所定個数の上記音声波形データの選択結果の相違度が全て、予め定められている閾値より相違が大きいことを表す場合に、他の音声データベースから検索させると判断することを特徴とする請求項4に記載の音声合成方法。
【請求項6】
上記各音声データベースには、異なる話者の音声波形データを収録したことを特徴とする請求項4又は5に記載の音声合成方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は音声合成装置及び方法に関し、例えば、テキストデータを音声データに変換する場合に適用し得るものである。
【背景技術】
【0002】
テキストデータを対応する音声データに変換するテキスト音声変換技術は、音声合成技術の一種として知られている。最近は、予め録音した大量の音声データベースを利用して行うコーパスベース音声合成が知られている。コーパスベース音声合成の代表的なものに、特許文献1に記載のものがある。
【0003】
特許文献1の記載技術は、韻律制御を使わず、信号処理を実行することなく、任意の音素列を発声音声に変換することができ、自然に近い声質を得ることができる音声合成装置を提供することを目的としてなされ、音素列の各音素に対して類似度の最も高い音声データベース内の音素波形を選択し、それらを接続して合成音を得る方法である。
【0004】
特許文献1に記載のものに限らず、コーパスベース音声合成方法は、自然発話を収録した音声データベースを備えているが、それら音声データベースは通常、発声スタイルの異なるものを複数備えている。例えば、第1の音声データベースには、男性Aの音声を収録し、第2の音声データベースには男性2の音声を収録し、第3の音声データベースには、女性Cの音声を収録している、などといった具合である。
【0005】
ユーザがこのような音声合成装置を使用する際には、予め合成する声質を指定できるようにしなされており、装置は、指定された声質に対応する音声データベースのみについて音素波形を検索し、音声データを得る。例えば、ユーザが男性Aでの音声で合成するように指定した場合、第1の音声データベースのみを検索し、第2、第3の音声データベースは検索しないのが通例である。
【特許文献1】特開平10−049193号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところで、複数の音声データベースを備える音声合成装置において、音素波形の選択を、一つの音声データベースを探索することで行うより、複数の音声データベースを探索した方が、目標音素と類似度の高い音素波形を選択することができると推測される。
【0007】
このようにしない理由は、他の音声データベースを検索すると当然計算量が増大するが、もともと声質の異なる音声データベースであるため、適切な音素波形が存在する期待値が小さいためである、と考えられる。
【0008】
しかしながら、最近の計算機パワーの進展により、以前にまして各音声データベースの量を増したり、備える音声データベースの数(出せる声種)が増したりする場合、任意の2つの音声データベース間で補完し合える音素波形の数は増えていると考えられる。
【0009】
しかし、計算量と期待値のトレードオフが解決したわけではなく、依然として、計算量の増加もあなどれない。
【0010】
本発明は、このような問題に鑑み、計算量を抑えた上で、複数のデータベースを探索し、音素波形の選択精度を向上させることができる音声合成装置及び方法を提供しようとしたものである。
【課題を解決するための手段】
【0011】
第1の本発明の音声合成装置は、(1)複数の音素波形データをその音素ラベル及び音響情報と関連付けて記憶する、複数の音声データベースと、(2)指定された音素に対し、指定された上記音声データベースの中から、相違度の低い音素波形データを所定個数だけ選択する音素波形選択手段と、(3)音素列であってその各音素ごとに音響情報を対応付けた韻律情報のいずれかの音素と、いずれかの上記音声データベースとを指定して、上記音素波形選択手段による音素波形データを選択させると共に、合成音データで利用する選択音素波形データを決定する探索範囲判断手段と、(4)上記探索範囲判断手段の制御下で、上記音素波形選択手段によって選択され、利用するものと決定された音素波形データに基づき、上記韻律情報の音素列に対応した合成音データを得る音素波形接続手段とを備え、(3)上記探索範囲判断手段は、(3−1)1つの上記音声データベースから選択された上記音声波形データの選択結果の相違度に基いて、他の音声データベースからの検索を行うかどうかを判断する第1の判断部と、(3−2)上記第1の判断部の判断に従って、複数の上記音声データベースから選択された音素波形データを得た場合に、どの音素波形データを合成音データで利用するかを判断する第2の判断部とを有することを特徴とする。
【0012】
第2の本発明の音声合成方法は、(1)複数の音素波形データをその音素ラベル及び音響情報と関連付けて記憶する、複数の音声データベースが予め用意されていると共に、(2)指定された音素に対し、指定された上記音声データベースの中から、相違度の低い音素波形データを所定個数だけ選択する音素波形選択工程と、(3)音素列であってその各音素ごとに音響情報を対応付けた韻律情報のいずれかの音素と、いずれかの上記音声データベースとを指定して、上記音素波形選択工程によって音素波形データを選択させると共に、合成音データで利用する選択音素波形データを決定する探索範囲判断工程と、(4)上記音素波形選択工程によって選択され、利用するものと決定された音素波形データに基づき、上記韻律情報の音素列に対応した合成音データを得る音素波形接続工程とを有し、(3)上記探索範囲判断工程は、(3−1)1つの上記音声データベースから選択された上記音声波形データの選択結果の相違度に基いて、他の音声データベースからの検索を行うかどうかを判断する第1のサブ判断工程と、(3−2)上記第1のサブ判断工程での判断に従って、複数の上記音声データベースから選択された音素波形データを得た場合に、どの音素波形データを合成音データで利用するかを判断する第2のサブ判断工程とを有することを特徴とする。
【発明の効果】
【0013】
本発明によれば、1つの音声データベースから選択された音声波形データの選択結果の相違度に基いて、他の音声データベースからの検索を行うかどうかを判断するようにしたので、全ての音声データベースを常に探索するわけではなく、計算量を抑えた上で、複数のデータベースを探索し、音素波形の選択精度を向上させることができるようになる。
【発明を実施するための最良の形態】
【0014】
(A)第1の実施形態
以下、本発明による音声合成装置及び方法の第1の実施形態を、図面を参照しながら詳述する。
【0015】
(A−1)第1の実施形態の構成
第1の実施形態の音声合成装置は、音声合成処理用のソフトウェアを備えたり、音声合成処理用の専用半導体チップを備えたりする専用装置として構成されていても良く、また、パソコンなどに音声合成処理用のソフトウェアをインストールすることで構成されていても良いが、機能的には、図1に示す概略構成を備えている。
【0016】
図1において、第1の実施形態の音声合成装置10は、テキスト解析手段11、音声データベース群(音声DB群)12、音素波形選択手段13、探索範囲判断手段14及び音素波形接続手段15を有する。
【0017】
テキスト解析手段11には、漢字かな混じりのテキスト情報が入力され、テキスト解析手段11は、この漢字かな混じりのテキスト情報を、韻律情報に変換して出力する。ここで、韻律情報とは、図2に示すような音素の時系列(h、a、j、m、e、…)であって、各音素に対し、その音素の時間長(継続時間;duaration)、ピッチ周波数(pitch(1)、pitch(2)、…)、スペクトル情報(メルケプストラム係数;melcep(1)、melcep(2)、…)等の音響情報を付加したものである。ここで、韻律情報は、後述する音素波形選択手段13で用いられるので、韻律情報のデータ構成や形態などは、音素波形選択手段13の処理や音声データベース群12のデータ構成などと整合を取っておく必要がある。
【0018】
韻律情報における音響情報は、後述する探索処理で目標情報として用いられるものであり、仮に、この音響情報から音声データを構築して発音させた場合に、癖のない音声になるようなものであることが好ましい。
【0019】
テキスト解析手段11は、テキスト情報を、各単語の表記、読み、品詞、アクセントを関連付けた単語辞書を使って、一旦、アクセント付かな文字列に変換した後、予め構築されている韻律データベースを参照することでさらに韻律情報に変換する。このようなテキスト解析手段11の処理は、上述した特許文献1に詳細に述べられている。
【0020】
音声データベース群12は、複数の音声データベース12A、12B、12C、…の集まりとして構成されている。ここで、複数の音声データベース12A、12B、12C、…の作成の観点は、任意である。例えば、各音声データベース12A、12B、12C、…を話者単位で構成できる。
【0021】
なお、他の観点としては、以下のような例を挙げることができる。(a)同一話者が異なる口調で発声した音声データ毎に、別個の音声データベースとする。例えば、怒っている口調で発声した音声データを第1の音声データベースに収録し、悲しんでいる口調で発声した音声データを第2の音声データベースに収録するなどする。また例えば、ニュースを読んだ音声データを第1の音声データベースに収録し、電話応答をした音声データを第2の音声データベースに収録するなどする。さらに例えば、音声の経時変化を考慮して、録音時期によって、音声データベースを変えるようにしても良い。さらにまた、例えば、録音状況を考慮して、マイクの種類やアンプの種類などの組み合わせによって、音声データベースを変えるようにしても良い。(b)同一の音声データベースに対しても、複数の話者の音声データを収録するようにしても良い。例えば、若い男性の音声データを第1の音声データベースに収録し、高齢の女性の音声を第2の音声データベースに収録するように、話者をグループ分けして音声データベースを構築する。(c)さらには、各音声データベースを構成する音声データ区別化ルールを特に決めずに、音声データを、複数の音声データベースに振り分ける。例えば、音声データを入力順に、各音声データベースに振り分けても良い。
【0022】
また、話者毎に、音声データベースを構築する場合であっても、全て又は一部の話者の音声データベースを、細分しておくようにしても良い。例えば、図3(a)に示すように、一つの音声データベース(話者A)12Aの一部を、第1のサブ音声データベース12A−1とし、音声データベース12Aの全体から第1のサブ音声データベース12A−1を除いた部分を、第2のサブ音声データベース12A−2とするようにしても良い。また例えば、図3(b)に示すように、一つの音声データベース12Aを共通の音素波形を持つように複数のサブ音声データベース12A―1、12A−2に分割するようにしても良い。第1及び第2のサブ音声データベースへの音声データの振り分けは、上記(a)のいずれかの具体的方法を適用し得る。
【0023】
各音声データベース12A、12B、12C、…に収録された音声データには、その音声データ上で、音素の境界を示す音素境界の情報と、各音素境界で分割された各音素波形に対するラベル情報(音素ラベル情報)が付加されている。また、音素波形選択手段13での計算量を削減するために、各音声データベース12A、12B、12C、…に収録された音声データにおける、各音素境界で分割された各音素に対して、上記テキスト解析手段11の出力である韻律情報に対応できるように、韻律情報と同様な、音素時間長、ピッチ周波数、スペクトル情報(メルケプストラム係数)が付加されている。
【0024】
音素波形選択手段13は、探索範囲判断手段14の制御下で、テキスト解析手段11から出力された韻律情報の中の各音素に対して、探索範囲判断手段14によって指定された音声データベース内(指定方法の説明は後述する)の音素波形の中から、最適な音素波形を選択するものである。音素波形選択手段13は、韻律情報内の各音素について、その音素の音響情報(ピッチ情報、音素継続時間情報、スペクトル情報)と、指定音声データベース内の各音素波形の音響情報とを比較したりなどし、相違度(コスト値)が最も小さい音素波形を選択する。比較は、例えば、韻律情報の音素ラベル(図2でのh、a、j、m、e、…など)と、同一の音素ラベルを持つ音声データベース内の音素波形に対して行なわれる。
【0025】
音素波形選択手段13は、例えば、相違度を表すコスト関数を以下のように算出する。韻律情報の音素ごとに、その音素の音響情報と、データベース内の音素波形の音響情報(ピッチ情報、音素継続時間情報、スペクトル情報)を比較し、第1のサブコストとして数値化する。また、韻律情報の音素それぞれの前後の音韻環境についても比較し、第2のサブコストとして数値化する。その後、各サブコストを合成し(例えば、各サブコストを重み付け加算する)、コスト値を計算する。コスト値を求める関数についても、上記特許文献1に詳しく記載されている。
【0026】
探索範囲判断手段14は、音素波形選択手段13による音素波形の選択動作を指示すると共に、音素波形選択手段13で得られた候補波形のコスト値に基づき、他の音声データベースの検索を行うかどうかを決定し、適宜、他の音声データベースからの検索を実行させるものである。探索範囲判断手段14の機能については、動作の項の説明で明らかにする。
【0027】
音素波形接続手段15は、テキスト解析手段11から出力された韻律情報を目標情報として、音声データベース群12内の音声データベースから選択された各音素波形を、相関関数等で、位相を合わせて接続し、入力された漢字かな混じりのテキスト情報に応じた音声データ列を形成して出力するものである。各音素波形を接続する際には、窓掛けによるオーバーラップ接続等を行うようにしても良い。
【0028】
(A−2)第1の実施形態の動作
以下、第1の実施形態の音声合成装置10の動作を説明する。まず、探索範囲判断手段14の処理について、図4のフローチャートを参照しながら説明する。
【0029】
なお、各音声データベース12A、B、C、…の優先度の順序(探索順序)は、図4の処理を開始する前によってユーザによって指定されているものとする。音声データベースの識別子は、優先度の高いものから、1、2、3、…と割り振られている。なお、システムが固定的に優先度を付与しているものであっても良い。ユーザが音声データベースの優先度の指定を行わない場合であっても、音声データベースの検索順除は優先度の高いものからに予め決定されており、指定しない場合用の順序を予め定めておく。
【0030】
探索範囲判断手段14は、テキスト解析手段11から韻律情報を受けると、韻律情報における音素の時系列順を表すパラメータiを先頭の音素(図2の例で言えば/h/)を表す1に初期化(i=1)して図4に示す処理を開始する。
【0031】
そしてまず、選択波形候補情報を格納する一時的な記憶領域(以下、この記憶領域も選択波形候補情報と呼ぶ)をリフレッシュする(ステップ101)。ここで、選択波形候補情報とは、韻律情報の第i音素に対応する音素波形が最終的に決定されるまでの間の最適な候補情報であり、その時点で、1番対応している音素波形が存在する音声データベース番号m0と、その音声データベース内での音素波形の識別子n0と、その音声データベース内での音素とのコスト値C0(m、n)とでなるものである。リフレッシュの際には、探索対象の音声データベースを規定するパラメータmも初期値(m=1)に設定する。
【0032】
選択波形候補情報をリフレッシュした後では、探索範囲判断手段14は、音素波形選択手段13に対して、韻律情報の第i音素に関する情報と、検索対象とする音声データベースの識別子mを送って、音素波形の選択を指示し、音素波形選択手段13から返信された情報を取り込む(ステップ102)。音素波形選択手段13は、音素波形の選択が指示されると、上述した選択動作を行い、選択した音素波形の識別子(音素識別子)nと、コスト値C(m、n)とを探索範囲判断手段14に返信する。音素識別子nとは、韻律情報の第i音素に対して、最もコスト値が低かった音素波形の識別子であり、コスト値C(m、n)は、そのコスト値である。
【0033】
次に、探索範囲判断手段14は、音素波形選択手段13から返信されたコスト値C(m、n)が予め定められている閾値THより小さいがどうかを調べる(ステップ103)。閾値THは、全ての音素(や音韻)に同一の値を設定しておいても良いし、音素(や音韻)毎に変えておくようにしても良い。例えば、母音系、子音系によって、閾値THを変えるようにしても良い。音素(や音韻)毎に変えておく場合であれば、例えば、第i音素の情報をキーとして、閾値テーブルから閾値THを取り出すことになる。
【0034】
返信されたコスト値C(m、n)が予め定められている閾値THより小さければ、現在対象となっている韻律情報の第i音素に関する音素波形として、そのときのパラメータm、nで規定されるものに決定し、第i音素に対応付けてパラメータm、nを記憶する(ステップ104)。
【0035】
この決定後においては、探索範囲判断手段14は、決定された韻律情報の第i音素が韻律情報の最後の音素でないことを確認した後(ステップ105)、パラメータiを1インクリメントして次の音素を指示するものに切り替えて(ステップ106)、上述したステップ101の選択波形候補のリフレッシュ処理に戻る。
【0036】
一方、音素波形選択手段13から返信されたコスト値C(m、n)が予め定められている閾値TH以上であれば、探索範囲判断手段14は、返信されたコスト値C(m、n)を、選択波形候補のコスト値C0(m、0)と比較する(ステップ107)。ここで、パラメータmが1の場合には、ステップ101のリフレッシュ処理によって、選択波形候補のコスト値C0(m、0)が登録されていないので、ステップ107の比較を行うことなく、後述するステップ108に進む。なお、リフレッシュ処理で、選択波形候補のコスト値C0(m、0)として、コスト値C(m、n)が取り得ない大きな値を設定し、パラメータmが1の場合にも、ステップ107の比較を実行するようにしても良い。
【0037】
ステップ107の比較により、音素波形選択手段13から返信されたコスト値C(m、n)が選択波形候補のコスト値C0(m、0)より小さいという結果を得た場合や、パラメータmが1である場合には、探索範囲判断手段14は、選択波形候補の各値を更新する(ステップ108)。すなわち、選択波形候補の音声データベース番号m0を現時点のパラメータmに更新すると共に、選択波形候補の音素波形の識別子n0を音素波形選択手段13から返信された音素波形の識別子nに更新し、選択波形候補のコスト値C0(m、0)を音素波形選択手段13から返信されたコスト値C(m、n)に更新する。
【0038】
パラメータmが2以上であって、ステップ107の比較により、音素波形選択手段13から返信されたコスト値C(m、n)が選択波形候補のコスト値C0(m、0)以上という結果を得た場合、又は、上述したステップ108による選択波形候補の各値の更新が終了した場合には、探索範囲判断手段14は、パラメータmが最後の値になっているか否か(言い換えると、全ての音声データベースに対する探索を実行したか否か)を判断する(ステップ109)。
【0039】
探索範囲判断手段14は、パラメータmが最後の値になっていなければ、パラメータmを1インクリメントして次の音声データベースを指示するものに更新して(ステップ110)、上述したステップ102の音素波形選択の依頼、受領処理に戻る。
【0040】
全ての音声データベースの探索が終了した場合(この場合は、閾値THより小さいコスト値の音素波形がいずれの音声データベースにも存在しない場合である)には、探索範囲判断手段14は、現在対象となっている韻律情報の第i音素に関する音素波形として、そのときの選択波形候補のパラメータm0、n0で規定されるものに決定し、第i音素に対応付けてパラメータm0、n0を記憶する(ステップ111)。この決定後においては、探索範囲判断手段14は、決定された韻律情報の第i音素が韻律情報の最後の音素でないことを確認した後(ステップ105)、パラメータiを1インクリメントして次の音素を指示するものに切り替えて(ステップ106)、上述したステップ101の選択波形候補のリフレッシュ処理に戻る。
【0041】
韻律情報の最後の音素について、音素波形の決定を行うと(ステップ105で肯定結果)、探索範囲判断手段14は、図4に示す一連の処理を終了する。以上のようにして、韻律情報の先頭の音素から、順次、音素波形を決定していき、ステップ105において最後の音素について決定したと判断したら、処理を終了する。
【0042】
図4の処理によれば、韻律情報の各音素について、音声データベースの優先度順に、音素波形の探索処理を実行し、閾値THよりコスト値が小さい音素波形が見付かればその音素についての探索をそこで終了し、閾値THよりコスト値が小さい音素波形が見付からない場合には、全ての音声データベースから得た音素波形の中のコスト値が最も小さいものを、該当する音素波形に決定する。
【0043】
次に、第1の実施形態の音声合成装置10の全体動作について説明する。
【0044】
テキスト解析手段11は、漢字かな混じりのテキスト文を、韻律情報に変換し、句読点等で区切られた1文単位で探索範囲判断手段14に与える。
【0045】
探索範囲判断手段14は、1文の韻律情報を受けると、上述したように、先頭の音素から順に、音素波形の選択を行う。音素波形の選択にあたっては、上述したように、音素波形選択手段13を活用し、十分なコスト値が得られないときに、第2以降の音声データベースを探索する。探索範囲判断手段14は、1文分の音素波形を決定すると、音素波形を規定するデータベース識別子及び音素波形識別子の組情報の時系列を音素波形接続手段15に送る。
【0046】
音素波形接続手段15は、これを受け、必要な音声データベースにアクセスし、音素波形を取得し、取得した音素波形を接続することで、入力された漢字かな混じりのテキスト文に対応した、連続した音声データを生成して出力する。
【0047】
(A−3)第1の実施形態の効果
第1の実施形態によれば、探索範囲判断手段を設け、第1順位の音声データベースに対する音素波形選択で、十分なコストが得られない場合のみ第2順位以降の音声データベースを探索するようにしたので、計算量を十分抑えた上で、複数の音声データベースを有効に活用できるようになった。
【0048】
ここで、複数の音声データベースの探索順位をユーザが指定できるようにすれば、ユーザに好みに応じた音質を基本としながら、その音質では用意が不十分な音素波形も補間して発音させることができる。
【0049】
(B)第2の実施形態
次に、本発明による音声合成装置及び方法の第2の実施形態を、上述した第1の実施形態との相違点を中心に説明する。
【0050】
第2の実施形態の音声合成装置も機能ブロック図で表すと、上述した第1の実施形態に係る図1のように表すことができる。但し、探索範囲判断手段14や音素波形選択手段13の機能が、第1の実施形態のものと異なっている。
【0051】
上述した第1の実施形態は、韻律情報の各音素に関して、逐次1つの音素波形を選択するものであった。この第2の実施形態は、韻律情報の各音素に関してそれぞれK個(複数)の音素波形候補を選び、韻律情報内の全音素についてK個ずつ選択が完了した後に、境界類似度を考慮して、最終的な選択音素波形列を決定するものである。
【0052】
図5は、第2の実施形態の探索範囲判断手段14の処理を示すフローチャートであり、以下、この図5を参照しながら、第2の実施形態の探索範囲判断手段14の処理を説明する。
【0053】
探索範囲判断手段14は、テキスト解析手段11から韻律情報を受けると、韻律情報における音素の時系列順を表すパラメータiを先頭の音素(図2の例で言えば/h/)を表す1に初期化(i=1)して図5に示す処理を開始する。
【0054】
そしてまず、選択波形候補情報を格納する一時的な記憶領域(以下、この記憶領域も選択波形候補情報と呼ぶ)をリフレッシュする(ステップ201)。第2の実施形態の選択波形候補情報は、音声データベース識別子m0k(kは1〜Kとする)、音素波形識別子n0k及びコスト値C0k(m0k、n0k)でなる組情報をK組有するものである。リフレッシュの際には、探索対象の音声データベースを規定するパラメータmも初期値(m=1)に設定する。
【0055】
選択波形候補情報をリフレッシュした後では、探索範囲判断手段14は、音素波形選択手段13に対して、韻律情報の第i音素に関する情報と、検索対象とする音声データベースの識別子mを送って、音素波形のK個の選択を指示し、音素波形選択手段13から返信されたK組の情報を取り込む(ステップ202)。音素波形選択手段13は、音素波形の選択が指示されると、コスト値が小さい方からK個の音素波形の選択動作を行い、選択したK個の音素波形の識別子(音素識別子)nkと、コスト値Ck(m、n)とを探索範囲判断手段14に返信する。
【0056】
探索範囲判断手段14は、音素波形選択手段13から返信されたK個の情報と、その時点で一時記憶しているK個の候補情報との計2K個の情報から、コスト値が小さい(良好な)K個を選択し(ステップ203)、選択したK個の情報に、選択波形候補情報を更新する(ステップ204)。なお、最初の音声データベースの探索時(m=1のとき)においては、選択波形候補情報として何ら登録されていないので、音素波形選択手段13から返信されたK個の情報がそのまま、選択波形候補情報として登録する(ステップ204)。なお、選択波形候補情報を更新又は登録する際には、コスト値の小さいものからk=1、2、…、Kとインデクシングする。
【0057】
その後、探索範囲判断手段14は、選択波形候補情報としてのK個の音素波形のコスト値の全てが、予め定められた閾値THより小さいか否かを調べる(ステップ205)。第2の実施形態においても、閾値THは、全ての音素(や音韻)に同一の値を設定しておいても良いし、音素(や音韻)毎に変えておくようにしても良い。
【0058】
K個の音素波形のコスト値の全てが予め定められている閾値THより小さければ、現在、選択波形候補情報になっているK個の音素波形対象を選択波形に決定し、各選択波形を規定するパラメータm0k、n0k(k=1〜K)を、第i音素に対応付けて記憶する(ステップ206)。
【0059】
この決定、記憶後においては、探索範囲判断手段14は、選択波形が決定された韻律情報の第i音素が韻律情報の最後の音素でないことを確認した後(ステップ207)、パラメータiを1インクリメントして次の音素を指示するものに切り替えて(ステップ208)、上述したステップ201の選択波形候補情報のリフレッシュ処理に戻る。
【0060】
一方、選択波形候補情報としてのK個の音素波形のコスト値の中に、予め定められた閾値TH以上のものが1個でもあると(ステップ205で否定結果)、探索範囲判断手段14は、パラメータmが最後の値になっているか否か(言い換えると、全ての音声データベースに対する探索を実行したか否か)を判断する(ステップ209)。
【0061】
探索範囲判断手段14は、パラメータmが最後の値になっていなければ、パラメータmを1インクリメントして次の音声データベースを指示するものに更新して(ステップ210)、上述したステップ202の音素波形選択の依頼、受領処理に戻る。
【0062】
全ての音声データベースの探索が終了した場合(ステップ209で肯定結果)には、探索範囲判断手段14は、現在、選択波形候補情報になっているK個の音素波形対象を選択波形に決定し、各選択波形を規定するパラメータm0k、n0k(k=1〜K)を、第i音素に対応付けて記憶し(ステップ206)、その後、選択波形が決定された韻律情報の第i音素が韻律情報の最後の音素でないことを確認し(ステップ207)、パラメータiを1インクリメントして次の音素を指示するものに切り替えて(ステップ208)、上述したステップ201の選択波形候補情報のリフレッシュ処理に戻る。
【0063】
韻律情報の最後の音素について、音素波形の選択を行うと(ステップ207で肯定結果)、探索範囲判断手段14は、最適な音素波形の組み合わせの計算を行う(ステップ211)。この最適組み合わせの計算では、各々の音素(i=1、2、…、I)に対してK個存在する候補波形の組み合わせ(K種類存在する)について、最適なものを一つ定める。予め定められた境界類似度による評価で、最適なものを定める。コスト関数と同様に、隣接音素との滑らかさを図るためのパラメータ(例えば、ピッチ周波数、ケプストラム距離、音素環境など)を利用する。このような評価のための計算方法については、上述した特許文献1に記載されている。
【0064】
第2の実施形態によっても、探索範囲判断手段を設け、第1順位の音声データベースに対する音素波形選択で、十分なコストの候補が得られない場合のみ第2順位以降の音声データベースを探索するようにしたので、計算量を十分抑えた上で、音声データベースを有効に活用できるようになった。
【0065】
(C)第3の実施形態
次に、本発明による音声合成装置及び方法の第3の実施形態を、上述した第1、第2の実施形態との相違点を中心に説明する。
【0066】
第3の実施形態の音声合成装置も機能ブロック図で表すと、上述した第1の実施形態に係る図1のように表すことができる。但し、探索範囲判断手段14や音素波形選択手段13の機能が、第1や第2の実施形態のものと異なっている。第3の実施形態も、第2の実施形態と同様に、一つの音素につきK個の音素波形を一時的に選択する方法をとるが、その具体的な処理で、第2の実施形態と異なっている。
【0067】
図6は、第3の実施形態の探索範囲判断手段14の特徴処理を示すフローチャートである。図6では、第2の実施形態に係る上述した図5のフローチャートにおける、ステップ202〜205の処理部分に対応する処理部分を示しており、ステップ201、202、204〜211の処理は、第2の実施形態と同様である。
【0068】
第3の実施形態では、第i番目の音素について、第2順位以降の音声データベースの探索依頼に対し、音素波形選択手段13から返信されたK個の音素波形情報のうち、そのコスト値が予め定められた閾値THより小さいものJ個(J≦K)を抽出する処理を付加している(ステップ301、302)。この際の閾値THとして、次の順位の音声データベースに対する探索を実行するか否かの判断ステップ205で利用している閾値THと同一のものを用いる。なお、異なる閾値を利用するようにしても良い。
【0069】
これにより、第3の実施形態では、探索範囲判断手段14は、音素波形選択手段13から返信されたK個の内のコストが良好なJ個の情報と、その時点で一時記憶しているK個の候補情報との計K+J個(≦2K個)の情報から、コスト値が小さい(良好な)K個を選択し(ステップ203)、選択したK個の情報に、選択波形候補情報を更新することになる(ステップ204)。
【0070】
第3の実施形態によれば、第2の実施形態の効果に加え、以下の効果を奏することができる。第3の実施形態によれば、第2順位以降の音声データベースの探索依頼に対し、音素波形選択手段13から返信されたK個の情報からコストが良好なものだけを抽出し、抽出したものしか一時選択候補に決定されないようにしたので、第1順位の音声データベースの選択結果を重視することができる。
【0071】
すなわち、第1順位の音声データベースの探索で得られた音素波形情報はコスト値が閾値TH以上であっても一時選択候補に決定され得るが、第2順位以降の音声データベースの探索で得られた音素波形情報はコスト値が閾値THより小さくなければ一時選択候補に決定されず、第1順位の音声データベースの選択結果を重視していることになる。
【0072】
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0073】
上記各実施形態では、漢字かな混じりのテキスト情報をテキスト解析手段11に入力するものを示したが、テキスト情報は漢字かな混じり文に限定されず、例えば、ひらがな又はカタカナだけでなるテキスト情報であっても良い。テキスト情報の音声合成装置への入力方法は、限定されない。例えば、キーボードからの入力や、OCRからの入力だけでなく、他装置からのダウンロードであっても良く、記憶媒体からの読み出しであっても良く、音声認識によるものであっても良い。
【0074】
また、上記各実施形態では、テキスト解析手段11を有する音声合成装置を示したが、装置への入力が韻律情報である音声合成装置であれば、テキスト解析手段が省略されていても良い。
【0075】
さらに、上記実施形態の説明では、ユーザが全ての音声データベースの優先度を指定するものを示したが、ユーザが、基本(第1順位)となる音声データベースだけを指定し、その指定に応じて、システム(装置)が、第2順位以降を自動設定するようにしても良い。例えば、基本データベースに対応付けて他のデータベースの優先度を記述したテーブルを予め設けておいて、第2順位以降を自動設定するようにしても良い。また例えば、所定種類の音素について、基本データベースと他のデータベースとの類似度を算出し、類似度が近いものほど、優先順位を高くするようにして、第2順位以降を自動設定するようにしても良い。
【0076】
さらにまた、上記各実施形態においては、音声データベース群12に用意されている全ての音声データベースが探索対象となっているものを示したが、音声データベース群12に用意されている一部の音声データベースを探索対象とするようにしても良い。探索に供する一部を、ユーザが指定できるようにしても良い。また例えば、ユーザが、基本(第1順位)となる音声データベースだけを指定し、それ以外で探索に供する一部の音声データベースをシステム(装置)が自動決定するものであっても良い。
【0077】
音響情報などのデータ形式などは、最終的に合成音声データを生成できるもので良く、実施形態のものに限定されない。
【0078】
上記実施形態の説明においては、複数の音声データベースが同一装置上に存在するイメージで説明したが、LANなどのネットワークを介して接続されている異なる装置に存在するものであっても良い。
【図面の簡単な説明】
【0079】
【図1】第1の実施形態の音声合成装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の韻律情報の説明図である。
【図3】第1の実施形態の音声データベース群の構成に対する変形例を示す説明図である。
【図4】第1の探索範囲判断手段の処理を示すフローチャートである。
【図5】第2の探索範囲判断手段の処理を示すフローチャートである。
【図6】第3の探索範囲判断手段の特徴処理を示すフローチャートである。
【符号の説明】
【0080】
10…音声合成装置、11…テキスト解析手段、12…音声データベース群、13…音素波形選択手段、14…探索範囲判断手段、15…音素波形接続手段。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013