米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音声合成方法,音声合成装置,およびコンピュータプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−79019(P2007−79019A)
公開日 平成19年3月29日(2007.3.29)
出願番号 特願2005−265778(P2005−265778)
出願日 平成17年9月13日(2005.9.13)
代理人 【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
発明者 兼安 勉
要約 課題
キーワード部分の音声について話者,音量,ピッチ,または話速以外を変更しキーワード部分を強調することが可能な音声合成装置,音声合成方法,およびコンピュータプログラムを提供する。

解決手段
音声合成装置は,韻律予測情報502を生成する韻律予測情報生成部;韻律予測情報とテキスト本文の各記号とを基にして特徴量から尺度へのマッピングで,テキスト本文の各記号の尺度を求める尺度算出部;音韻データベース109からテキスト音韻を選択する音韻選択部104;韻律予測情報とテキスト本文のうちキーワードの各記号とを基にして尺度を求めるキーワード尺度算出部107;音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部107;上記テキスト音韻のうちキーワード部分の音韻を上記キーワード音韻に置き換える音韻置換部107;および音韻を接続する合成部111を備える。
特許請求の範囲
【請求項1】
テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成部と;
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出部と;
収録された音声を構成する1又は2以上の音韻が格納された音韻データベースと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出部により求められた尺度に基づいて前記音韻データベースからテキスト音韻を選択する音韻選択部と;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出部により求められた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と;
前記音韻選択部が選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択部が選択した前記キーワード音韻に置き換える音韻置換部と;
前記音韻を接続し,合成音声を生成する合成部と;
を備えることを特徴とする,音声合成装置。
【請求項2】
前記キーワードが前記テキスト本文中に2つ以上存在する場合,前記キーワード優先音韻選択部は,該テキスト本文の先頭からキーワードが出現する順に,該キーワード各々に優先順位を付与しその優先順に,または該キーワードに付与した重みを優先順位に変換しその優先順に,前記キーワード音韻を選択することを特徴とする,請求項1に記載の音声合成装置。
【請求項3】
前記キーワードが前記テキスト本文中に2つ以上存在する場合,前記キーワード優先音韻選択部は,前記キーワード単位に各々重み付けし該キーワードが出現する順に,該キーワードに重み付けされた値を基にして前記キーワードを構成する各記号の尺度を求めることを特徴とする,請求項1に記載の音声合成装置。
【請求項4】
前記音韻置換部は,前記キーワード優先音韻選択部により前記キーワード音韻が選択されると逐次,前記音韻選択部が選択した前記テキスト音韻のうち該キーワード部分に該当する音韻を該キーワード音韻に,置き換えることを特徴とする,請求項1,2,または3項のいずれかに記載の音声合成装置。
【請求項5】
前記音韻置換部は,前記キーワード優先音韻選択部により求められた尺度と前記音韻選択部により求められた尺度とを比較することにより,前記キーワード音韻に置き換えるか否かを判断することを特徴とする,請求項1又は4に記載の音声合成装置。
【請求項6】
前記音韻置換部は,前記キーワード優先音韻選択部により求められた尺度及び前記音韻選択部により求められた尺度の差分値と,所定の閾値とを比較することを特徴とする,請求項1,4,または5項のいずれかに記載の音声合成装置。
【請求項7】
テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと;
前記音韻を接続し,合成音声を生成する合成音声生成ステップと;
を含むことを特徴とする,音声合成方法。
【請求項8】
テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと;
前記音韻を接続し,合成音声を生成する合成音声生成ステップと;
を含んだ音声合成方法をコンピュータに実行させることを特徴とする,コンピュータプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明はテキスト本文を読み上げるための音声合成にかかり,特にキーワードを音質良く強調する音声合成装置,音声合成方法,およびコンピュータプログラムに関する。
【背景技術】
【0002】
予め録音された人の自然音声等を基にして,PC(パーソナルコンピュータ)に記憶されたテキスト文書を,音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は,品詞単位に分割可能な自然音声が記録されているコーパスに基づいて音声を合成する。
【0003】
音声を合成するために,従来にかかる音声合成装置は,まず,入力されたテキストに対して,例えば,形態素解析,係り受け解析を実行し,音素記号,アクセント記号などに変換する。
【0004】
次に,従来に係る音声合成装置は,音素記号,アクセント記号列,および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の推定を行う。
【0005】
次に,従来に係る音声合成装置は,上記推定された音素持続時間,基本周波数,母音中心のパワーなどに最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときの歪みが最も小さくなる合成単位の組合せを,動的計画法等を用いて選択する。なお,この際に行われる単位選択では,知覚的特徴に一致した尺度を用いる。
【0006】
上記合成単位の組合せが選択されると,従来に係る音声合成装置は,当該選択された音素片の組合せに従って,音素片の接続を行うことにより音声を合成する。
【0007】
また,従来に係る音声合成装置には,文書中の重要な個所,文書作成者が読み手に特に伝えたい個所を強調して読み上げることが可能な音声合成装置が存在する(例えば,特許文献1,参照)。
【0008】
【特許文献1】特開平10−274999号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら,従来に係る音声合成装置では,入力したテキスト本文全体からコストを求め,キーワード部分の音声について話者,音量,ピッチ,または話速のいずれかを変更することで当該キーワードを強調していたが,それ以外を変更してキーワード部分を強調する音声合成装置は存在しなかった。
【0010】
また,従来に係る音声合成装置では,入力したテキスト本文全体からコストを求め,キーワード部分の話者,音量,ピッチ,または話速のいずれかを変更し,キーワードを強調していたため,強調されたキーワード部分の音質を向上するのは困難であった。
【0011】
本発明は,上記問題点に鑑みてなされたものであり,本発明の目的は,キーワード部分の音声について話者,音量,ピッチ,または話速以外を変更し,キーワード部分を強調することが可能な,新規かつ改良された音声合成装置,音声合成方法,およびコンピュータプログラムを提供することである。
【課題を解決するための手段】
【0012】
上記課題を解決するため,本発明の第1の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号(又は,各音韻記号)の特徴量を予測した韻律予測情報を生成する韻律予測情報生成部と;上記韻律予測情報とテキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出部と;複数の音声が収録され,その音声を構成する音韻が格納された音韻データベースと;上記テキスト本文を構成する各記号ごとに,尺度算出部により求められた尺度に基づいて音韻データベースからテキスト音韻を選択する音韻選択部と;韻律予測情報とテキスト本文のうちキーワードを構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と;キーワードを構成する各記号ごとに,キーワード尺度算出部により求められたキーワードを構成する各記号の尺度に基づいて音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と;上記音韻選択部が選択したテキスト音韻のうちキーワード部分に該当する音韻をキーワード優先音韻選択部が選択したキーワード音韻に置き換える音韻置換部と;音韻を接続し,合成音声を生成する合成部と;を備えることを特徴とした音声合成装置が提供される。
【0013】
本発明によれば,音声合成装置に備わる音韻選択部がテキスト音韻を選択し,キーワード優先音韻選択部がキーワード音韻を選択し,音韻置換部がテキスト音韻のうち該当する部分をキーワード音韻に置き換える。かかる構成によれば,音韻選択部がテキスト音韻を選択するのとは別途独立して,キーワード尺度算出部がキーワードを構成する各記号と韻律予測情報とを基に尺度を計算し,その尺度からキーワード優先音韻選択部がキーワード音韻を選択する。したがって,キーワード部分に対象範囲を限定して尺度が求められ音韻が選択されるためキーワード部分の合成音声の自然性が高まり,さらにキーワード部分の合成音声が明瞭となるため当該キーワード部分が強調される。
【0014】
なお,上記テキスト音韻は,例えば,テキスト本文に構成する各記号ごとに選択された音韻である。上記キーワード音韻は,例えば,テキスト本文中のキーワードを構成する各記号ごとに選択された音韻である。
【0015】
また,本発明にかかる尺度算出部と音韻選択部とは,別体として構成されるが,かかる例に限定されず,例えば,尺度算出部と音韻選択部とが一体として構成される場合でもよい。
【0016】
また,本発明にかかるキーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とは,別体として構成されるが,かかる例に限定されず,例えば,キーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とが一体として構成される場合でもよい。
【0017】
また,上記特徴量は,例えば,音響的な尺度,物理量,言語情報などであり,当該物理量は,例えば,スペクトル,メルケプストラム,ピッチ,音の長さ等であるが,かかる例に限定されない。上記知覚評価量(心理量)は,例えば,局所コスト(又は,局所的な尺度,サブコスト)であるが,かかる例に限定されない。上記特徴量から心理量へのマッピングは,例えば,コスト関数が用いられるが,かかる例に限定されない。
【0018】
上記キーワードが上記テキスト本文中に2つ以上存在する場合,上記キーワード優先音韻選択部は,該テキスト本文の先頭からキーワードが出現する順に,該キーワード各々に優先順位を付与しその優先順に,または該キーワードに付与した重みを優先順位に変換しその優先順に,上記キーワード音韻を選択するように構成してもよい。
【0019】
上記キーワードが上記テキスト本文中に2つ以上存在する場合,上記キーワード優先音韻選択部は,上記キーワード単位に各々重み付けし該キーワードが出現する順に,該キーワードに重み付けされた値を基にして上記キーワードを構成する各記号の尺度を求めるように構成してもよい。
【0020】
上記音韻置換部は,上記キーワード優先音韻選択部により上記キーワード音韻が選択されると逐次,上記音韻選択部が選択した上記テキスト音韻のうち該キーワード部分に該当する音韻を該キーワード音韻に,置き換えるように構成してもよい。
【0021】
上記音韻置換部は,上記キーワード優先音韻選択部により求められた尺度と上記音韻選択部により求められた尺度とを比較することにより,上記キーワード音韻に置き換えるか否かを判断するように構成してもよい。
【0022】
上記音韻置換部は,上記キーワード優先音韻選択部により求められた尺度及び上記音韻選択部により求められた尺度の差分値と,所定の閾値とを大小比較するようにしてもよい。
【0023】
上記課題を解決するために,本発明の別の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;上記テキスト本文を構成する各記号ごとに,上記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;上記キーワードを構成する各記号ごとに,上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと;上記音韻を接続し,合成音声を生成する合成音声生成ステップとを含むことを特徴とする,音声合成方法が提供される。
【0024】
また,上記課題を解決するために,本発明の別の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;上記テキスト本文を構成する各記号ごとに,上記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;上記キーワードを構成する各記号ごとに,上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと;上記音韻を接続し,合成音声を生成する合成音声生成ステップとを含んだ音声合成方法をコンピュータに実行させることを特徴とする,コンピュータプログラムが提供される。
【0025】
上記課題を解決するために,本発明の別の観点によれば,漢字仮名文字で表現されたテキスト本文を韻律予測情報に変換し,上記韻律予測情報に応じて,各音韻単位で,最適な音韻の候補を,観測可能な特徴量から,心理量へマッピングを行ったコスト関数を用いた,コスト計算(又は,尺度計算)により,収録音声が保持されるコーパス(音韻データベース)から選択,決定し,選択した音韻に対応する波形セグメント(波形データ)を接続することで,合成波形を得る音声合成装置において,予め定めた特定語(キーワード)に対して,独立にコスト再計算を行うことで,最適な音韻の候補を再決定する,キーワード優先音韻選択部を備えた音声合成装置が提供される。
【0026】
上記キーワード優先音韻選択部において,予め定めた特定語(キーワード)に対して,独立に行ったコスト再計算の結果,各特定語(キーワード)部分の,合成音の自然性の高さを示す,コスト値を比較することで,音韻候補の組合せを選択するように構成してもよい。
【0027】
上記キーワード優先音韻選択部において,予め定めた特定語(キーワード)が2つ以上存在する際,テキスト本文の先頭から,特定語(キーワード)が出現する順に,キーワード優先音韻選択部を作用させる,あるいは,複数の特定語(キーワード)に優先順位を付与し,優先順に,キーワード優先音韻選択部を作用させる,あるいは,複数の特定語(キーワード)に重みを付与し,特定語(キーワード)が出現する順に,重み付きコスト再計算を行う,あるいは,複数の特定語(キーワード)に付与した重みを,優先順位に変換し,優先順に,キーワード優先音韻選択部を作用させるようにしてもよい。
【0028】
上記キーワード優先音韻選択部において,初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,特定語(キーワード)が出現する順に,あるいは,優先順に,あるいは,重みを付与してコスト再計算したコスト値を比較した結果から生じる順に,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるようにしてもよい。
【0029】
上記キーワード優先音韻選択部において,初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるかどうかを判断する手段を追加した,キーワード優先音韻選択部を備えるように構成してもよい。
【0030】
上記初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるかどうかを判断する手段を追加した,キーワード優先音韻選択部において,漢字仮名文字で表現された,テキスト本文中の特定語(キーワード)部分に対して,初回に,テキスト文全体の音韻候補を選択する際に求めた特定語(キーワード)部分のコスト(又は,尺度)を取得し,キーワード優先音韻選択部を作用させることで求めたコスト値との大小を判定し,置き換えの必要の際は,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるように構成してもよい。
【発明の効果】
【0031】
以上説明したように,本発明によれば,テキスト本文を構成する各記号の尺度を求めてテキスト音韻を選択するのとは独立して,テキスト本文内のキーワードを構成する各記号の尺度を別途に求めてキーワード音韻を選択し,上記テキスト音韻のキーワード部分の音韻をキーワード音韻に置換することで,キーワード部分を明瞭に強調することができる。
【発明を実施するための最良の形態】
【0032】
以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。
【0033】
(音声合成装置について)
まず,図1を参照しながら,第1の実施の形態にかかる音声合成装置100について説明する。なお,図1は,第1の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。
【0034】
図1に示すように,音声合成装置100は,テキスト解析部101と,韻律予測部103と,音韻選択部104と,キーワード優先音韻選択部(又は,音韻置換部)107と,コーパス(又は,音韻データベース)109と,音韻接続部111とを備えている。
【0035】
なお,本実施の形態にかかるテキスト解析部101と韻律予測部103とは別体である場合を例に挙げて説明するが,かかる例に限定されず,例えば,テキスト解析部101と韻律予測部103が,韻律予測情報生成部として一体に構成される場合等でも実施可能である。
【0036】
上記テキスト解析部101は,図1に示すように,漢字仮名文字で表現されたテキスト本文を,音韻記号に変換する。なお,音韻とは,例えば,音素記号で表されるような分節可能な単位を示すが,かかる例に限定されない。
【0037】
より具体的には,上記テキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対して,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
【0038】
上記韻律予測部103は,テキスト解析部101により変換されたテキスト本文の音韻記号と,テキスト解析部101から出力されるアクセント記号列と,上記テキスト解析部101による形態素解析結果から得られるテキスト本文の品詞情報とを用いて,ピッチ(声の高さ:基本周波数F)と,音韻継続時間長(声の長さ)と,波形の成分を表現するメルケプストラムとを予測する。また,メルケプストラム等の詳細については,例えば,特開2003−208188に記載されている。
【0039】
上記音韻選択部104は,韻律予測部103で予測した上記ピッチと上記音韻継続時間長とメルケプストラムとを,音韻選択処理のパラメータとして,コーパス109から音韻を選択する。なお,コーパス109は,例えば,話者やピッチ等が異なる音声を複数収録し,その収録された音声を構成する1又は2以上の音韻が少なくとも格納された音韻データベースであって,ハードディスクドライブ(HDD)等の記憶手段に記憶されている。
【0040】
上記音韻を選択する処理では,上記音韻選択部104は,知覚的特性に一致した尺度(以下,コスト)を使用する。また,観測可能な特徴量(物理量など)から,知覚実験に基づいて定められるコスト(又は,知覚評価量(心理量))にマッピングを行ったコスト関数は,例えば,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻の適合性に関するサブコストとの重み付けされた5つのサブコスト関数を足し合わせた,関数として構成される(なお,詳細については,例えば,特開2003−208188,参照)。
【0041】
なお,上記特徴量は,例えば,音響的な尺度,物理量,言語情報などであり,当該物理量は,例えば,スペクトル,メルケプストラム,ピッチ,音の長さ,リズム(音の高低など)等であるが,かかる例に限定されない。上記心理量は,例えば,局所コスト(又は,局所的な尺度,サブコスト)であるが,かかる例に限定されない。上記特徴量から心理量へのマッピングは,例えば,コスト関数が用いられる。なお,上記コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高くなる傾向がある。
【0042】
また,本実施形態に係るコスト関数は,聴覚上の印象を反映する必要があるため,知覚実験に基づいて定められる。上記知覚実験が行われるのは,物理量がどれくらい変化したら,音質が劣化するのか把握するのが困難なためである。知覚実験は,例えば,被験者がテキストを読み上げた合成音声を聞き,その自然性を5段階(例えば,1段階「不自然」〜5段階「自然音声と遜色なし」)で評価するが,かかる例に限定されない。
【0043】
上記音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(以下,ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
【0044】
図4に示すように,音韻選択部104は,ターゲット選択で求めた音韻候補をもとに,テキスト本文の開始位置(例えば,図4に示す本文開始)から,テキスト本文の終了位置(例えば,図4に示す本文終了)まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,図4は,本実施の形態にかかる音韻選択処理の概略の一例を示す説明図である。
【0045】
図4に示すように,まず最上段に図示された本文開始から本文終了までの音韻記号(又は,記号)の列は,例えば,テキスト解析部101により出力された音韻記号の列であり,図4の最上段から一段下の段に図示された音韻記号の列は,例えば,音韻選択部104によりコストが求められコーパス109から選択された音韻(又は,テキスト音韻)の列であり,それから一段下の段に図示された列は,キーワード優先音韻選択部107によりキーワード部分についてコストが求められコーパス109から選択された音韻(又は,キーワード音韻)の列であり,図4の最下段の列は,例えば,音韻選択部104により選択された音韻(図4の最上段から2段目の音韻)のうちキーワード部分の音韻が,キーワード優先音韻選択部107により選択された音韻に置換された音韻の列である。
【0046】
なお,従来にかかる音韻選択部では,例えば,特開2001−100775に記載されているように,音素ラベルに対応した音声波形信号の音声セグメントのデータからなる音声波形データベースを記憶しておき,音声波形信号の音声セグメントを連結することによって任意の音素列をつなぎ合わせて音声合成するに際して,音韻選択部は,音声波形データベースに含まれる1対の音素のリストを生成し,その音素リストに基づいて書く1対の音素のリストを生成し,その音素リストに基づいて書く1対の音素に対する韻律的特徴パラメータと音響的特徴パラメータとに関する類似度を計算し,その類似度が所定のしきい値以上であるとき,その各1対の音素のうちの一方の1対の音素に係る音声波形信号の音声セグメントのデータを音声波形データベースから削除して音声データ量を削減していた。
【0047】
音声合成装置100の特徴部分である上記キーワード優先音韻選択部107は,韻律予測部103で予測したピッチと,音韻継続時間長と,メルケプストラムとを,音韻選択処理のパラメータとして,コーパス109から音韻を選択する。
【0048】
上記キーワード優先音韻選択部107による音韻を選択する処理では,知覚的特性に一致した尺度(又は,コスト)を使用する。観測可能な特徴量から,心理量にマッピングを行ったコスト関数は,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻の適合性に関するサブコストとの重み付けされた5つのサブコスト関数を足し合わせた,関数として構成される。なお,詳細については,例えば,特開2003−208188等に記載されている。
【0049】
上記キーワード優先音韻選択部107は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,3つのサブコスト値を足し合わせた最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
【0050】
図4に示すように,キーワード優先音韻選択部107は,ターゲット選択で求めた音韻候補をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置(例えば,図4に示すキーワード開始)からキーワード終了位置(例えば,図4に示すキーワード終了)までの範囲における,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,各々足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。
【0051】
なお,上記キーワード開始位置と,キーワード終了位置は,例えば,テキスト本文の開始位置からの音韻数で指定する。例えば,図4に示すように,キーワード(又は,キーワード音韻列)を“aoki”とした場合,キーワード開始位置の“a”は,テキスト本文の開始位置“h”からの音韻数で指定することができる。順に“o”,“k”,“i”についても同様に音韻数を指定することができる。
【0052】
また,キーワード位置の指定方法としては,テキスト本文中のキーワード部分に対してタグ付けする方法と,テキスト本文を一旦テキスト解析し,テキスト本文の音韻列をユーザに表示し,ユーザがキーワード部分をテキスト本文中から指定する方法と,複数のキーワードをあらかじめ保持し,ユーザが上記複数のキーワードの中からキーワードを選択し,選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。
【0053】
また,図4に示すように,キーワードが2つ以上存在する場合,キーワード優先音韻選択部107によるキーワード部分に関するコスト値の計算は,例えば,図4に示す本文開始から本文終了に向けて,キーワードの出現順に行われるが,かかる例に限定されず,例えば,上記キーワード部分に関するコスト値の計算は,複数のキーワードに優先順位を付与し,その優先順に従い,コスト値の計算を行う場合,あるいは,複数のキーワードに重みを付与し,キーワードが出現する順に,重み付きコスト再計算を行う場合,あるいは,複数のキーワードに付与した重みを,優先順位に変換し,優先順に従って,コスト値の計算を行う場合等でも実施可能である。
【0054】
上記キーワード優先音韻選択部107は,テキスト本文全体で選択した音韻候補の組合せのうちのキーワード部分に対して,キーワードが出現する順に,優先順に,若しくはキーワードが出現する順に,重みとコスト値とを乗算した重み付きコスト値を求める。
【0055】
次に,上記キーワード優先音韻選択部107は,上記求めた重み付きコスト値各々を比較し,重み付きコスト値の小さい順に,キーワード優先音韻選択した音韻候補の組合せに,置き換える。
【0056】
上記音韻接続部(又は,合成部)111は,例えば,選択された音韻(又は,波形セグメント)を,テキスト本文の開始位置から順に,相互相関法と,補間法とを用いて接続し,合成音声(又は,合成波形)を生成する。当該合成音声が外部に出力されると,利用者はテキスト本文を耳で聞くことができる。
【0057】
なお,音声合成装置100は,テキスト本文とキーワードを基にして合成音声を出力することが可能な装置であって,その合成音声を出力することで,テキスト本文を音声にして読み上げることが可能な装置である。より具体的には,音声合成装置100は,例えば,CPU,メモリ,HDD(ハードディスクドライブ),マウス等に相当する入力部(図示せず。),液晶ディスプレイ等に相当する表示部(図示せず。)などを備えたPC等を例示することができるが,かかる例に限定されない。
【0058】
なお,本実施の形態にかかる音声合成装置100に備わる表示部は,CPUにより表示可能なように処理された表示画面データと音声データを出力する。また,表示部は,例えば,TV又は液晶ディスプレイ装置などが例示され,上記双方ともにスピーカーを備えて,静止画像のほか,音声,又は動画像などを出力することが可能である。
【0059】
上記入力部は,例えば,使用者から操作指示を受けることが可能なマウス,トラックボール,トラックパッド,スタイラスペン,タッチパネル,またはジョイスティックなどのポインティングデバイスや,キーボード,ボタン,スイッチ,レバー等の操作手段と,入力信号を生成してCPUに出力する入力制御回路などから構成されている。
【0060】
音声合成装置100のユーザは,この入力部を操作することにより,音声合成装置100に対して各種のデータを入力したり,キーワードを選択したり,合成音声出力など各種の処理動作を指示したりすることができる。
【0061】
なお,従来に係る音声合成装置は,例えば,特開平10−049193に記載されているように,音声セグメントを記憶する手段と,韻律的特徴パラメータ等を抽出して出力する手段と,韻律的特徴パラメータ等を記憶する手段と,音響的特徴パラメータにおける寄与度を表す重み係数ベクトルを決定する手段と,重み係数ベクトルを記憶する手段と,入力される自然発話文の音素列に対して,目標コストと連結コストとを含むコストが最小となる音素候補の組合せを検索して索引情報を出力する音声単位選択手段と,入力された音声を合成して出力する手段とを備えていた。
【0062】
また,従来に係る音声合成装置をさらに音質が良くなるように改良した従来に係る音声合成装置は,例えば,特開平2003−208188に記載されているように,言語処理部と,韻律パターン生成部と,音素単位選択部と,波形辞書と,音声波形生成部とを備え,上記言語処理部では,形態素解析,係り受け解析が行われ,テキストから,音素記号,アクセント記号等に変換する。上記韻律パターン生成部では,音素記号,アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さF),母音中心のパワー(声の大きさ)等の推定を行う。さらに上記音素単位選択部では,物理量と,知覚実験結果から直接求められる心理量とを用いた,コスト関数を使用する。コスト関数は,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻(又は,音素)の適合性に関するサブコストとの,5つのサブコスト関数から構成される。
【0063】
また,従来にかかるテキストを読み上げる音声合成装置は,特開平10−274999に記載されているように,例えば,テキスト全体からキーワードのコストを求め,音声の話者,音量,音程および話速のうちから任意選択された少なくとも1つを変えることにより,キーワード部分に対する出力音声とその他の部分に対する出力音声とが識別されるように音声信号を生成している。
【0064】
(音声合成方法について)
図2に示すように,まず,利用者によって入力部が操作されると,例えば,強調させたい1又は2以上のキーワードを含んだテキスト本文と,その強調させたいキーワードの開始位置及びキーワードの終了位置とが入力される(S201)。なお,かかる例に限定されず,例えば,利用者は,キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。
【0065】
なお,上記ステップS201において入力されるキーワードの開始位置とキーワードの終了位置とは,例えば,テキスト本文の開始位置からの音韻数に基づいて指定されるが,かかる例に限定されない。
【0066】
上記ステップS201において,利用者により指定された強調させたい1又は2以上のキーワードを含んだテキスト本文は,図1に示すテキスト解析部101に入力する。
【0067】
図2に示すように,テキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対してテキスト解析し,音韻記号に変換する(S203)。
【0068】
テキスト解析部101は,上記テキスト本文に対してテキスト解析を行うが,そのテキスト解析は,例えば,形態素解析,係り受け解析などを例示できる。テキスト解析部101は,上記テキスト本文に対し形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
【0069】
なお,第1の実施の形態にかかる音声合成方法では,テキスト本文に対して,テキスト本文から変換された音韻記号と,上記形態素解析結果との情報を持つ出力結果を,例えば,図2に示すように,テキスト本文中間言語とするが,かかる例に限定されない。
【0070】
ここで,テキスト本文が変換された音韻記号501(図3Aに示すテキスト本文音韻記号)は,例えば,図3Aに示すように,「hajime…oki…」となる。
【0071】
次に,テキスト解析部101により出力されたテキスト本文中間言語は,図1に示す韻律予測部103に入力する。
【0072】
図2に示すように,韻律予測部103は,ピッチ(声の高さ,基本周波数F),音韻継続時間長(声の長さ)と,基本周波数(声の高さF)と,波形の成分を表現するメルケプストラムとを,予測する(S207)。
【0073】
上記ステップS207で韻律予測部103によりピッチ,音韻継続時間長,基本周波数,メルケプストラムとが予測されると,それらの予測した情報を持つ韻律予測情報は,音韻選択部104に入力する。
【0074】
なお,上記韻律予測情報は,例えば,上記ピッチ,音韻継続時間長,基本周波数,またはメルケプストラム等で各音韻記号の特徴量を予測する情報であるが,かかる例に限定されない。
【0075】
ここで,上記韻律予測情報を説明するために,図3Aを参照すると,韻律予測情報502は,音韻記号501毎(図3Aに示す韻律予測情報502の縦方向に図示された“hajime…oki…”の音韻記号毎)に,音韻の開始時間を表す“start”と,音韻の継続時間長を表す“duration”と,音韻の1又は2以上のピッチを表す“pitch”と,音韻の1又は2以上のメルケプストラムを表す“Mel cep”とから少なくとも構成される。
【0076】
図2に示すように,音韻選択部104は,テキスト本文の本文開始位置から,本文終了位置まで,コーパス109を用いて,最適な音韻を選択する(S214)。
【0077】
より具体的にステップS214について説明すると,音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる音韻を候補としてターゲット選択する。
【0078】
図4に示すように,音韻選択部104では,ターゲット選択で求めた音韻候補をもとに,テキスト本文の本文開始位置から,テキスト本文の本文終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高いものとしているが,かかる例に限定されない。
【0079】
上記音韻選択部104によりテキスト本文全体の音韻選択が完了すると(S214),次に,キーワード部分の最適な音韻を選択するために,キーワード優先音韻選択部107による処理に移行する(S216,S219)。
【0080】
ここで,図3Aを参照すると,図3Aに示すテキスト本文全体の音韻候補の組合せ503には,テキスト本文音韻記号501(図3Aで示す例では,“hajime…oki…”)の各音韻記号に対応する音韻が,コーパス109内に存在するどの音声ファイルで,先頭から何番目に位置する音韻であるかを示す情報が記述されている。テキスト本文全体の音韻候補の組合せ503に記述されている情報は,例えば,「音韻記号“h”に対応する音韻は1音声ファイルの先頭から3番目の位置に存在する音韻である」,ことを示している。
【0081】
さらに,図3Bに示すように,キーワード優先音韻選択処理部107には,韻律予測情報502と,音韻選択部104から出力されるテキスト本文全体の音韻候補の組合せ503と,ユーザが指定するキーワード位置とが,入力される。
【0082】
図2に示すように,キーワード優先音韻選択部107は,まず,テキスト本文内の最後に出現するキーワードであるかどうかを判定する(S216)。なお,後述する図5に示すステップS501の処理と上記ステップS216の処理とは,実質的に同一である。
【0083】
キーワード優先音韻選択部107は,テキスト本文の本文開始位置から出現するキーワードの順に,あるいは,テキスト本文のキーワードに付与された優先順位を基にして優先順に,あるいは,テキスト本文中の1又は2以上のキーワードに付与された重みを優先順位に変換し優先順に,キーワード優先音韻選択処理を行う。そのためには,最後のキーワードであるかどうか図2に示すステップS216で判定する必要がある。
【0084】
上記ステップS216で判定した結果,最後のキーワードでない場合,図2に示すキーワード優先音韻選択処理が行われる。
【0085】
一方,上記ステップS216で判定した結果,最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,図1に示す音韻接続部111に処理が移行する。
【0086】
次に,図2に示すように,キーワード優先音韻選択部107は,テキスト本文内のキーワード部分から,コーパス109を用いて,最適な音韻を選択する(S219)。
【0087】
ここで,図5を参照しながら,上記キーワード優先音韻選択部107によるキーワード優先音韻選択処理(S219)について説明する。図5は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【0088】
図2に示すキーワード優先音韻選択処理(S219)は,図5に示すように,最後のキーワードか否かを確認する処理(S501)と,キーワードに対してターゲット選択を行う処理(S505)と,キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理(S509)と,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S513)とが含まれている。
【0089】
上記キーワードに対してターゲット選択を行う処理(S505)では,キーワード部分の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
【0090】
上記キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理(S509)では,図4に示すように,ターゲット選択で求めた音韻候補をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置から,キーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。
【0091】
キーワード開始位置,キーワード終了位置は,例えば,テキスト本文の本文開始位置からカウントした音韻数によって指定されるが,かかる例に限定されず,例えば,本文終了位置からカウントした音韻数によって指定される場合等でもよい。
【0092】
上記キーワード位置の指定方法としては,例えば,テキスト本文中のキーワード部分に対してタグ付けする方法,テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法,または1又は2以上のキーワードをあらかじめ保持しユーザがキーワードを選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがあるが,かかる例に限定されない。
【0093】
図4に示すように,キーワード音韻候補が2つ以上存在する場合,キーワード部分に関するコスト値の計算は,例えば,テキスト本文の本文開始位置から本文終了位置に向けて,キーワードの出現順に行われる。
【0094】
なお,本実施の形態にかかる上記キーワード部分に関するコスト値の計算は,本文開始位置から本文終了位置に向けてキーワードの出現順に行う場合に限定されず,例えば,キーワード部分に関するコスト値の計算は,複数のキーワードに優先順位を付与し,優先順に行われる場合等でも実施可能である。
【0095】
図5に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S513)では,上記図3Aのテキスト本文全体の音韻候補の組合せ503のように,テキスト本文全体で選択した音韻候補の組合せの,キーワード部分に対して,キーワードが出現する順で,あるいは,優先順で,キーワード優先音韻選択した音韻候補の組合せに,置き換える。なお,図5に示すようにステップS513は,図2に示すステップS214の音韻選択処理が行われる度に,逐次的に実行され,音韻の置換が行われる。
【0096】
キーワード部分の音韻候補の組合せの置き換えが完了した後(S513),図2に示すステップS216と実質的に同一のステップS501に処理が移行し,最後のキーワードになるまで繰り返して処理が行われる(S505〜S513)。
【0097】
さらに,図6を参照しながら,第1の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図6は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【0098】
図6に示すように,キーワード優先音韻選択処理は,最後のキーワードであるか否かを判定する処理(S502)と,キーワードに対してターゲット選択を行う処理(S505)と,コスト値が最小となる音韻候補の組合せを設定し,重み付けコスト値を求める処理(S510)と,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)とを含んでいる。
【0099】
図6に示すように,キーワードに対して,コスト値が最小となる音韻候補の組合せを設定し,コスト値と重みを乗算した重み付きコスト値を求める処理(S510)では,上記説明したようにキーワードに対してコスト値が最小となる音韻候補の組合せを設定する。さらに,キーワード部分に関するコスト値の計算(S510)では,1又は2以上のキーワードに重みを付与し,キーワードが出現する順に,重みとコスト値とを乗算する処理が行われる。あるいは,キーワード部分に関するコスト値の計算(S510)では,1又は2以上のキーワードに付与した重みを,優先順位に変換し,優先順に行われる。
【0100】
次に,図6に示すように,最後のキーワードであるか否かを判定し,判定した結果最後のキーワードである場合(S502),図6の重み付きコスト値の小さい値をもつキーワード順に,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)に処理が移行する。
【0101】
図6に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)では,テキスト本文全体で選択した音韻候補の組合せの,キーワードが出現する順に,重みとコスト値とを乗算した重み付きコスト値を求め,各々を比較し,重み付きコスト値の小さい順で,キーワード優先音韻選択した音韻候補の組合せに,置き換える。
【0102】
キーワード部分の音韻候補の組合せの置き換えが完了した後(S521),図1に示す音韻接続部111が実行する処理に移行する。
【0103】
再び図2に戻ると,図2に示すように,音韻接続部111によって実行される波形セグメントを接続する処理(S223)は,現在取り扱っている波形セグメントと,次の波形セグメントとを接続する。
【0104】
音韻接続部111によって,全ての波形セグメントの接続が完了すると(S223),図2に示すように,音韻接続部111によって接続された波形セグメントは,合成音(又は,合成音声)として出力される(S225)。上記合成音がスピーカ等の出力部から出力されることによって,音声合成装置100は,テキスト本文のうちキーワード部分を強調しながら読上げることができる。
【0105】
以上で,第1の実施の形態にかかる音声合成装置100による音声合成方法の一連の処理について説明を終了するが,かかる音声合成方法によって以下に示すような優れた効果が存在する。
(1)テキスト本文中の強調させたいキーワード位置を予め利用者(ユーザ)が音声合成装置100に対して指定することで,音声合成装置100はキーワード部分に対する読上げに関して自然性が高い読上げ(自然な読上げ)をすることができ,出力される合成音の音質が良い上,キーワードの読上げが強調される。
【0106】
(第2の実施の形態について)
次に,図7を参照しながら,第2の実施の形態にかかる音声合成方法について説明する。なお,以下説明する第2の実施の形態にかかる音声合成方法では,上記説明した第1の実施の形態にかかる音声合成方法と相違する点について詳細に説明し,その他の点については略同一であるとして説明は省略する。
【0107】
図7は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第2の実施の形態にかかる音声合成方法では,図2に示す第1の実施の形態にかかる音声合成方法のうちのキーワード優先音韻選択処理が改良されている点で,異なる。以下,図7を参照しながら説明するが,図7に示す第2の実施の形態にかかるキーワード優先音韻選択処理では,ステップS511等に示すように,キーワードに対するコスト値をCkeyとする。
【0108】
図7のステップS515に示すように,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
【0109】
図7に示すキーワード優先音韻選択処理では,ステップS517に示すように,キーワードに対するコスト値をCkeyと,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値Corigとの差分をとり,その差分値と閾値(Threshold)に対する大小を判定する。なお,本実施の形態に係る閾値は音声合成方法の使用環境などに応じて適宜変更することが可能である。
【0110】
(音声合成方法について)
図2に示すように,第2の実施の形態にかかる音声合成方法では,まず,第1の実施の形態にかかる音声合成方法と同様に,例えば,強調させたい1又は2以上のキーワードを含んだテキスト本文と,その強調させたいキーワードの開始位置と,キーワードの終了位置とを,利用者が入力する(S201)。なお,かかる例に限定されず,例えば,利用者は,キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。
【0111】
なお,上記ステップS201において入力されるキーワードの開始位置とキーワードの終了位置とは,例えば,テキスト本文の開始位置からの音韻数に基づいて指定されるが,かかる例に限定されない。
【0112】
上記ステップS201において,利用者により指定された強調させたい1又は2以上のキーワードを含んだテキスト本文は,図1に示すテキスト解析部101に入力する。
【0113】
次に,第2の実施の形態にかかる音声合成方法では,図2に示すようにテキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対してテキスト解析し,音韻記号に変換する(S203)。
【0114】
テキスト解析部101は,上記漢字仮名文字などで表現されたテキスト本文に対し,例えば,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
【0115】
なお,第2の実施の形態にかかる音声合成方法では,テキスト本文に対して,テキスト本文から変換された音韻記号と,上記形態素解析結果との情報を持つ出力結果を,例えば,テキスト本文中間言語とするが,かかる例に限定されない。
【0116】
ここで,第1の実施の形態にかかる音声合成方法においても説明したが,テキスト本文が変換された音韻記号501(図3Aに示すテキスト本文音韻記号)は,例えば,図3Aに示すように,「hajime…oki…」となる。
【0117】
次に,テキスト解析部101により出力されたテキスト本文中間言語は,図1に示す韻律予測部103に入力する。
【0118】
図2に示すように,韻律予測部103は,ピッチ(声の高さ,基本周波数F),音韻継続時間長(声の長さ)と,基本周波数(声の高さF)と,波形の成分を表現するメルケプストラムとを,予測する(S207)。
【0119】
上記韻律予測部103により予測(S207)した情報(例えば,ピッチ,音韻継続時間長,基本周波数,メルケプストラム)を持つ韻律予測情報を,音韻選択部104に入力する。
【0120】
ここで,第1の実施の形態にかかる音声合成方法でも説明したが,図3Aを参照すると,韻律予測情報502は,音韻記号501の音韻記号毎(図3Aに示す韻律予測情報502の縦方向に図示された“hajime…oki…”の音韻記号毎)に,音韻の開始時間を表す“start”と,音韻の継続時間長を表す“duration”と,音韻の1又は2以上のピッチを表す“pitch”と,音韻の1又は2以上のメルケプストラムを表す“Mel cep”とから少なくとも構成される。
【0121】
図2に示すように,音韻選択部104は,テキスト本文の本文開始位置から,本文終了位置まで,コーパス109を用いて,最適な音韻を選択する(S214)。
【0122】
上記ステップS214について,第1の実施形態でも説明したが,より具体的に説明すると,音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内(例えば,ターゲットコスト値に±5を加算した値の範囲内)に含まれる,音韻を候補としてターゲット選択する。
【0123】
図4に示すように,音韻選択部104では,ターゲット選択で求めた音韻候補をもとに,テキスト本文の本文開始位置からテキスト本文の本文終了位置までの範囲について,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高くなる傾向がある。
【0124】
上記テキスト本文全体の音韻選択が完了すると(S214),次に,キーワード部分の最適な音韻を選択するために,キーワード優先音韻選択部107による処理に移行する(S216,S219)。
【0125】
図3Aに示すように,テキスト本文全体の音韻候補の組合せ503には,テキスト本文音韻記号501(図3Aで示す例では,“hajime…oki…”)の各音韻記号に対応する音韻が,コーパス109内に存在するどの音声ファイルで,先頭から何番目に位置する音韻であるかを示す情報が記述されている。
【0126】
さらに,図3Bに示すように,キーワード優先音韻選択処理部107には,韻律予測情報502と,音韻選択部104から出力されるテキスト本文全体の音韻候補の組合せ503と,ユーザが指定するキーワード位置とが,入力される。
【0127】
図2に示すように,キーワード優先音韻選択部107は,第1の実施の形態でも説明したが,テキスト本文内の最後に出現するキーワードであるかどうかを判定する(S216)。
【0128】
キーワード優先音韻選択部107は,テキスト本文の本文開始位置から出現するキーワード順に処理を行う,あるいは,テキスト本文のキーワードに付与された優先順位をもとに優先順に処理を行う,あるいは,テキスト本文中の1又は2以上のキーワードに付与された重みを優先順位に変換し優先順に処理を行う必要がある。そのためには,最後のキーワードであるかどうか図2に示すステップS216で判定する必要がある。
【0129】
上記ステップS216で判定した結果,最後のキーワードでない場合,図2に示すキーワード優先音韻選択処理が行われる。
【0130】
一方,上記ステップS216で判定した結果,最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,図1に示す音韻接続部111に処理が移行する。
【0131】
次に,図2に示すように,キーワード優先音韻選択処理(S219)は,テキスト本文内のキーワード部分から,コーパス109を用いて,最適な音韻を選択する処理である。
【0132】
ここで,図7を参照しながら,第2の実施の形態にかかるキーワード優先音韻処理(S219)について説明する。図7は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【0133】
図7に示すように,キーワード優先音韻選択処理(S219)は,最後のキーワードか否かを確認する処理(S501)と,キーワードに対してターゲット選択を行う処理(S505)と,キーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)と,テキスト本文中のキーワード部分で音韻選択部104で求めたコスト値Corigを取得する処理(S515)と,Ckey−Corig>thresholdの関係が成立するか否かを検証する処理(S517)と,テキスト本文全体の音韻候補の組合せのキーワード箇所の音韻候補の組合せの置き換える処理(S513)との処理が,行われる。なお,最後のキーワードか否かを確認する処理(S501)は,上記説明のステップS216と実質的に同一である。
【0134】
図7に示すように,キーワードに対して,ターゲット選択を行う処理(S505)では,キーワード部分の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
【0135】
図7に示すキーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)では,図4に示すように,ターゲット選択で求めた音韻候補(又は,音韻選択)をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置から,キーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。
【0136】
キーワード開始位置,キーワード終了位置は,例えば,テキスト本文の本文開始位置からカウントした音韻数によって,指定することができるが,かかる例に限定されず,例えば,本文終了位置からカウントした音韻数によって指定される場合等でもよい。
【0137】
上記キーワード位置(キーワード開始位置〜キーワード終了位置)の指定方法としては,テキスト本文中のキーワード部分に対してタグ付けする方法と,テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法と,1又は2以上のキーワードをあらかじめ保持しユーザがキーワードを選択しその選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。
【0138】
図4に示すように,キーワード音韻候補が2つ以上存在する場合,キーワード部分に関するコスト値の計算は,例えば,テキスト本文の本文開始位置から本文終了位置に向けて,キーワードの出現順に行われる,あるいは,キーワード部分に関するコスト値の計算は,1又は2以上のキーワードに優先順位を付与し,優先順に行われる,あるいは,図8に示すように,キーワード部分に関するコスト値の計算は,1又は2以上のキーワードに重みを付与し,キーワードが出現する順に,重みとコスト値とを乗算する処理が行われる,あるいは,キーワード部分に関するコスト値の計算は,複数のキーワードに付与した重みを,優先順位に変換し,優先順に行われる。
【0139】
図7に示すように,テキスト本文中のキーワード部分について音韻選択部104で求めたコスト値Corigを取得する処理(S515)では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
【0140】
上記コスト値Corigは,テキスト本文中のキーワード部分の範囲から求められたサブコスト値を基にして求められるコスト値であるのに対して,コスト値Ckeyは,テキスト本文の本文開始位置から本文終了位置までの範囲から求められたサブコスト値を基にして求められるキーワード部分のコスト値である。即ち,双方のコスト値Corigとコスト値Ckeyは,例えば,上記3つのサブコスト値を求めるための音韻の対象範囲が異なっている。上記コスト値Corigの方が,どちらかと言えばキーワード部分を構成する1又は2以上の音韻が本来兼ね備えている声質などの特質を直接的に数値に表現される傾向がある。
【0141】
図7に示すように,Ckey−Corig>thresholdの関係であるか判定する処理(S517)では,キーワードに対するコスト値をCkeyと,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値Corigとの差分をとり,ある閾値(Threshold)に対して,大小を判定する。
【0142】
上記大小判定した結果,差分値が,ある閾値(Threshold)より大きい場合であって,上記不等式の関係を保つ場合,図7に示すテキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え(S513)に処理が移行する。
【0143】
上記求めた差分値が,ある閾値(Threshold)以下の場合,図7に示す最後のキーワードであるか否かを判定する処理が行われる(S501)。
【0144】
図7に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え(S513)では,テキスト本文全体で選択した音韻候補の組合せの,キーワード部分に対して,キーワード優先音韻選択部107によりキーワード優先音韻選択した音韻候補の組合せに,置き換える。つまり,キーワード個所の音韻は,キーワード優先音韻選択部107によりキーワード優先音韻選択した音韻が採用され,その音韻が後述の合成音として出力されることとなる。
【0145】
また,第2の実施の形態にかかる音声合成方法では,キーワード優先音韻選択部107により選択された音韻の方が合成音として出力した際により一層クリアに明快に読み上げられるように閾値(Threshold)が定められ,置換処理(S513)が行われるようにする。
【0146】
キーワード部分の音韻候補の組合せの置き換えが完了した後(S513),図2に示すステップS216と実質的に同一のステップS501に処理が移行し,最後のキーワードになるまで繰り返して処理が行われる(S505〜S513)。
【0147】
ここで,図8を参照しながら,第2の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図8は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【0148】
図8に示すように,キーワード優先音韻選択処理(S219)は,最後のキーワードであるか否かを判定する処理(S501)と,キーワードに対して,ターゲット選択を行う処理(S509)と,キーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)と,テキスト本文中のキーワード部分で音韻選択部104が求めたコスト値に重みを乗算したCorigを取得する処理(S516)と,最後のキーワードか否かを判定する処理(S502)と,Ckey−Corig>thresholdの関係であるか判定する処理(S517)と,テキスト本文全体の音韻候補の組合せを,キーワード箇所の音韻候補の組合せに置き換える処理(S513)とを含んでいる。
【0149】
図8に示すように,第2の実施の形態にかかるキーワード優先音韻選択処理(S219)は,図7に示す第2の実施の形態にかかるキーワード優先音韻選択処理と比べて,上記ステップS515の代わりにステップS516を含む点,さらに上記ステップS502を含む点で異なる。
【0150】
図8のステップS516では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
【0151】
また,図8のステップS516では,キーワードが出現する順に,重みと上記で求めたコスト値とを乗算した重み付きコスト値を求め,各々を比較し,重み付きコスト値を取得する。
【0152】
また,図8に示すように,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値に重みを乗算したCorigを取得する処理(S516)では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパスを用いて取得し,3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得し,コスト値Corigと,複数のキーワードに付与された重みとを,キーワードが出現する順に乗算し,重み付きコスト値Corigを求める。
【0153】
図8に示すように,最後のキーワードであるか否かを判定する処理(S502)では,例えば,各キーワードで求められた,重み付きコスト値Corigを比較し,小さい重み付きコスト値を保持しているキーワード順で,テキスト本文内の最後に出現するキーワードであるかどうかを判定する。
【0154】
上記判定の結果(S502),最後のキーワードでない場合,図8に示す「Ckey−Corig>threshold」の関係について検証する処理(S517)に移行する。
【0155】
一方,上記判定の結果(S502),最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,音韻接続部111によって行われる処理に移行する。
【0156】
第1の実施の形態にかかる音声合成方法にて説明したように,図2に示すように,音韻接続部111によって実行される波形セグメントを接続する処理(S223)は,現在取り扱っている波形セグメントと,次の波形セグメントとを接続する。
【0157】
音韻接続部111によって,全ての波形セグメントの接続が完了すると(S223),図2に示すように,音韻接続部111によって接続された波形セグメントは,合成音(又は,合成音声)として出力される(S225)。上記合成音がスピーカ等の出力部から出力されることによって,音声合成装置100は,テキスト本文のうちキーワードを強調しながら読上げることができる。
【0158】
以上で,第2の実施の形態にかかる音声合成方法について説明を終了するが,かかる音声合成方法によって,以下に示すような優れた効果が存在する。
(1)テキスト本文中の強調させたいキーワードの部分を,何の評価もせずに,キーワード優先音韻選択部107で選択した音韻の候補に置き換えるのではなく,キーワード部分に対して,音韻選択部104で求めたコスト値Ckeyとキーワード優先音韻選択部107で求めたコスト値Corigとを比較し,置き換えの必要の際は,キーワード優先音韻部107が選択した音韻候補の組合せに置き換えることで,キーワード部分のより自然性が高い読上げを可能とし,音質がよく,キーワードの読上げを強調させることができる。
【0159】
なお,上述した一連の処理は,専用のハードウェアにより行うこともできるし,ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には,そのソフトウェアを構成するプログラムが,汎用のコンピュータやマイクロコンピュータ等の情報処理装置にインストールされ,上記情報処理装置を音声合成装置100として機能させる。
【0160】
上記プログラムは,コンピュータに内蔵されている記録媒体としてのハードディスクドライブ(HDD)やROMに予め記録しておくことができる。
【0161】
あるいはまた,プログラムは,ハードディスクドライブに限らず,フレキシブルディスク,CD−ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc),磁気ディスク,半導体メモリなどのリムーバブル記録媒体に,一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は,いわゆるパッケージソフトウエアとして提供することができる。
【0162】
なお,プログラムは,上述したようなリムーバブル記録媒体からコンピュータにインストールする他,ダウンロードサイトから,ディジタル衛星放送用の人工衛星を介して,コンピュータに無線で転送したり,LAN(Local Area Network),インターネットといったネットワークを介して,コンピュータに有線で転送し,コンピュータでは,そのようにして転送されてくるプログラムを受信し,内蔵するハードディスクドライブにインストールすることができる。
【0163】
ここで,本明細書において,コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは,必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むものである。
【0164】
また,プログラムは,1のコンピュータにより処理されるものであっても良いし,複数のコンピュータによって分散処理されるものであっても良い。
【0165】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0166】
上記実施の形態においては,テキスト解析部101と韻律予測部103とは別体である場合を例に挙げて説明したが,本発明はかかる例に限定されない。例えば,テキスト解析部101と韻律予測部103とが,一体に構成される場合等でも実施可能である。
【産業上の利用可能性】
【0167】
本発明は,テキスト本文を読み上げるための音声を合成することが可能な音声合成装置,音声合成方法,およびコンピュータプログラムに適用可能である。
【図面の簡単な説明】
【0168】
【図1】第1の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。
【図2】第1の実施の形態にかかる音声合成装置による音声合成方法の概略を示すフローチャートである。
【図3A】本実施の形態にかかる音韻記号,韻律予測情報,およびテキスト本文全体の音韻候補の組合せの概略を示す説明図である。
【図3B】本実施の形態にかかる音声合成装置におけるデータの流れを概略的に示す説明図である。
【図4】本実施の形態にかかる音韻を選択する処理の概略の一例を示す説明図である。
【図5】第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【図6】第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【図7】第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【図8】第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
【符号の説明】
【0169】
100 音声合成装置
101 テキスト解析部
103 韻律予測部
104 音韻選択部
107 キーワード優先音韻選択部
109 コーパス
111 音韻接続部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013