米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> シャープ株式会社

発明の名称 声質変換装置および声質変換方法、並びに、プログラム記録媒体
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−282300(P2001−282300A)
公開日 平成13年10月12日(2001.10.12)
出願番号 特願2000−100801(P2000−100801)
出願日 平成12年4月3日(2000.4.3)
代理人 【識別番号】100062144
【弁理士】
【氏名又は名称】青山 葆 (外1名)
【テーマコード(参考)】
5D045
【Fターム(参考)】
5D045 BA01 DA20 
発明者 神谷 伸
要約 目的


構成
特許請求の範囲
【請求項1】 第1話者の声質での音声を第2話者の声質での音声に変換する声質変換装置であって、上記第1話者が発声した第1音声から第1スペクトル包絡を抽出する一方、第2話者が発声した2音声から第2スペクトル包絡を抽出するスペクトル包絡抽出手段と、上記抽出された第1スペクトル包絡および第2スペクトル包絡を、音声単位のラベルを付与して格納する第1メモリ手段と、同一ラベルに関して、上記第1メモリに格納された上記第1スペクトル包絡と第2スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って、両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求める非線形周波数軸スペクトルマッチング手段と、上記周波数ワーピング関数を、音声単位のラベルを付与して格納する第2メモリ手段と、指定された音声単位名の第1スペクトル包絡を上記第1メモリから読み出す一方、上記指定された音声単位名の周波数ワーピング関数を上記第2メモリから読み出して、この読み出された周波数ワーピング関数に基づいて、上記読み出された第1スペクトル包絡を第2話者に関するスペクトル包絡に変換するスペクトル包絡変換手段を備えたことを特徴とする声質変換装置。
【請求項2】 請求項1に記載の声質変換装置において、上記非線形周波数軸スペクトルマッチング手段は、上記非線形な周波数伸縮マッチングを行うに際して、上記第1スペクトル包絡と第2スペクトル包絡とに関して、夫々のスペクトル包絡を周波数帯域で複数チャネルに分割した際における隣接チャネル間の出力値の差を用いることを特徴とする声質変換装置。
【請求項3】 請求項1あるいは請求項2に記載の声質変換装置において、上記第1メモリ手段は、上記第1スペクトル包絡および第2スペクトル包絡の傾きをも音声単位のラベルを付与して格納するようになっており、上記第1話者が発声した第1音声から第1スペクトル包絡の傾きを抽出する一方、第2話者が発声した2音声から第2スペクトル包絡の傾きを抽出して上記第1メモリ手段に格納させるスペクトル傾き抽出手段と、指定された音声単位名の第1スペクトル包絡の傾きと第2スペクトル包絡の傾きとを上記第1メモリ手段から読み出して、両傾きの差に基づいて、上記スペクトル包絡変換手段によって得られた上記第2話者に関するスペクトル包絡の傾きを補正するスペクトル傾き補正手段を備えたことを特徴とする声質変換装置。
【請求項4】 請求項1あるいは請求項2に記載の声質変換装置において、上記音声単位は音素であり、上記第2メモリ手段に格納された周波数ワーピング関数を上記ラベルに基づいて音素,類似音素,有声音区間/無声音区間および話者毎にグループ化し、各グループに属する周波数ワーピング関数の平均値を算出し、得られた平均周波数ワーピング関数を各グループ名のラベルを付与して上記第2メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル包絡変換手段は、指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるようになっていることを特徴とする声質変換装置。
【請求項5】 請求項3に記載の声質変換装置において、上記音声単位は音素であり、上記第1メモリ手段に格納された第1スペクトル包絡の傾きおよび第2スペクトル包絡の傾きを上記ラベルに基づいて音素,類似音素,有声音区間/無声音区間および話者毎にグループ化し、各グループに属するスペクトル包絡の傾きの平均値を算出し、得られた平均スペクトル傾きを各話者名および各グループ名のラベルを付与して上記第1メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル傾き補正手段は、指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるようになっていることを特徴とする声質変換装置。
【請求項6】 請求項1乃至請求項3の何れか一つに記載の声質変換装置において、上記抽出された第1スペクトル包絡あるいは第2スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音声単位名を上記第1メモリ手段に送出する音声認識手段を備えたことを特徴とする声質変換装置。
【請求項7】 請求項6に記載の声質変換装置において、上記音声認識手段は、得られた音声単位名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給可能になっており、上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段は、上記音声認識手段によって得られた音声単位名の時系列を上記指定された音声単位名とするようになっていることを特徴とする声質変換装置。
【請求項8】 請求項4に記載の声質変換装置において、上記平均化手段は、平均値算出の対象となる周波数ワーピング関数間の線形変換を行なうことによって上記平均周波数ワーピング関数を算出するようになっていることを特徴とする声質変換装置。
【請求項9】 請求項8に記載の声質変換装置において、上記周波数ワーピング関数は、上記第1スペクトル包絡と第2スペクトル包絡とを同一周波数帯域で複数チャネルに分割した際における上記第1,第2スペクトルのチャネルから成る平面上におけるDPパスに相当する格子点とその他の格子点とに異なる要素値が与えられたマトリクス状のデータ形式を有し、上記周波数ワーピング関数間の線形変換は、上記平均値算出の対象となる周波数ワーピング関数に相当する複数のマトリクスにおける同一格子点の要素値の和を求め、得られた値を要素値とするマトリクスを上記平均周波数ワーピング関数とすることを特徴とする声質変換装置。
【請求項10】 請求項9に記載の声質変換装置において、上記スペクトル包絡変換手段は、上記第2スペクトル包絡のある周波数帯域における強度に変換する場合には、使用する平均周波数ワーピング関数のマトリクスにおける上記第2スペクトル包絡の該当チャネルに関する行または列の格子点において、各格子点の要素値と当該格子点に対応する上記第1スペクトル包絡のチャネルにおける強度との積和を求め、この積和の値を上記第2スペクトル包絡の当該周波数帯域における強度とすることを特徴とする声質変換装置。
【請求項11】 第1話者の声質での音声を第2話者の声質での音声に変換する声質変換装置であって、上記第1話者が発声した第1音声から第1声道断面積を抽出する一方、第2話者が発声した2音声から第2声道断面積を抽出する声道断面積抽出手段と、上記抽出された第1声道断面積および第2声道断面積を、音声単位のラベルを付与して格納する第1メモリ手段と、同一ラベルに関して、上記第1メモリに格納された上記第1声道断面積と第2声道断面積とに対して動的計画法を用いた非線形な声道軸伸縮マッチングを行って、両声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求める非線形声道軸マッチング手段と、上記声道軸ワーピング関数を、音声単位のラベルを付与して格納する第2メモリ手段と、指定された音声単位名の第1声道断面積を上記第1メモリから読み出す一方、上記指定された音声単位名の声道軸ワーピング関数を上記第2メモリから読み出して、この読み出された声道軸ワーピング関数に基づいて、上記読み出された第1声道断面積を第2話者に関する声道断面積に変換する声道断面積変換手段を備えたことを特徴とする声質変換装置。
【請求項12】 第1話者の声質での音声を第2話者の声質での音声に変換する声質変換方法であって、上記第1話者が発声した第1音声から第1スペクトル包絡を抽出する一方、第2話者が発声した2音声から第2スペクトル包絡を抽出するステップと、同一の音声単位名に関して、上記抽出された上記第1スペクトル包絡と第2スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って、両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求めるステップと、指定された音声単位名の第1スペクトル包絡を、上記指定された音声単位名の周波数ワーピング関数に基づいて、第2話者に関するスペクトル包絡に変換するステップを備えたことを特徴とする声質変換方法。
【請求項13】 請求項12に記載の声質変換方法において、上記第1話者が発声した第1音声から第1スペクトル包絡の傾きを抽出する一方、上記第2話者が発声した2音声から第2スペクトル包絡の傾きを抽出するステップと、上記指定された音声単位名の第1スペクトル包絡の傾きと第2スペクトル包絡の傾きとの差に基づいて、上記得られた第2話者に関するスペクトル包絡の傾きを補正するステップを備えたことを特徴とする声質変換方法。
【請求項14】 コンピュータを、請求項1におけるスペクトル包絡抽出手段,非線形周波数軸スペクトルマッチング手段,スペクトル包絡変換手段および請求項2におけるスペクトル傾き抽出手段,スペクトル傾き補正手段として機能させる声質変換処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】この発明は、合成音声または入力音声を特定話者の音質に変換して出力する声質変換装置および声質変換方法、並びに、声質変換処理プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】これまで、より自然で人間の発声に近い合成音声の実現を目指して、テキスト音声合成装置が数多く開発されてきている。この目標の実現がある程度なされた時点で、次に、好きな声優や女優または家族や恋人等の特定話者の声質や韻律で発声するテキスト音声合成装置のニーズが高まってくることが当然予想される。また、声質韻律変換のために音声合成装置が必要とする音声データは、提供者の発声負担を考慮して、できるだけ少量であることが望まれる。
【0003】従来より、声質を変換する方法として、スペクトル包絡からフォルマント周波数を抽出して変換する方法(例えば、桑原,大串、ホルマント周波数、バンド幅の独立制御と個人性判断、電子通信学会論文誌、Vol.j69‐A No.4,pp.509‐517(1986))。また、上記スペクトル包絡のピーク点を求め、そのピーク点の周波数を基準として各スペクトル包絡を帯域分割し、これら分割点について求めた周波数差と強度差とを利用してスペクトル包絡を変形させる方法(例えば、特開平9‐244694号公報)がある。
【0004】一方において、不特定話者の音声認識技術分野において、音声スペクトルの周波数軸強度軸の同時非線形伸縮を行なうことによって、話者正規化に関して著しい効果が見られ、音声認識性能が向上したという報告がある(例えば、中川,神谷,坂井、音声スペクトルの時間軸周波数軸強度軸の同時非線形伸縮に基づく不特定話者の単語音声の認識、電子通信学会論文誌、Vol.j64‐D No.2,pp.116‐123(1981))。
【0005】また、予め変換元話者と変換先話者とが発声した音声における複数母音のスペクトル包絡系列(n次元ベクトル系列)間で周波数領域におけるDP(動的計画法)マッチングを行ない、求められた―つの最適DPパスを利用して上記変換元話者のスペクトル包絡を変換先話者のスペクトル包絡に変換する方法が提案されている(例えば、特開平4‐147300号公報)。
【0006】
【発明が解決しようとする課題】しかしながら、上記従来の声質変換方法には、以下のような問題がある。すなわち、フォルマント周波数を抽出して変換する方法においては、上記フォルマント周波数の抽出精度によって音質が影響されるという問題がある。また、上記ピーク点の周波数を基準としたスペクトル包絡の分割点の周波数差と強度差とに基づいてスペクトル包絡を変形させる方法においては、ピーク点の周波数によって分割されるスペクトルの帯域が影響されるという問題があり、ピッチ周波数が高い場合における低域のピーク点の抽出精度によって音質が影響されるという問題も想定される。
【0007】また、上記音声スペクトルの周波数軸強度軸の同時非線形伸縮によって話者正規化を行なう方法においては、非線形伸縮の際の制約条件を相当上手く設定しないと、個人差のみならず音韻差まで正規化されてしまい、結果として性能を下げてしまうという問題がある。
【0008】また、変換元話者と変換先話者とが発声した音声における複数母音のスペクトル包絡系列(n次元ベクトル系列)間でDPマッチングを行なう方法においては、調音点や口の開き具合などの発声癖に起因する個人差(ソフト差)の影響で各母音毎の最適DPパスが異なる場合には、似通った最適DPパス群(例えば、後舌母音)のメンバーが多い方に偏って、他の群にはやや不適切なDPパスを抽出し、全体として最適ではないDPパスが選択されてしまうという問題がある。また、最適DPパスが偏らないように上手く学習用の母音を選択できた場合には、声道形状や声道長等の身体上の差に起因する個人差(ハード差)のみを正規化するDPパスであるため、正規化による認識性能の向上が充分でないという問題がある。さらに、変換元話者と変換先話者とが同じ内容(単語または文:例えばあいうえお、いえあおう)を発声するという制約を前提にしているため、変換元話者の発声内容が異なっていたり、音声データが不足している場合には、利用することができないという問題もある。
【0009】このように、上記従来の声質変換方法においては、声質の変換性能の点において、十分であるとは言えないのである。
【0010】そこで、この発明の目的は、変換先話者の発声負担を軽減し、より精度の良い声質変換を行うことができる声質変換装置および声質変換方法、並びに、声質変換処理プログラムを記録したプログラム記録媒体を提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するため、第1の発明は、第1話者の声質での音声を第2話者の声質での音声に変換する声質変換装置であって、上記第1話者が発声した第1音声から第1スペクトル包絡を抽出する一方,第2話者が発声した2音声から第2スペクトル包絡を抽出するスペクトル包絡抽出手段と、上記抽出された第1スペクトル包絡および第2スペクトル包絡を音声単位のラベルを付与して格納する第1メモリ手段と、同一ラベルに関して,上記第1メモリに格納された上記第1スペクトル包絡と第2スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って,両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求める非線形周波数軸スペクトルマッチング手段と、上記周波数ワーピング関数を音声単位のラベルを付与して格納する第2メモリ手段と、指定された音声単位名の第1スペクトル包絡を上記第1メモリから読み出す一方,上記指定された音声単位名の周波数ワーピング関数を上記第2メモリから読み出して,この読み出された周波数ワーピング関数に基づいて,上記読み出された第1スペクトル包絡を第2話者に関するスペクトル包絡に変換するスペクトル包絡変換手段を備えたことを特徴としている。
【0012】上記構成によれば、第1話者の音声から得られた第1スペクトル包絡と第2話者の音声から得られた第2スペクトル包絡との周波数軸の対応付けを表わす周波数ワーピング関数が用いられ、指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸が非線形伸縮されて第2話者によるスペクトル包絡に変換され、上記指定された音声単位名の第2話者での音声が得られる。したがって、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【0013】また、上記第1の発明の声質変換装置は、上記第1メモリ手段を,上記第1スペクトル包絡および第2スペクトル包絡の傾きをも音声単位のラベルを付与して格納するように成し、上記第1話者が発声した第1音声から第1スペクトル包絡の傾きを抽出する一方,第2話者が発声した2音声から第2スペクトル包絡の傾きを抽出して上記第1メモリ手段に格納させるスペクトル傾き抽出手段と、指定された音声単位名の第1スペクトル包絡の傾きと第2スペクトル包絡の傾きとを上記第1メモリ手段から読み出して,両傾きの差に基づいて,上記スペクトル包絡変換手段によって得られた上記第2話者に関するスペクトル包絡の傾きを補正するスペクトル傾き補正手段を備えることが望ましい。
【0014】上記構成によれば、上記指定された音声単位名での第1,第2スペクトル包絡の傾きの差に基づいて、上記得られた第2話者に関するスペクトル包絡の傾きが補正されて、より第2話者の声質に近い音声が得られる。
【0015】また、上記第1の発明の声質変換装置は、上記音声単位は音素であり、上記第2メモリ手段に格納された周波数ワーピング関数を上記ラベルに基づいて音素類似音素有声音区間/無声音区間および話者毎にグループ化し,各グループに属する周波数ワーピング関数の平均値を算出し,得られた平均周波数ワーピング関数を各グループ名のラベルを付与して上記第2メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル包絡変換手段を,指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるように成すことが望ましい。
【0016】上記構成によれば、平均周波数ワーピング関数が音素,類似音素,有声音区間/無声音区間および話者毎のグループ別に求められている。したがって、上記第1メモリ手段に保存されている第2話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。例えば、後舌母音/o/の発声データが少ないか全く無い場合には、当該音素/o/の類似音素である後舌母音/a/の平均周波数ワーピング関数、または、有声音区間の平均周波数ワーピング関数が選択される。こうして、第2話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差が正規化される。
【0017】また、上記第1の発明の声質変換装置は、上記音声単位は音素であり、上記第1メモリ手段に格納された第1スペクトル包絡の傾きおよび第2スペクトル包絡の傾きを上記ラベルに基づいて音素類似音素有声音区間/無声音区間および話者毎にグループ化し,各グループに属するスペクトル包絡の傾きの平均値を算出し,得られた平均スペクトル傾きを各話者名および各グループ名のラベルを付与して上記第1メモリ手段に格納させる平均化手段を備えると共に、上記スペクトル傾き補正手段を,指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるように成すことが望ましい。
【0018】上記構成によれば、平均スペクトル傾きが音素,類似音素,有声音区間/無声音区間および話者毎のグループ別に求められている。したがって、上記第1メモリ手段に保存されている第2話者の発声データの量に応じて、適切なグループの平均スペクトル傾きを選択して上記スペクトル包絡の傾きの代りに用いることができる。こうして、第2話者の発声データの量が少ない場合でも対処可能になる。さらに、上記音素毎および類似音素毎のの平均スペクトル傾きを求めることによって、発声癖に起因する個人差が正規化される。
【0019】また、上記第1の発明の声質変換装置は、上記抽出された第1スペクトル包絡または第2スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音声単位名を上記第1メモリ手段に送出する音声認識手段を備えることが望ましい。
【0020】上記構成によれば、上記第1,第2話者の発声から抽出された第1,第2スペクトル包絡から、ラベル用の音声単位名が自動的に得られる。こうして、上記スペクトル包絡あるいはスペクトル包絡の傾きに対するラベル付け処理が容易に行われる。
【0021】また、上記第1の発明の声質変換装置は、上記音声認識手段を,得られた音声単位名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給可能に成し、上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段を,上記音声認識手段によって得られた音声単位名の時系列を上記指定された音声単位名とするように成すことが望ましい。
【0022】上記構成によれば、上記第1話者の発声による第1スペクトル包絡を第2話者のスペクトル包絡に変換する際の音声単位名が、上記音声認識手段によって得られた音声単位名の時系列によって指定される。こうして、キーボード等から声質変換すべき音声単位名列を入力することなく、上記第1話者の発声音が上記第2話者の音質での音声に直接リアルタイムに変換される。
【0023】また、第2の発明は、第1話者の声質での音声を第2話者の声質での音声に変換する声質変換装置であって、上記第1話者が発声した第1音声から第1声道断面積を抽出する一方,第2話者が発声した2音声から第2声道断面積を抽出する声道断面積抽出手段と、上記抽出された第1声道断面積および第2声道断面積を音声単位のラベルを付与して格納する第1メモリ手段と、同一ラベルに関して,上記第1メモリに格納された上記第1声道断面積と第2声道断面積とに対して動的計画法を用いた非線形な声道軸伸縮マッチングを行って,両声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求める非線形声道軸マッチング手段と、上記声道軸ワーピング関数を音声単位のラベルを付与して格納する第2メモリ手段と、指定された音声単位名の第1声道断面積を上記第1メモリから読み出す一方,上記指定された音声単位名の声道軸ワーピング関数を上記第2メモリから読み出して,この読み出された声道軸ワーピング関数に基づいて,上記読み出された第1声道断面積を第2話者に関する声道断面積に変換する声道断面積変換手段を備えたことを特徴としている。
【0024】上記構成によれば、第1話者の音声から得られた第1声道断面積と第2話者の音声から得られた第2声道断面積との声道軸の対応付けを表わす声道軸ワーピング関数が用いられ、指定された音声単位名の第1話者による第1声道断面積の声道軸が非線形伸縮されて第2話者による声道断面積に変換され、上記指定された音声単位名の第2話者での音声が得られる。したがって、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【0025】また、第3の発明は、第1話者の声質での音声を第2話者の声質での音声に変換する声質変換方法であって、上記第1話者が発声した第1音声から第1スペクトル包絡を抽出する一方,第2話者が発声した2音声から第2スペクトル包絡を抽出するステップと、同一音声単位名に関して,上記抽出された上記第1スペクトル包絡と第2スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って,両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求めるステップと、指定された音声単位名の第1スペクトル包絡を,上記指定された音声単位名の周波数ワーピング関数に基づいて、第2話者に関するスペクトル包絡に変換するステップを備えたことを特徴としている。
【0026】上記構成によれば、上記請求項1の場合と同様にして、指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸が非線形伸縮されて第2話者によるスペクトル包絡に変換され、上記指定された音声単位名の第2話者による音声が得られる。したがって、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【0027】また、上記第3の発明の声質変換方法は、上記第1話者が発声した第1音声から第1スペクトル包絡の傾きを抽出する一方,上記第2話者が発声した2音声から第2スペクトル包絡の傾きを抽出するステップと、上記指定された音声単位名の第1スペクトル包絡の傾きと第2スペクトル包絡の傾きとの差に基づいて,上記得られた第2話者に関するスペクトル包絡の傾きを補正するステップを備えることが望ましい。
【0028】上記構成によれば、上記請求項2の場合と同様にして上記得られた第2話者に関するスペクトル包絡の傾きが補正され、より第2話者の声質に近い音声が得られる。
【0029】また、第4の発明のプログラム記録媒体は、コンピュータを、上記第1の発明におけるスペクトル包絡抽出手段,非線形周波数軸スペクトルマッチング手段,スペクトル包絡変換手段,スペクトル傾き抽出手段およびスペクトル傾き補正手段として機能させる声質変換処理プログラムが記録されていることを特徴としている。
【0030】上記構成によれば、指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸が非線形伸縮されて、第2話者に関するスペクトル包絡に変換される。さらに、得られた第2話者に関するスペクトル包絡の傾きが、第1,第2スペクトル包絡の傾きの差に基づいて補正される。こうして、第1話者による第1スペクトル包絡の特定位置の抽出精度に音質が影響されることのない、精度の高い声質変換が行われる。
【0031】
【発明の実施の形態】以下、この発明を図示の実施の形態により詳細に説明する。尚、以下の説明においては、上記音声単位を音素としているが、この発明はこれに限定されるものではない。
【0032】<第1実施の形態>図1は、本実施の形態の声質変換装置におけるブロック図である。波形分析部1は、入力された音声波形からケプストラムと韻律情報とを抽出する。スペクトル包絡抽出部2は、波形分析部1で抽出された低次のケプストラム係数に基づいて、図2(c),(f)に示すようなスペクトル包絡を抽出する。スペクトル傾き抽出部3は、上記スペクトル包絡を最小2乗近似直線で近似した場合における近似直線の傾きである図2(b),(e)に示すようなスペクトル傾きを抽出する。音源特性抽出部4は、波形分析部1で抽出された高次のケプストラム係数に基づいて、図2(a),(d)に示すような音源特性を抽出する。音声認識部5は、スペクトル包絡抽出部2で抽出されたスペクトル包絡と波形分析部1で抽出された韻律情報(パワーやピッチ周波数等)の時系列に基づいて、HMM(隠れマルコフモデル)を用いて音声認識を行なう。そして、認識結果の音素(音声単位)系列をその音素区間における韻律情報(音素継続時間長,平均パワー,平均ピッチ周波数等)と共に出力する。尚、上記抽出されたスペクトル包絡,スペクトル傾き,音源特性は、音声認識部5による各話者毎の認識結果である音素ラベルが付与されて特徴メモリ6に格納される。
【0033】平均化部7は、上記特徴メモリ6に格納されている話者毎の各音素のスペクトル包絡,スペクトル傾きおよび音源特性に対して、線形変換等によって、音素,類似音素,有声音区間/無声音区間及び音声区間全体(話者)毎に分類して平均値を算出する。そして、得られた平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性を、対応する音素名,類似音素名,有声音区間/無声音区間あるいは音声区間全体(話者)のラベルを付与して特徴メモリ6に格納させる。さらに、後に詳述するようにして周波数ワープ表メモリ9に格納される話者毎の各音素の周波数ワーピング関数に対して、線形変換等によって、上記類似音素,有声音区間/無声音区間および音声区間全体毎に分類して平均値を算出する。そして、得られた平均周波数ワーピング関数を、対応する類似音素名,有声音区間/無声音区間あるいは音声区間全体のラベルを付与して周波数ワープ表メモリ9に格納させる。
【0034】ここで、上記周波数ワープ表メモリ9に格納されている上記周波数ワーピング関数の算出は、非線形周波数軸スペクトルマッチング部8によって、次のようにして行われる。すなわち、非線形周波数軸スペクトルマッチング部8は、動的計画法による非線形周波数軸スペクトルマッチングによって、各音素毎に、特徴メモリ6に格納された変換元話者Sの平均スペクトル包絡と変換先話者Tの平均スペクトル包絡とのマッチングを行なう。そして、最適DPパスに相当する周波数ワーピング関数を求め、音素名を付与して周波数ワープ表メモリ9に格納するのである。
【0035】スペクトル包絡変換部10は、発声指示に対応する音素の変換元話者Sのスペクトル包絡を特徴メモリ6から読み出す一方、周波数ワープ表メモリ9から当該音素の周波数ワーピング関数を読み出す。その場合、特徴メモリ6および周波数ワープ表メモリ9に格納されている変換先話者の該当音素のデータが少ないか全く無い場合には、当該音素の類似音素や当該音素と同じ区間(有声音区間または無声音区間)や音声区間全体の平均周波数ワーピング関数を読み出す。そして、上記(平均)周波数ワーピング関数を利用して、変換元話者Sのスペクトル包絡を変換先話者Tのスペクトル包絡に変換する。以下、この変換して得られた変換先話者Tのスペクトル包絡を変形スペクトル包絡と言う。
【0036】スペクトル傾き変換部11は、上記特徴メモリ6から、発声指示に対応する音素の変換元話者Sの平均スペクトル傾きと変換先話者Tの平均スペクトル傾きとを読み出し、両平均スペクトル傾きの差の分だけスペクトル包絡変換部10からの上記変形スペクトル傾きを補正する変形スペクトル傾き変換を行い、正規化スペクトル包絡を求める。音源特性変換部12は、発声指示に対応する平均音源特性を特徴メモリ6から読み出し、必要に応じて線形変換等によって変形して変形音源特性を求める。スペクトル合成部13は、スペクトル傾き変換部11からの正規化スペクトル包絡と音源特性変換部12からの変形音源特性とを用いて、基本周波数の高周波数に亘るスペクトル強度を求めることによって、合成スペクトルを求める。波形合成部14は、上記合成スペクトルのスペクトル強度に基づいて、正弦波重量法によって音声波形を合成する。
【0037】図3〜図5は、上記構成を有する声質変換装置による声質変換処理動作のフローチャートである。以下、図3〜図5に従って、上記声質変換装置の動作について詳細に説明する。
【0038】ステップS1で、話者番号sに初期値が設定される。尚、この話者番号sや後の音素番号x,変換先話者番号sT,変換元話者番号sS等は、作業メモリ(図示せず)等に設定される。また、上記話者としては、声質変換を行う際の変換元話者Sおよび変換先話者Tと成り得る話者が選ばれる。ステップS2で、波形分析部1に音声波形が入力される。
【0039】ステップS3で、上記波形分析部1によって、入力音声波形に対して波形分析が行われてケプストラムと韻律情報とが抽出される。ステップS4で、スペクトル包絡抽出部2によって、波形分析部1からの低次のケプストラム係数に基づいて、スペクトル包絡が抽出される。ステップS5で、スペクトル傾き抽出部3によって、上記スペクトル包絡を最小2乗近似直線で近似した場合の近似直線の傾きが、スペクトル傾きとして抽出される。ステップS6で、音源特性抽出部4によって、波形分析部1からの高次のケプストラム係数に基づいて、音源特性が抽出される。ステップS7で、音声認識部5によって、入力音声が認識され、認識結果としての音素番号(音素名)系列と各音素区間の韻律情報(音素継続時間長,平均パワー,平均ピッチ周波数等)とが出力される。ここで、上記音素番号は、予め音素名に対応付けて決定されており、RAM(ランダムアクセスメモリ)(図示せず)に格納されているものとする。
【0040】尚、本実施の形態においては、上記波形分析部1による音声波形分析をケプストラム分析とし、このケプストラム分析結果に基づいてスペクトル包絡,スペクトル傾きおよび音源特性を抽出するようにしている。しかしながら、波形分析部1によるにおける音声波形分析法はこれに限定されるものではなく、LPC(線形予測分析)等のスペクトル包絡および音源特性を抽出できる方法であれば何れの音声波形分析法であっても差し支えない。
【0041】ステップS8で、上記スペクトル包絡抽出部2で抽出された上記スペクトル包絡とスペクトル傾き抽出部3で抽出された上記スペクトル傾きと音源特性抽出部4で抽出された上記音源特性とが、音声認識部5からの話者番号sと音素番号xの対でなるラベルが付与されて特徴メモリ6によって格納される。ステップS9で、当該話者番号sの話者による発声である学習音声があるか否か、つまり同一話者による音声入力があるか否かが判別される。その結果、あれば上記ステップS2に戻って、次の音声に関する上記スペクトル包絡,ペクトル傾きおよび音源特性の抽出と音声認識とに移行する。一方、なければステップS10に進む。
【0042】ステップS10で、上記音素番号xが、初期値に設定される。ステップS11で、平均化部7によって、特徴メモリ6から話者番号sと音素番号xとが付与されたスペクトル包絡,ペクトル傾きおよび音源特性が読み出される。そして、この読み出されたスペクトル包絡,ペクトル傾きおよび音源特性の夫々が、音素,類似音素,有声音区間/無声音区間および音声区間全体毎に分類される。ステップS12で、音素番号xが最大値xMAX以上であるか否かが判別される。その結果、最大値xMAX以上であればステップS14に進む一方、そうでなければステップS13に進む。ステップS13で、音素番号xがインクリメントされる。そうした後に、上記ステップS11に戻って、次の音素のスペクトル包絡,スペクトル傾きおよび音源特性に対する分類に移行する。
【0043】ステップS14で、上記平均化部7によって、話者番号sが付与されたスペクトル包絡,ペクトル傾きおよび音源特性に関する音素,類似音素,有声音区間/無声音区間及び音声区間全体毎の平均が、線形変換等によって算出される。そして、得られた平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性が、特徴メモリ6によって対応する音素名,類似音素名,有声音区間/無声音区間および音声区間全体のラベルが付与されて格納される。
【0044】ステップS15で、上記話者番号sが、最大値sMAX以上であるか否かが判別される。その結果、最大値sMAX以上であればステップS17に進む一方、そうでなければステップS16に進む。ステップS16で、話者番号sがインクリメントされる。そうした後、上記ステップS2に進んで、次の話者に関して、スペクトル包絡,スペクトル傾きおよび音源特性の抽出、音素認識、スペクトル包絡,スペクトル傾きおよび音源特性の分類、平均値算出に移行する。そして、上記ステップS15において、話者番号sが最大値sMAX以上であると判別されるとステップS17に移行する。
【0045】このようにして、変換元話者Sの大量のデータと変換先話者Tの少量のデータとから抽出されたスペクトル包絡,スペクトル傾き及び音源特性が、話者番号sと音素番号xとのラベルが付与されて蓄積される。また、音素,類似音素,「有声音区間/無声音区間および音声区間全体毎の平均スペクトル包絡,平均スペクトル傾きおよび平均音源特性が、話者番号sと音素名,類似音素名,有声音区間/無声音区間および音声区間全体とのラベルが付与されて蓄積されるのである。
【0046】ステップS17で、上記変換先話者番号sTに、外部から指示された変換先話者番号が設定される。また、変換元話者番号sSに、同様に外部から指示された変換元話者番号が設定される。ステップS18で、音素番号xに初期値が設定される。ステップS19で、非線形周波数軸スペクトルマッチング部8によって、特徴メモリ6から、変換先話者番号sTに該当する話者番号sと当該音素番号xとが付与された平均スペクトル包絡が検索される。そして、この検索結果に基づいて、当該変換先話者用の当該音素のデータが特徴メモリ6に保存されているか否かが判別される。その結果、保存されていればステップS20に進み、そうでなければステップS24に進む。ステップS20で、非線形周波数軸スペクトルマッチング部8によって、特徴メモリ6から、変換元話者番号sSに該当する話者番号sと当該音素番号xとが付与された平均スペクトル包絡が検索される。そして、この検索結果に基づいて、当該変換元話者用の当該音素のデータが特徴メモリ6に保存されているか否かが判別される。その結果、保存されていればステップS21に進み、そうでなければステップS24に進む。
【0047】ステップS21で、上記非線形周波数軸スペクトルマッチング部8によって、動的計画法による非線形周波数軸スペクトルマッチングを用いて、当該音素に関して変換元話者Sの平均スペクトル包絡と変換先話者Tの平均スペクトル包絡とのマッチングが行われる。そして、最適DPパスに相当する周波数ワーピング関数が求められる。
【0048】図6(a)は、上記非線形周波数軸スペクトルマッチング部8によって実行される動的計画法による非線形周波数軸スペクトルマッチングの概念を示す。同じ音素に関する変換元話者Sの平均スペクトル包絡Sと変換先話者Tの平均スペクトル包絡Tとに関して、スペクトル包絡を帯域でL等分し、両スペクトル包絡S,Tの各チャネルの出力値(スペクトル強度)を表す要素値を要素値Tiおよび要素値Sj(1≦i,j≦L)とする。そして、両スペクトル包絡同士が対応するように周波数軸を動的計画法によって非線形に伸縮する。つまり、対応すべき2つのスペクトル包絡S,Tからなる平面上の格子点c=(i,j)の系列F=c1,c2,…,cK,…,cLを考える。そして、格子点c=(i,j)に関する要素値Tiと要素値Sjとの距離d(i,j)=d(c)の系列Fに沿った総和Dを最小にする系列Fminを、上記最適DPパス(周波数ワーピング関数)とするのである。
【0049】ステップS22で、上記非線形周波数軸スペクトルマッチング部8によって、上記周波数ワーピング関数が、音素番号xと共に周波数ワープ表メモリ9に送出される。そして、周波数ワープ表メモリ9によって音素番号xのラベルが付与されて格納される。
【0050】本実施の形態において用いる周波数ワーピング関数のデータ形式は、図6(b)に示すように、DPパス上の格子点c(i,j)の要素値はより大きな整数であり、DPパス以外の格子点c(i,j)の要素値はであるようなL行L列のマトリクスである。尚、帯域の分割数Lの数は多い方がワーピング精度が上がるので望ましい。しかしながら、あまり多くすると周波数ワープ表メモリ9の記憶容量が大きくなり、処理時間も長くなってしまう。
【0051】尚、上述の説明においては、非線形周波数軸スペクトルマッチング部8は、同じ音素に関する変換元話者Sの平均スペクトル包絡Sと変換先話者Tの平均スペクトル包絡Tとにおける各チャンネルの要素値(スペクトル強度)Si,Tjを用いてマッチングを行なっているが、マッチング対象はスペクトル包絡の各チャネルの出力値(スペクトル強度)に限定されるものではない。例えば、平均スペクトル包絡Sと平均スペクトル包絡Tとに関する隣接チャネル間の出力値の差(スペクトル局所傾き)ΔSとΔTとを用いてマッチングを行なっても構わない。
但し、ΔSj=Sj−S(j-1)ΔTi=Ti−T(i-1)ここで、2≦i,j≦L【0052】ステップS23で、音素番号xが最大値xMAX以上であるか否かが判別される。その結果、最大値xMAX以上であればステップS25に進む一方、そうでなければステップS24に進む。ステップS24で、音素番号xがインクリメントされる。そうした後、上記ステップS19に戻って、次の音素の変換元話者Sと変換先話者Tとのスペクトル包絡のマッチング、得られた周波数ワーピング関数の格納の処理に移行する。
【0053】ステップS25で、上記平均化部7によって、周波数ワープ表メモリ9から各話者毎の周波数ワーピング関数が読み出され、上記ステップS11において分類された類似音素,有声音区間/無声音区間及び音声区間全体毎の平均が、線形変換等によって算出される。そして、得られた平均周波数ワーピング関数(図6(c)に示すように周波数ワーピング関数の加算値で代用してもよい)が、対応する類似音素名,有声音区間/無声音区間および音声区間全体のラベルが付与されて、周波数ワープ表メモリ9によって格納される。
【0054】以降、発声指示に基づく変換先話者の声質での音声合成処理に移行する。ステップS26で、スペクトル包絡変換部10,スペクトル傾き変換部11および音源特性変換部12に対して、発声指示音素に該当する音素番号xが入力される。ステップS27で、スペクトル包絡変換部10によって、特徴メモリ6から変換元話者番号sSに該当する話者番号sと当該音素番号xとが付与されたスペクトル包絡が読み出される。さらに、周波数ワープ表メモリ9から当該音素番号xが付与された平均周波数ワーピング関数(変換元話者番号sSと変換先話者番号sTとの間の平均周波数ワーピング関数)が読み出される。そして、変換元話者Sのスペクトル包絡Sが、平均周波数ワーピング関数(要素値c(i,j))を用いて次式Ti=ΣSj*c(i,j)/Σc(i,j)但し、1≦j≦L(または、i−α≦j≦i+α、α:正整数)に従って変形されて、変換先話者Tでの変形スペクトル包絡T(iチャネルの要素値Ti)が求められる。その結果、図7(a)に示すように、変換元話者Sのスペクトル包絡SのピークSaのチャネル位置(j=4)が、変形スペクトル包絡Tにおいてはチャネル位置(i=3)にワープされるのである。
【0055】ここで、本実施の形態においては、上記周波数ワープ表メモリ9には、各音素毎,各類似音素毎,有声音区間/無声音区間毎及び音声区間全体毎の複数の平均周波数ワーピング関数が格納されている。したがって、以下のように、学習用の変換先話者Tの発声データの量に応じて、適切な平均周波数ワーピング関数を選択することができるのである。すなわち、ある音素(例、後舌母音/o/)の発声データが少ないか全く無い場合には、当該音素(/o/)の類似音素(例、後舌母音/a/)の平均周波数ワーピング関数、または、有声音区間の平均周波数ワーピング関数を選択する。あるいは、当該音素(/o/)の発声データが十分に多い場合には、当該音素(/o/)の平均周波数ワーピング関数を選択するのである。こうすることによって、変換先話者Tの学習用発声データの量が少ない場合でも対処することができ、変換先話者Tの発声負担を軽減することができるのである。
【0056】また、各音素毎および各類似音素毎に上記周波数ワーピング関数の平均値を求めることによって、調音点や口の開き具合等の発声癖に起因する個人差(ソフト差)が正しく正規化されている。したがって、最適な周波数ワーピング関数が得られるのである。
【0057】ステップS28で、上記スペクトル傾き変換部11によって、上記特徴メモリ6から、変換元話者番号sSに該当する話者番号sと当該音素番号xとが付与された平均スペクトル傾きと、変換先話者番号sTに該当する話者番号sと当該音素番号xとが付与された平均スペクトル傾きとが読み出される。そして、図7(b)に示すように、両平均スペクトル傾きの差の分だけ、上記ステップS27において得られた変形スペクトル包絡の傾きが補正されて正規化スペクトル包絡が求められる。尚、この場合にも、学習用の変換先話者Tの発声データの量に応じて、適切な平均スペクトル傾きを選択することによって、変換先話者Tの学習用発声データの量が少ない場合でも対処することができるのである。
【0058】ステップS29で、上記音源特性変換部12によって、特徴メモリ6から変換先話者番号sTに該当する話者番号sと当該音素番号xとが付与された平均音源特性が読み出される。そして、必要に応じて線形変換等によって変形されて変形音源特性が求められる。ステップS30で、スペクトル合成部13によって、上述のようにして得られた正規化スペクトル包絡と変形音源特性とを用いて合成スペクトルが求められる。このスペクトル合成法は、正規化スペクトル包絡と変形音源特性とを合成して、基本周波数の高周波数に亘るスペクトル強度を求めることによって行われる。ステップS31で、波形合成部14によって、上記合成スペクトルのスペクトル強度に基づいて、正弦波重量法によって音声波形が合成される。尚、音声波形の合成法は、合成スペクトルを用いた正弦波重量法に限定されるものではなく、上記正規化スペクトル包絡をゼロ位相化して基本周波数毎に重ね合わせる方法や、上記合成スペクトルを逆フーリエ変換する方法等によっても合成波形を得ることができる。
【0059】ステップS32で、上記ステップS26において音素番号xが指定された発声指示音素は、最後の発声指示音素であるか否かが判別される。その結果、最後の発声指示音素でなければ上記ステップS26に戻って、次の発声指示音素に関する音声波形の合成へ移行する。一方、最後の発声指示音素であれば、声質変換処理動作を終了する。
【0060】上述のように、本実施の形態においては、変換先話者Tおよび変換元話者Sの入力音声を波形分析部1でケプストラム分析し、スペクトル包絡抽出部2でスペクトル包絡を抽出し、スペクトル傾き抽出部3でスペクトル傾きを抽出し、音源特性抽出部4で音源特性を抽出する。そして、平均化部7で、上記スペクトル包絡,スペクトル傾きおよび音源特性の平均値を音素,類似音素,有声音区間/無声音区間,音声区間全体毎に求め、音声認識部5による認識結果の音素番号を付与して特徴メモリ6によって格納する。
【0061】さらに、上記非線形周波数軸スペクトルマッチング部8で、特徴メモリ6に格納された全音素に関して変換元話者Sの平均スペクトル包絡と変換先話者Tの平均スペクトル包絡との非線形周波数軸スペクトルマッチングを行い、最適DPパスに相当する周波数ワーピング関数を求める。そして、平均化部7で、上記周波数ワーピング関数の平均値を類似音素,有声音区間/無声音区間および音声区間全体毎に求め、音素番号を付与して周波数ワープ表メモリ9に格納する。
【0062】そして、発声指示に従って変換先話者の声質での音声合成を行う場合には、次の手順によって行う。すなわち、先ず、スペクトル包絡変換部10で、変換元話者Sの該当音素のスペクトル包絡を、該当音素の変換元話者S/変換先話T間の平均周波数ワーピング関数を用いて、変換先話者Tのスペクトル包絡(変形スペクトル包絡)に変換する。次に、スペクトル傾き変換部11で、変換元話者Sの平均スペクトル傾きと変換先話者Tの平均スペクトル傾きとの差の分だけ上記変形スペクトル包絡の傾きを補正して正規化スペクトル包絡を求める。次に、音源特性変換部12で、変換先話者Tの平均音源特性を変形して変形音源特性を求める。
【0063】そうした後、上記スペクトル合成部13で上記正規化スペクトル包絡と変形音源特性とから合成スペクトルを求め、波形合成部14で上記合成スペクトルに基づいて音声波形を合成するのである。
【0064】すなわち、本実施の形態においては、変換元話者のスペクトル包絡の周波数軸を非線形伸縮して変換先話者のスペクトル包絡を求め、その傾きを補正して正規化スペクトル包絡を求めるようにしている。したがって、従来のフォルマント周波数に基づく声質変換方法やスペクトル包絡のピーク点間の分割点に基づく声質変換方法のごとくスペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることはないのである。
【0065】また、上記スペクトル包絡の変換時に用いる平均周波数ワーピング関数や、上記変形スペクトル包絡の傾き補正時に用いる平均スペクトル傾きや、上記変形音源特性を求める際に用いる平均音源特性は、音素,類似音素,有声音区間/無声音区間および音声区間全体毎に求めてある。したがって、特徴メモリ6や周波数ワープ表メモリ9に保存されている変換先話者Tの発声データの量に応じて、適切な区分での平均周波数ワーピング関数や平均スペクトル傾きや平均音源特性を用いることによって、変換先話者Tの学習用発声データの量が少ない場合でも対処することができる。すなわち、本実施の形態によれば、変換先話者Tの発声負担を軽減することができるのである。さらに、音素毎および類似音素毎の平均周波数ワーピング関数や平均スペクトル傾きや平均音源特性を求めることによって、発声癖に起因する個人差を正規化することができる。
【0066】尚、上記実施の形態においては、変換先話者の声質での音声合成時には、スペクトル包絡変換部10,スペクトル傾き変換部11および音源特性変換部12に対して発声指示音素を指定するようにしている。しかしながら、この発明における発声指示音素の指定方法はこれに限るものではなく、次のように、変換元話者による発声によって直接指定することも可能である。
【0067】すなわち、上記波形分析部1に対して、発声指示音素を変換元話者による発声で入力する。そして、音声認識部5によって、スペクトル包絡抽出部2からのスペクトル包絡と波形分析部1からの韻律情報との時系列に基づいて音声認識を行ない、認識結果の音素系列とその音素区間の韻律情報とを発声指示情報としてスペクトル包絡変換部10,スペクトル傾き変換部11および音源特性変換部12に入力するのである。そうすることによって、スペクトル包絡変換部10及びスペクトル傾き変換部11では、入力音素系列に従って該当音素の平均周波数ワーピング関数や平均スペクトル傾きを読み出す。一方、音源特性変換部12では、入力韻律情報に従って該当音素の音源特性を読み出すのである。こうすることによって、変換元話者による発声がリアルタイムで声質変換される。
【0068】また、上記実施の形態においては、予め、変換元話者と変換先話者との同一音素の平均スペクトル包絡を求め、その平均スペクトル包絡を用いて非線形周波数軸スペクトルマッチングを行って平均周波数ワーピング関数を求めている。しかしながら、同一音素の個々のスペクトル包絡を用いて非線形周波数軸スペクトルマッチングを行って周波数ワーピング関数を求め、その周波数ワーピング関数を同一音素内で平均して平均周波数ワーピング関数を求めても差し支えない。
【0069】<第2実施の形態>図8は、本実施の形態の声質変換装置におけるブロック図である。図8において、波形分析部21,音源特性抽出部23,音源特性変換部30および波形合成部32は、第1実施の形態において図1に示す声質変換装置の波形分析部1,音源特性抽出部4,音源特性変換部12および波形合成部14と同様な構成を有して同様に動作する。
【0070】声道断面積抽出部22は、波形分析部1で抽出された自己相関分析あるいは共分散分析に基づいて、図9(b),(d)に示すような声門から唇に掛けての声道断面積を抽出する。尚、図9(a),(c)は、音源特性抽出部23で抽出された音源特性を示す。音声認識部24は、声道断面積抽出部22で抽出された声道断面積と波形分析部21で抽出された韻律情報(パワーやピッチ周波数等)の時系列に基づいて音声認識を行なう。特徴メモリ25は、上記抽出された声道断面積および音源特性を、音素ラベルを付与して格納する。
【0071】平均化部26は、上記特徴メモリ25に格納されている話者毎の各音素の声道断面積および音源特性に対して、音素,類似音素,有声音区間/無声音区間および音声区間全体(話者)毎に平均値の算出を行う。そして、得られた平均声道断面積および平均音源特性を、対応する音素名,類似音素名,有声音区間/無声音区間あるいは音声区間全体(話者)のラベルを付与して特徴メモリ25に格納させる。さらに、後に声道軸ワープ表メモリ28に格納される話者毎の各音素の声道軸ワーピング関数に対して、上記類似音素,有声音区間/無声音区間および音声区間全体毎に平均値の算出を行う。そして、得られた平均声道軸ワーピング関数を、対応する類似音素名,有声音区間/無声音区間あるいは音声区間全体のラベルを付与して声道軸ワープ表メモリ28に格納させる。
【0072】非線形声道軸マッチング部27は、上記第1実施の形態における非線形周波数軸スペクトルマッチング部8の場合と同様に、動的計画法による非線形声道軸マッチングによって、各音素毎に、図10(a)に示すように、特徴メモリ25に格納された変換元話者Sの平均声道断面積と変換先話者Tの平均声道断面積とのマッチングを行なう。そして、図10(b)に示すような声道軸ワーピング関数を求めて、音素名を付与して声道軸ワープ表メモリ28に格納させるのである。尚、図10(c)は、平均化部26によって算出された平均声道軸ワーピング関数である(加算値代用)。
【0073】声道断面積変換部29は、発声指示に対応する音素の変換元話者Sの声道断面積を特徴メモリ25から読み出す一方、声道軸ワープ表メモリ28から当該音素の声道軸ワーピング関数を読み出す。そして、上記声道軸ワーピング関数を利用して、図11に示すようにして、変換元話者Sの声道断面積を変換先話者Tの声道断面積(変形声道断面積)に変換する。そして、スペクトル合成部31は、声道断面積変換部29からの変形声道断面積と音源特性変換部30からの変形音源特性とを用いて、基本周波数の高周波数に亘るスペクトル強度を求めることによって、合成スペクトルを求めるのである。
【0074】このように、第2の実施の形態においては、上記第1実施の形態におけるスペクトル包絡の代りにスペクトル包絡との関連性の高い声道断面積を用い、変換元話者の声道断面積の声道軸を非線形伸縮して変換先話者の声道断面積を求めるようにしている。したがって、上記第1実施の形態の場合と同様に、従来のフォルマント周波数に基づく声質変換方法やスペクトル包絡のピーク点間の分割点に基づく声質変換方法のごとくスペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることはないのである。
【0075】尚、上記各実施の形態においては、上記音声単位として音素を用いているが、音節であっても適用可能である。
【0076】ところで、上記各実施の形態における波形分析部121,スペクトル包絡抽出部2,スペクトル傾き抽出部3,声道断面積抽出部22,音源特性抽出部423,音声認識部524,平均化部726,非線形周波数軸スペクトルマッチング部8,非線形声道軸マッチング部27,スペクトル包絡変換部10,スペクトル傾き変換部11,声道断面積変換部29,音源特性変換部1230,スペクトル合成部1331および波形合成部1432による上記声質変換処理機能は、プログラム記録媒体に記録された声質変換処理処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ROM(リードオンリメモリ)等でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから声質変換処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記RAMに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0077】ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)−ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0078】また、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0079】尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0080】
【発明の効果】以上より明らかなように、第1の発明の声質変換装置は、スペクトル包絡抽出手段によって第1,第2話者の発声に基づく第1,第2スペクトル包絡を抽出し、非線形周波数軸スペクトルマッチング手段によって、同一ラベルに関して動的計画法を用いた非線形な周波数伸縮マッチングを行って、第1,第2スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求め、スペクトル包絡変換手段によって、指定された音声単位名の第1スペクトル包絡を上記周波数ワーピング関数に基づいて第2話者に関するスペクトル包絡に変換するので、上記指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸を上記周波数軸の対応付けに従って非線形伸縮して、第2話者による音声を得ることができる。
【0081】したがって、この発明によれば、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換を行うことができる。
【0082】また、上記第1の発明の声質変換装置は、スペクトル傾き抽出手段によって第1,第2話者の発声に基づく第1,第2スペクトル包絡の傾きを抽出し、スペクトル傾き補正手段によって、指定された音声単位名の第1,第2スペクトル包絡の傾きの差に基づいて、上記スペクトル包絡変換手段によって得られた上記第2話者に関するスペクトル包絡の傾きを補正すれば、上記得られた第2話者に関するスペクトル包絡の傾きを補正して、より第2話者の声質に近い音声を得ることができる。
【0083】また、上記第1の発明の声質変換装置は、上記音声単位を音素とし、平均化手段によって、上記周波数ワーピング関数を音素,類似音素,有声音区間/無声音区間および話者毎にグループ化し、各グループ別に平均値を算出して平均周波数ワーピング関数を求め、上記スペクトル包絡変換手段を、指定された音素が属する何れかのグループの平均周波数ワーピング関数を上記周波数ワーピング関数として用いるように成せば、上記第1メモリ手段に保存されている第2話者の発声データの量に応じて、適切なグループの平均周波数ワーピング関数を選択して上記周波数ワーピング関数の代りに用いることができる。したがって、第2話者の発声データの量が少ない場合でも精度の高い声質変換を行うことができ、変換先話者の発声負担を軽減できる。さらに、上記音素毎及び類似音素毎の平均周波数ワーピング関数を求めることによって、発声癖に起因する個人差を正規化できる。
【0084】また、上記第1の発明の声質変換装置は、上記音声単位を音素とし、平均化手段によって、第1スペクトル包絡の傾きおよび第2スペクトル包絡の傾きを音素,類似音素,有声音区間/無声音区間及び話者毎にグループ化し、各グループ別に平均値を算出して平均スペクトル傾きを求め、上記スペクトル傾き補正手段を、指定された音素が属する何れかのグループの平均スペクトル傾きを上記スペクトル包絡の傾きとして用いるように成せば、上記第1メモリ手段に保存されている第2話者の発声データの量に応じて、適切なグループの平均スペクトル傾きを選択して上記スペクトル包絡の傾きの代りに用いることができる。したがって、第2話者の発声データの量が少ない場合でも精度の高い声質変換を行なうことができる。さらに、上記音素毎および類似音素毎の平均スペクトル傾きを求めることによって、発声癖に起因する個人差を正規化できる。
【0085】また、上記第1の発明の声質変換装置は、音声認識手段によって、上記抽出された第1スペクトル包絡または第2スペクトル包絡の時系列を不特定話者音声認識方法によって認識し、認識結果の音声単位名を上記第1メモリ手段に送出するようにすれば、上記ラベル用の音声単位名を第1,第2スペクトル包絡から自動的に得ることができる。したがって、上記スペクトル包絡あるいはスペクトル包絡の傾きに対するラベル付け処理を容易に行うことができる。
【0086】また、上記第1の発明の声質変換装置は、上記音声認識手段によって得られた音声単位名の時系列を上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段に供給し、上記スペクトル包絡変換手段あるいはスペクトル傾き補正手段では、上記音声単位名の時系列を上記指定された音声単位名として用いれば、上記声質変換させる音声単位名を、変換元である第1話者の発声音によって直接指定することができる。
【0087】したがって、キーボード等から声質変換すべき音声単位名列を入力する必要がなく、上記第1話者の発声音を上記第2話者の音質での音声に直接リアルタイムに変換することができる。
【0088】また、第2の発明の声質変換装置は、声道断面積抽出手段によって第1,第2話者の発声に基づく第1,第2声道断面積を抽出し、非線形声道軸マッチング手段によって、同一ラベルに関して動的計画法を用いた非線形な声道軸伸縮マッチングを行って、第1,第2声道断面積の声道軸の対応付けを表わす声道軸ワーピング関数を求め、声道断面積変換手段によって、指定された音声単位名の第1声道断面積を上記声道軸ワーピング関数に基づいて第2話者に関する声道断面積に変換するので、上記指定された音声単位名の第1話者による第1声道断面積の声道軸を上記声道軸の対応付けに従って非線形伸縮して、第2話者による声道断面積を得ることができる。そして、この第2話者による声道断面積に基づいて第2話者による音声を得ることができるのである。
【0089】したがって、この発明によれば、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換を行うことができる。
【0090】また、第3の発明の声質変換方法は、上記第1,第2話者の発声音から第1,第2スペクトル包絡を抽出し、上記抽出された上記第1,第2スペクトル包絡に対して動的計画法を用いた非線形な周波数伸縮マッチングを行って上記周波数ワーピング関数を求め、指定された音声単位名の第1スペクトル包絡を上記周波数ワーピング関数に基づいて第2話者に関するスペクトル包絡に変換するので、上記請求項1の場合と同様に、指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸を非線形伸縮することによって、第2話者による声質の音声を得ることができる。
【0091】したがって、第1話者による第1スペクトル包絡の特定位置を抽出する必要が無く、上記特定位置の抽出精度に音質が影響されることのない精度の高い声質変換が行われる。
【0092】また、上記第3の発明の声質変換方法は、上記第1,第2話者の発声音から第1,第2スペクトル包絡の傾きを抽出し、上記指定された音声単位名の第1,第2スペクトル包絡の傾きの差に基づいて上記得られた第2話者に関するスペクトル包絡の傾きを補正すれば、より第2話者の声質に近い音声を得ることができる。
【0093】また、第4の発明のプログラム記録媒体は、コンピュータを、上記第1の発明におけるスペクトル包絡抽出手段,非線形周波数軸スペクトルマッチング手段,スペクトル包絡変換手段,スペクトル傾き抽出手段およびスペクトル傾き補正手段として機能させる声質変換処理プログラムを記録しているので、指定された音声単位名の第1話者による第1スペクトル包絡の周波数軸を非線形伸縮して、第2話者に関するスペクトル包絡を得ることができる。さらに、得られた第2話者に関するスペクトル包絡の傾きを、第1,第2スペクトル包絡の傾きの差に基づいて補正することができる。したがって、第1話者による第1スペクトル包絡の特定位置の抽出精度によって音質が影響されることはなく、精度の高い声質変換を行うことができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013