米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音声データ収録システムおよび音声データ収録方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−256349(P2007−256349A)
公開日 平成19年10月4日(2007.10.4)
出願番号 特願2006−77247(P2006−77247)
出願日 平成18年3月20日(2006.3.20)
代理人 【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
発明者 渡辺 聡 / 兼安 勉
要約 課題
所望する素片を正確かつ迅速に音声データベースに記憶することが可能な,音声データ収録システムおよび音声データ収録方法を提供すること。

解決手段
音声データ収録システムは,収録者により入力された音声情報を取得する音声情報入力部110と,音声情報に基づいて参照信号を生成する信号生成部120と,参照信号と,音声/信号変換部から入力される音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,該判断結果に基づいて音声データ信号を音声データベース180に伝達する評価部150と,を含むことを特徴とする。
特許請求の範囲
【請求項1】
音声データ収録装置と,信号/音声変換装置と,音声/信号変換装置と,音声データベースとを含み,発声者による発声音の音声データ信号を前記音声データベースに記憶する音声データ収録システムであって:
前記音声データ収録装置は,
発声者に要求する発声音についての音声情報を取得する音声情報入力部と;
前記音声情報に基づいて参照信号を生成する信号生成部と;
前記参照信号と,前記音声データ信号とを比較し,前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,判断結果に基づいて前記音声データ信号を前記音声データベースに伝達する評価部と;
を含み,
前記信号/音声変換装置は,前記参照信号を参照音に変換して前記発声者に提供することを特徴とする,音声データ収録システム。
【請求項2】
前記音声情報は,音声データ信号のピッチ情報と継続時間のいずれか一方もしくは双方を含むことを特徴とする,請求項1に記載の音声データ収録システム。
【請求項3】
前記判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むことを特徴とする,請求項1又は2のいずれかに記載の音声データ収録システム。
【請求項4】
前記表示情報は,前記音声データ信号および前記参照信号の継続時間の比較データと,前記発声音および前記参照音のピッチ情報の比較データとを含むことを特徴とする,請求項3に記載の音声データ収録システム。
【請求項5】
前記信号生成部は,あらかじめ準備された音声を合成して参照信号を生成することを特徴とする,請求項1〜4のいずれかに記載の音声データ収録システム。
【請求項6】
前記信号生成部は,正弦波により参照信号を生成することを特徴とする,請求項1〜5のいずれかに記載の音声データ収録システム。
【請求項7】
音声データベースに音声データ信号を記憶する音声データ収録方法であって:
発声者に要求する発声音についての音声情報を取得するステップと;
前記音声情報に基づいて参照信号を生成するステップと;
前記参照信号を参照音に変換して発声者に提供するステップと;
前記発声者による発声音を音声データ信号に変換するステップと;
前記音声データ信号と前記参照信号とを比較し,前記音声データ信号の音声情報が前記参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと;
前記所定の範囲に含まれると判断された前記音声データ信号を音声データベースに伝達するステップと;
を含むことを特徴とする,音声データ収録方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は,音声データベースを作成する際に用いる音声データ収録システムおよび音声データ収録方法に関する。
【背景技術】
【0002】
音声合成とは,一般に,音声データベースに記憶された音声データを組合わせて,所望の音声を生成することをいう。音声合成の方式の1つである規則合成方式(TTS:Text To Speach)は,1つの発音記号に相当する十分な量の素片を記憶した音声データベースを用い,音声データベースに記憶された素片を組合わせて所望の音声を得る方式である。
【0003】
具体的には,音声合成装置には,外部から連続音声の音素毎の情報を示す音声情報が入力される。ここで,音素とは発声可能な音声の最小単位をいう。そして,各音素の音声情報に最も適合する素片を音声データベースからそれぞれ選択し,該選択された素片同士を接続することで連続音声を生成することができる。したがって,音声データベースが記憶する素片を単純に増やすことにより,音声データベース上から素片を選択する際の検索範囲が増加するので,生成する音声を所望する音声に近づけること(音質向上)ができる。
【0004】
このような素片を音声データベースに記憶する場合,従来は,収録者が発声者に記憶したい素片の音声情報(「望む口調」)を説明し,発声者がこれに従って発声していた。そして,収録者が発声者の発した発声音を聴取し,「望む口調」にある程度近いものであると自己の音感に基づいて評価した場合,該発声音を音声データベースに素片として記憶していた。しかし,収録者が発声者に「望む口調」を説明するには,多大な時間を要し,また,「望む口調」が発声者に正確に伝わらないという問題があった。また,収録者によって発声音に対する評価がまちまちになる場合が生じていた。
【0005】
一方,特許文献1に記載の音声データベース作成方法によると,収録者が「望む口調」を音声合成装置により合成音声で作成し,その合成音声を発声者に参照音として提供しており,発声者が「望む口調」を把握する過程の効率化を図っている。
【特許文献1】特開2000‐250572
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし,人間が,自己の聴覚により,数10msec単位での発声音の継続時間の差異や,数Hz単位でのピッチ情報の差異などの細かい音響的差異を認識し,これを評価することは困難であるため,正確な素片を音声データベースに記憶することができないという問題があった。
【0007】
そこで,本発明は,上記問題に鑑みてなされたものであり,本発明の目的とするところは,所望する素片を正確かつ迅速に音声データベースに記憶することが可能な,新規かつ改良された音声データ収録システムおよび音声データ収録方法を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために,本発明のある観点によれば,音声データ収録装置と,信号/音声変換装置と,音声/信号変換装置と,音声データベースとを含み,発声者による発声音の音声データ信号を音声データベースに記憶する音声データ収録システムが提供される。本システムを利用する音声データ収録装置としては,発声者に要求する発声音についての音声情報を取得する音声情報入力部と,音声情報に基づいて参照信号を生成する信号生成部と,参照信号と,音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断し,該判断結果に基づいて音声データ信号を音声データベースに伝達する評価部と,を含み,信号/音声変換装置は,参照信号を参照音に変換して発声者に提供するものを挙げることができる。かかる構成によれば,発声者は参照音を聴取し,参照音を真似て発声するため,参照音を音のガイドとして活用しながら収集をすることができ,発声者の利便性に優れたものである。また,発声者による発声音と参照音との類似性の評価に基づく発声音の合否の判断は,コンピュータによって画一的な基準により実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
【0009】
また,本発明の別の観点によれば,発声者に要求する発声音についての音声情報を取得する音声情報入力部と,音声情報に基づいて参照信号を生成する信号生成部と,参照信号と,音声データ信号に変換された発声音とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の閾値範囲に含まれるか否か判断し,所定の範囲に含まれると判断された音声データ信号を音声データベースに伝達する評価部と,を含むことを特徴とする,音声データ収録装置が提供される。かかる構成によれば,上記音声データ収録システム同様,発声者は聴取した参照音を参考にして発声する。また,発声者による発声音と参照音の類似性の評価および判断はコンピュータによって画一的な基準に基づき実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
【0010】
音声情報は,音声データ信号のピッチ情報と継続時間のいずれか一方または双方を含むとしてもよい。かかる構成によれば,ピッチ情報と継続時間のいずれか一方または双方のパラメータによって確実に音声情報から参照信号を生成することができる。
【0011】
判断結果に基づいて表示情報を生成する表示情報生成部をさらに含むとしてもよい。かかる構成によれば,表示情報生成部は,評価部から入力される評価および判断に関するデータに基づいて,例えば外部装置である表示部に表示するための表示情報を生成する。したがって,発声者は表示部の表示から,自己の発声音の評価を認識することができる。
【0012】
表示情報は,音声データ信号および参照信号の継続時間の比較データと,発声音および参照音のピッチ情報の比較データとを含むとしてもよい。かかる構成によれば,発声者は,評価部の合否以外にも,自己の発声音が,参照音と比較してどのように適切でなかったかを認識することができ,自己の発声を効果的に修正して,次回の発声をすることが可能となる。
【0013】
信号生成部は,あらかじめ準備された音声を合成して参照信号を生成するとしてもよい。かかる構成によれば,発声者はより人間の音声に近い参照音を参考にして発声することができる。
【0014】
信号生成部は,正弦波により参照信号を生成するとしてもよい。かかる構成によれば,参照信号を容易に作成することができ,また,発声者はスペクトル情報を含まない参照音を参考にして発声することができる。
【0015】
また,本発明の別の観点によれば,音声データベースに音声データ信号を記憶する音声データ収録方法であって,発声者に要求する発声音についての音声情報を取得するステップと,音声情報に基づいて参照信号を生成するステップと,参照信号を参照音に変換して発声者に提供するステップと,発声者による発声音を音声データ信号に変換するステップと,参照信号と,音声データ信号とを比較し,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断するステップと,所定の閾値範囲に含まれると判断された音声データ信号を,音声データベースに伝達するステップと,を含むことを特徴とする,音声データ収録方法が提供される。かかる構成によれば,上記音声データ収録システム同様,発声者は参照音を聴取し,参照音を真似て発声する。また,発声者による発声音と参照音の類似性の評価はコンピュータによって画一的な基準に基づき実行される。したがって,発声者による発声と,発声音および参照音の類似性の評価とを効率的に行うことができる。
【発明の効果】
【0016】
以上説明したように本発明にかかる音声データ収録システムおよび音声データ収録方法によれば,所望する素片を正確かつ迅速に音声データベースに記憶することができる。
【発明を実施するための最良の形態】
【0017】
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
【0018】
まず,規則合成方式による音声合成方法について,図8を用いて説明する。
【0019】
図8は,音声合成装置200の構成を示した説明図である。音声合成装置200は,テキスト入力部210,テキスト解析部220,単語データベース(DB)230,音声情報推定部240,素片選択部250,音声データベース(DB)260,素片接続部270および音声データ出力部280を含む。
【0020】
テキスト入力部210は,使用者により入力された音声のテキスト情報を取得し,これをテキスト解析部220に出力する。テキスト情報とは,合成したい音声を文字で示した情報であり,漢字やひらがなを含む。このようなテキスト情報の入力は,例えば,キーボードを介して行われても,スキャナを介して行われるとしてもよい。
【0021】
テキスト解析部220は,テキスト入力部210から入力されたテキスト情報に基づき,中間言語を作成する。具体的には,まず,テキスト解析部220はテキスト情報に含まれていた漢字やひらがなをカナ文字変換する。次に,カナ文字変換されたテキスト情報にアクセントを付して,中間言語に相当するアクセント付きカナ文字列を作成する。上記中間言語を作成する際には,テキスト情報に含まれる漢字の読み方や,単語のアクセントの位置を記憶している単語データベース230が用いられる。
【0022】
音声情報推定部240は,テキスト解析部220から中間言語を入力されると,中間言語を発声可能な音声の最小単位である音素からなる音素列とし,各音素の継続時間やピッチ情報を推定する。ピッチ情報とは,音素の高さ(声帯の振動数)に関する情報である。
【0023】
図9は,上述のようなテキスト情報,中間言語および音声情報の一例を示した説明図である。図9(a)はテキスト情報を,図9(b)は中間言語を,図9(c)は音声情報を示している。
【0024】
図9(a)は,テキスト入力部210が取得した「あらゆる現実」というテキスト情報の一例を示している。テキスト解析部220は,このようなテキスト情報が入力されると,単語データベース230を用いて「アラユルゲンジツ」というカナ文字列に変換し,さらに,「ラ」と「ン」に,図9(b)のようにアクセントを付した中間言語を作成する。音声情報推定部240は,入力された中間言語から,「arayurugenjitu」からなる音素列と,音素列を構成する各音素毎の継続時間およびピッチ情報を図9(c)のように推定する。なお,図9(c)の縦軸はピッチを,横軸は時間を示している。
【0025】
素片選択部250は,音声情報推定部240から推定された音声情報が入力されると,
十分な量の素片が記憶された音声データベース260を検索し,上記音声情報に最も適合する素片および/または素片の組合わせを選択する。より詳細には,入力された各音素と,音声データベース260に記憶された素片との音声情報を比較し,各音素に最も類似する素片を音声データベース260からそれぞれ選択する。なお,各音素と音声データベース260上の素片との類似性だけでなく,選択される素片同士の連続性を考慮して素片を選択をすることもできる。
【0026】
素片接続部270は,素片選択部250により音声データベース260から選択された素片同士を接続し,合成音声信号を作成する。例えば,素片接続部270は,隣接する2素片の波形の相互相関を用いて,位相の同期する接続点を探索し,該接続点で各素片を接続する。
【0027】
合成音声出力部280は,素片接続部270により作成された合成音声信号の供給を受けて,これを外部装置に出力する。外部装置としては,例えば,スピーカ,イヤホンおよびヘッドホンなどが該当する。
【0028】
このような規則合成方式による音声合成方法において,音声データベース260に素片を幅広く記憶しておくことで,より所望する音声に近い合成音声を得ることができる。しかし,膨大な素片を音声データベース260に記憶する際に,発声者の発声音の評価を収録者の音感に基づいて行うとすると,細かい音響的差異を人間が認識することは困難であるため,正確な素片を音声データベースに記憶することができない。
【0029】
本発明の実施の一形態によれば,所望する素片を正確かつ迅速に音声データベースに記憶することが可能な音声データ収録装置100が提供される。以下,本実施形態による音声データ収録装置100について説明する。
【0030】
(第1の実施形態)
まず,本発明の第1の実施形態にかかる音声データ収録システム100により音声データベース180に素片を記憶する流れについて説明する。本実施形態では,単音素(例えば,「あ」の場合/a/,「あー」の場合/aa/など)単位での素片の記憶を行う場合の例を示す。ここで,「/」は,音素の区切りを示している。
【0031】
図1は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,音声合成部120と,評価部150とを含む。
【0032】
音声情報入力部110は,発声者に要求される発声音についての音声情報を取得する。音声情報は,音素の音素名,継続時間およびピッチ情報を含み,上述したように,テキスト解析部220および音声情報推定部240による処理の過程を経て音声情報入力部110に入力されるとしてもよい。ここでピッチ情報は,音素の音声区間におけるピッチの平均値であっても,音素の音声区間において5msごとに計算したピッチを要素とするピッチ列であってもよい。
【0033】
信号生成部としての音声合成部120は,音声情報入力部110から入力される音声情報に基づいて参照信号を生成する。より詳細には,音声合成部120は,音声データベースを内蔵し,上記音声情報に最も適合する素片を該音声データベースから選択し,これを参照信号とする。このような音声合成部120は,素片単位での継続時間およびピッチ情報に従って参照信号を生成する機能を要し,上述したような音声合成装置200を用いることもできる。なお,複数の連続する素片を同時に収録する場合は,各素片の継続時間およびピッチ情報に従って参照信号を生成する機能を要する。
【0034】
ヘッドホン130は,音声合成部120と接続されており,上記参照信号を参照音に変換して発声者に提供し,信号/音声変換部として機能する。発声者は,参照音を参考にして発声する。マイクロホン140は,発声者の入力音声(以下,発声音。)を音声データ信号に変換して評価部150に出力し,音声/信号変換部として機能する。ヘッドホン130およびマイクロホン140には,必要に応じて,アンプなどの増幅器を設けるとしてもよい。
【0035】
評価部150は,音声合成部120からの参照信号の入力と,マイクロホン140からの音声データ信号の入力とを受けて,音声データ信号の音声情報が参照信号の音声情報を基準とした所定の範囲に含まれるか否かを判断する。評価部150は,該判断結果を表示部160に出力する。また,評価部150は,音声データ信号の音声情報が上記所定の範囲に含まれると判断すれば,音声データ信号を音声データベース180に出力し,音声データベース180は該音声データ信号を記憶する。このような評価部150の詳細については後述する。
【0036】
表示部160は,評価部150による判断結果の入力を受け,該判断結果を発声者が認識できるように表示する。表示部160には,例えば液晶ディスプレイを用いることができる。また,評価部150による判断結果は,視覚により認識できる媒体に限らず,聴覚により認識できる媒体を介して発声者に通知することとしてもよい。
【0037】
次に,本実施形態による音声データ収録装置104の評価部150の詳細を図2を用いて説明する。
【0038】
図2は,評価部150の構成を示した説明図である。評価部150は,継続時間算出部152と,継続時間比較部154と,ピッチ情報算出部156と,ピッチ情報比較部157と,合否評価部158とを含む。
【0039】
継続時間算出部152は,マイクロホン140を介して発声音の音声データ信号を入力されると,該音声データ信号の振幅に基づいて音声区間の始点,終点を判断し,音声データ信号の継続時間を算出する。継続時間算出部152は,算出した音声データ信号の音声区間および継続時間を,継続時間比較部154およびピッチ情報算出部156に出力する。
【0040】
継続時間比較部154は,上記音声データ信号の継続時間と,音声合成部120から入力される参照信号の継続時間とを比較し,継続時間差を算出する。そして,該継続時間差を合否評価部158に出力する。
【0041】
ピッチ情報算出部156は,マイクロホン140を介して発声音の音声データ信号が入力されると,時間窓(フレーム)を用いて該音声データ信号のピッチ情報を算出する。具体的には,上記継続時間算出部152から音声データ信号の音声区間が入力されると,まず,音声区間の開始時点に分析フレームの中心を位置させ,該分析フレームにより音声データ信号を切り出す。そして,切り出した音声データ信号に対して自己相関関数を用いたピッチ算出処理を行い,結果を音声区間の開始時点のピッチとする。
【0042】
以降,ピッチ情報算出部156は,フレーム周期を5msとして同様に音声データ信号のピッチを順次算出し,算出されたピッチはそれぞれピッチ情報を構成する要素となる。したがって,ピッチ情報は音声データ信号のピッチを5msおきに示す情報として機能することができる。そして,分析フレームの中心が,音声区間の終了時点を越えた時点でピッチ情報算出を終了する。なお,フレーム周期は5msに限られず,また,各分析フレームにより切り出される音声データ信号の音声区間は,一部重複していてもよい。
【0043】
図3は,上記計算により求められる音声データ信号の音声情報を示した説明図である。図示の例では,音素/a/,継続時間0.098秒である音声データ信号の音声情報を示している。ピッチ情報は,継続時間が0.098秒であるため,継続時間0.098秒をフレーム周期の5msで除し,1を加算して得られる20のピッチを要素として含んでいる。
【0044】
ピッチ情報比較部157は,上記音声データ信号のピッチ情報と,信号合成部120から入力される参照信号のピッチ情報とを比較する。ここで,音声データ信号と参照信号とのピッチ情報を構成するピッチの要素数は,上記ピッチ情報を算出する際のフレーム周期や,上記継続時間の差異により異なる。したがって,直接上記各ピッチ情報同士を比較してもよいが,以下述べる方法により比較してもよい。
【0045】
まず,上記音声データ信号および参照信号の音声区間をN等分する。したがって,音声データ信号および参照信号は,共にN個に分割された音声区間を有することとなる。次に,音声データ信号および参照信号のN個に分割された各音声区間のピッチの平均値を,上記ピッチ情報より求める。これにより,音声データ信号および参照信号は,共にN個の要素からなる平均ピッチ情報を得ることができる。
【0046】
図3では,音声データ信号を4等分して平均ピッチ情報を算出する様子を示している。音声データ信号の継続時間が0.098秒であるため,1つの音声区間はおよそ0.025秒となる。したがって,フレーム周期が5msであるため,各音声区間に含まれる5つのピッチの平均値を求めることで,4つの平均ピッチを要素とする平均ピッチ情報を得ることができる。同様に,参照信号の音声区間を4等分することで,4つの平均ピッチを要素とする平均ピッチ情報を得ることができる。
【0047】
なお,図3の例では各音声区間に均等に5つのピッチを割当てることができたが,例えば,音声データ信号の継続時間が0.024秒であった場合には,各音声区間にピッチの数を均等に割当てることができない。
【0048】
すなわち,音声データ信号の継続時間が0.024秒である場合は,音声データ信号は,第一音声区間(0.000〜0.006秒),第二音声区間(0.006〜0.012秒),第三音声区間(0.012〜0.018秒)および第四音声区間(0.018〜0.024秒)の4つの音声区間に分割される。
【0049】
一方,ピッチは5ms間隔で求められるので,ピッチ1(0.000秒),ピッチ2(0.005秒),ピッチ3(0.010秒),ピッチ4(0.015秒)およびピッチ5(0.020秒)の5つのピッチが抽出される。なお,括弧内の時間は分析フレームの中心時点を意味している。
【0050】
したがって,ピッチの数(5)を単純に音声区間の数(4)で除算するのでは,一の音声区間にどのピッチを割当てるかを特定することができない。
【0051】
そこで,各ピッチを,ピッチ抽出時の分析フレームの中心時点が属する音声区間に割当てるとしてもよい。具体的には,第一音声区間(0.000〜0.006秒)にピッチ1(0.000秒)およびピッチ2(0.005秒)を,第二音声区間(0.006〜0.012秒)にピッチ3(0.010秒)を,第三音声区間(0.012〜0.018秒)にピッチ4(0.015秒)を,第四音声区間(0.018〜0.024秒)にピッチ5(0.020秒)を割当てることができる。
【0052】
このように各ピッチを割当てることにより,音声区間によってピッチ要素数は異なったとしても,各音声区間の平均ピッチを求めることが可能である。参照信号についても同様の処理をすることができる。
【0053】
最後に,音声データ信号の平均ピッチ情報を構成する各平均ピッチと,参照信号の平均ピッチ情報を構成する各平均ピッチとを比較し,各平均ピッチのピッチ差の二乗和を計算する。そして,該計算結果を合否評価部158に出力する。
【0054】
合否評価部158は,あらかじめ継続時間およびピッチ情報についての所定の範囲(許容範囲)を保持しており,継続時間比較部154から入力される継続時間差が上記継続時間の許容範囲に含まれるか否か,およびピッチ情報比較部157から入力される計算結果が上記ピッチ情報の許容範囲に含まれるか否かを判断する。そして,合否評価部158は,判断の結果に拘らず,表示部160に該判断結果を出力する。また,合格であると判断した場合は,同時に,該音声データ信号を音声データベース180に出力する。不合格であると判断した場合は,該音声データ信号は収録者により破棄されるとしてもよい。
【0055】
上記判断基準の一例を以下に示す。継続時間の許容範囲を,例えば参照信号の継続時間の±5%と設定した場合には,上記継続時間差が参照信号の継続時間の±5%の範囲内であれば継続時間は基準を満たし,上記継続時間差が参照信号の継続時間の±5%の範囲外であれば継続時間は基準を満たさないと判断される。ピッチ情報の許容範囲も同様に上記ピッチ差の二乗和の閾値を100と設定した場合には,上記ピッチ差の二乗和が100を下回っていればピッチ情報は基準を満たし,上記ピッチ差の二乗和が100を上回っていればピッチ情報は基準を満たさないと判断される。
【0056】
そして,上記継続時間およびピッチ情報が共に基準を満たした場合に,発声音が合格であると判断する。一方,上記継続時間およびピッチ情報の一方でも基準を満たしていなければ,不合格であると判断する。
【0057】
上記では,単音素発声の場合を例にとって説明してきたが,有声音の連鎖,たとえば母音連鎖などを対象とした収録でも同様の処理で合否判定を行うことができる。このとき,複数の連続する音素の音声データ信号を一体とし,継続時間およびピッチ情報の合否を判断することとしてもよい。
【0058】
かかる構成によれば,全体の継続時間およびピッチ情報のみからでは音声データ信号の個々の音素の境界時点を判断できず,正確な継続時間の素片を記憶できないようにも思われる。しかし,音声データ信号と参照信号の音素の境界時点が異なれば,同時に音声データ信号のピッチ情報にも反映され,上記ピッチ差の二乗和が大きくなると考えられる。したがって,個々の音素の継続時間が異なればピッチ情報の基準を満たさず発声音は不合格と判断されるため,このような問題は生じない。
【0059】
また,ピッチを持たない子音や無声化母音の音声データ信号も,音声データ収録装置100により効果的に音声データベース180に記憶することができる。この場合,ピッチを持たない子音や無声化母音の音声データ信号も,振幅の有無から継続時間を算出することは可能であるため,合否評価部158は,継続時間情報のみで合否を判断することができる。
【0060】
なお,本実施形態による音声データ収録システム100によれば,評価部150が自動的に発声音の合否の判断を行うことが可能であるため,収録者は必ずしも必要でなく,発声者のみで音声データ信号を音声データベース180に記憶することができる。
【0061】
以上説明したように,本実施形態にかかる音声データ収録装置100によれば,発声者による発声音の音声データ信号と参照信号との音声情報とを比較し,類似性を評価する評価部150を備え,より画一的に発声音の合否の判断を行うことができる。
【0062】
(第2の実施形態)
次に,本発明の第2の実施形態による音声データ収録システム100について説明する。
【0063】
図4は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,音声合成部120と,評価部150と,表示情報生成部172とを含む。
【0064】
第1の実施形態による音声データ収録装置104とは,評価部150および表示部160の間に,表示情報生成部172が設けられている点で相違する。他の構成,動作については第1の実施形態と実質的に同一であるので,説明を省略する。
【0065】
表示情報生成部172は,評価部150と接続され,評価部における発声音の音声データ信号に関する比較結果,例えば,発声音の合否判断結果,参照信号と音声データ信号の継続時間の比較データや,ピッチ情報の比較データが入力される。そして,表示情報生成部172は,評価部150から入力された比較結果に基づいて所定の表示情報を生成し,該表示情報を表示部160に出力する。
【0066】
図5は,表示部160に表示される表示情報の一例を示した説明図である。図示の例では,参照音の参照信号(実線)と発声音の音声データ信号(点線)の比較状況をグラフを用いて示している。なお,グラフの横軸は時間(s),縦軸はピッチ(Hz)を示している。発声時間に着目すると,dで示した時間分だけ発声音が短かったことが分かる。また,ピッチは斜線で示した分だけ差異があったことを確認することができる。
【0067】
従来の方法によれば,発声の適切でなかった点を収録者から口頭で説明されても,どの程度適切でなかったかを理解することは困難であったが,かかる構成によれば,発声者は,発声音が不合格と判断された場合,参照音を示す点線と,発声音を示す実線とを比較することにより,自分の発声のどこが適切でなかったかを認識することができる。
【0068】
例えば,発声音が全体的に短すぎた,後半部のピッチを高くしすぎた,全体的に低すぎたなどを確認することができ,再度発声する際に,自らの発声を修正することができる。したがって,当該手法は音声収録の効率化の観点から有効である。
【0069】
図6は,表示部160に表示される表示情報の他の例を示した説明図である。図示の例では,表示部160は,継続時間比較データ164およびピッチ情報比較データ166を表示している。
【0070】
継続時間比較データ164は,発声音の継続時間についての比較結果をヒストグラムを用いて表示している。斜線領域165は,継続時間の許容範囲を示しており,図示の例では参照信号の継続時間の±5%を継続時間の許容範囲と設定した場合を示している。発声音が該斜線領域165に含まれていれば,継続時間は基準を満たしていると判断される。
【0071】
表示例では,発声音と参照音の継続時間の差異は3%であり,これは継続時間の許容範囲に含まれているため基準を満たしていると判断された場合を示している。このように,同一方向に伸びるヒストグラムを用いて参照音と発声音の継続時間を表示し,また,発声音が参照音の継続時間とどれだけ差異があったかを数量的に示すことにより,自己の発声の継続時間の過不足について瞬時に把握することができる。
【0072】
ピッチ情報比較データ166は,発声音のピッチ情報についての比較結果を,ヒストグラムを用いて表示している。境界線Tは,ピッチ情報閾値を示しており,発声音の上記ピッチ差の二乗和が境界線Tを下回っていればピッチ情報は基準を満たしていると評価される。表示例では,発声音と参照音の上記ピッチ差の二乗和は,境界線T(ピッチ情報閾値)を23%上回っており,ピッチ情報は基準を満たしていないと判断された場合を示している。かかる構成により,自己の発声音と参照音とのピッチ差の二乗和の大きさ確認することができる。
【0073】
以上,図5および図6を用いて表示部160の表示例を説明したが,表示情報情報生成部180により生成される表示情報はこれに限られない。例えば,図5および図6に示した表示情報を複合的に生成することとしてもよい。
【0074】
(第3の実施形態)
次に,本発明の第3の実施形態にかかる音声データ収録システム100ついて説明する。一般に,音声合成により生成した参照信号を参照音として発声者に提供した場合,参照音は,ピッチ情報や継続時間以外にスペクトル情報などを含むため人間の音声に近くなる。しかし,上記スペクトル情報を含む参照音を発声者に提供すると,発声者がスペクトル情報に影響され,発声者の本来の発声が妨げられる場合があった。
【0075】
本発明の実施の一形態によれば,かかる問題点を是正した音声データ収録システム100が提供される。以下,音声データ収録システム100について図7を用いて説明する。
【0076】
図7は,本実施形態による音声データ収録システム100の信号の流れを示したブロック図である。音声データ収録システム100は,音声データ収録装置104と,ヘッドホン130と,マイクロホン140と,表示部160と,音声データベース180とを含む。音声データ収録装置104は,音声情報入力部110と,正弦波生成部190と,評価部150とを含む。
【0077】
音声情報入力部110は,発声者に要求する発声音についての音声情報,具体的には,継続時間と,ピッチ情報とを収録者により入力される。ここで,本実施形態による音声データ収録装置104は,参照信号として正弦波を用いるため,音声情報に音素名は不要である。
【0078】
信号生成部としての正弦波生成部190は,音声情報入力部110からの入力に基づき,正弦波を生成し,これをヘッドホンを介して発声者に提供する。正弦波は,ピッチ情報および継続時間のみを音声情報として含むものであり,スペクトル情報などの余分な情報がない。したがって,発声者は,参照音のスペクトル情報に惑わされることなく,本来の発声をすることができる。
【0079】
また,正弦波生成部190には,既存の音声合成装置を用いる必要がないため,容易に参照信号を生成することができる。
【0080】
なお,本実施形態にかかる正弦波生成部190により生成される参照音を聴取しただけでは,発声者は発声すべき音素を認識できない場合があるので,要求する音素名を表示部160に提供するよう構成するとしてもよい。
【0081】
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【図面の簡単な説明】
【0082】
【図1】本実施形態による音声データ収録システムの信号の流れを示したブロック図である。
【図2】評価部の構成を示した説明図である。
【図3】音声データ信号の音声情報を示した説明図である。
【図4】第2の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。
【図5】表示部に表示される表示情報の一例を示した説明図である。
【図6】表示部に表示される表示情報の他の例を示した説明図である。
【図7】第3の本実施形態による音声データ収録システムの信号の流れを示したブロック図である。
【図8】音声合成装置の構成を示した説明図である。
【図9】テキスト情報,中間言語および音声情報の一例を示した説明図である。
【符号の説明】
【0083】
100 音声データ収録システム
104 音声データ収録装置
110 音声情報入力部
120 音声合成部
130 ヘッドホン
140 マイクロホン
150 評価部
160 表示部
172 表示情報生成部
180 音声データベース
190 正弦波生成部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013