米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> シャープ株式会社

発明の名称 音声合成処理装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−343991(P2001−343991A)
公開日 平成13年12月14日(2001.12.14)
出願番号 特願2000−163460(P2000−163460)
出願日 平成12年5月31日(2000.5.31)
代理人 【識別番号】100075557
【弁理士】
【氏名又は名称】西教 圭一郎
【テーマコード(参考)】
5D045
【Fターム(参考)】
5D045 AA07 BA01 
発明者 隈田 章寛
要約 目的


構成
特許請求の範囲
【請求項1】 発声する音声合成文および発声する声質の指定、切替を行う声質切替情報を含む入力文章を順に読み込んで音声合成文および声質切替情報を抽出し、抽出した音声合成文を、声質切替情報に基づいて音声合成処理を行い、指定された声質で発声する音声合成処理装置において、抽出した声質切替情報を順に格納する声質切替履歴記憶手段を有し、読み出した音声合成文は、最も新しく格納された声質切替情報に基づいて発声し、前記声質切替情報は、声質の指定を示す声質切替情報を解除する声質解除情報を含み、声質解除情報を読み出したとき、最も新しく格納された声質切替情報を解除し、以降の文章は、その次に格納される以前の声質切替情報に基づいて発声することを特徴とする音声合成処理装置。
【請求項2】 前記声質解除情報は、改行コードを含むことを特徴とする請求項1記載の音声合成処理装置。
【請求項3】 前記声質解除情報は、句点コードまたは読点コードを含むことを特徴とする請求項1または2記載の音声合成処理装置。
【請求項4】 前記声質切替情報は、疑問符または感嘆符を含むことを特徴とする請求項1〜3のいずれか1つに記載の音声合成処理装置。
【請求項5】 声質切替情報である前記疑問符、または感嘆符を読み出したとき、その直前の音声合成文の語句を、声質切替情報に対応付けられた声質で発声させることを特徴とする請求項4記載の音声合成処理装置。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、読み取った文章を発声させる音声合成処理装置に関する。
【0002】
【従来の技術】特開平8−83270号公報には、音声合成装置においてテキストデータに話調に関するデータを指定することで、その複合データから自動的に話調を変更して音声を出力できる構成が開示されている。これは起伏のない朗読調になりがちな音声合成処理において、使用者がテキストデータに対して感情的な話調データを指定することで、擬似的に起伏のある感情のこもっているような音声を自動的に発声させることを可能にしている。
【0003】
【発明が解決しようとする課題】しかしながら、上述した従来の方式では、頻繁に話調が変化するような文章では話調変更に関する表示データが多く煩雑であり、見づらくなることがある。
【0004】本発明では、話調変更規則を改善することにより、より見やすく扱いが容易にすることを目的とする。
【0005】
【課題を解決するための手段】本発明は、発声する音声合成文および発声する声質の指定、切替を行う声質切替情報を含む入力文章を順に読み込んで音声合成文および声質切替情報を抽出し、抽出した音声合成文を、声質切替情報に基づいて音声合成処理を行い、指定された声質で発声する音声合成処理装置において、抽出した声質切替情報を順に格納する声質切替履歴記憶手段を有し、読み出した音声合成文は、最も新しく格納された声質切替情報に基づいて発声し、前記声質切替情報は、声質の指定を示す声質切替情報を解除する声質解除情報を含み、声質解除情報を読み出したとき、最も新しく格納された声質切替情報を解除し、以降の文章は、その次に格納される以前の声質切替情報に基づいて発声することを特徴とする音声合成処理装置である。
【0006】また本発明の前記声質解除情報は、改行コードを含むことを特徴とする。また本発明の前記声質解除情報は、句点コードまたは読点コードを含むことを特徴とする。
【0007】本発明に従えば、入力文章は音声合成文と声質切替情報とを含み、入力文章を順に読み取って、音声合成文と声質切替情報を読み出し、抽出した声質切替情報を声質切替履歴記憶手段に格納しておく。そして、読み出した音声合成文を、最も新しく格納された声質切替情報に基づいて発声する。このようにして、入力文章に挿入された声質切替情報に応じて声質を変更して発声する。本発明では、声質切替情報は声質解除情報を含み、声質解除情報を読み出したとき、声質切替履歴記憶手段に最も新しく格納された声質切替情報が打ち消されて解除される。これによって、次の声質切替履歴記憶手段は、前回の声質切替情報に基づいて発声される。したがって、たとえば最初に標準声質設定を行った場合には、声質を変える部分の文頭に声質切替情報を設定し、文末に声質解除情報を設定することで、もとの標準声質にもどすことができる。
【0008】また、本発明では改行コードや句読点など、入力文章にもともと挿入されるコードを声質解除情報に設定することによって、前述した従来技術のように、話調変更に関する表示データが煩雑に表示されることが防がれ、見ずらくなるといったことが防がれる。
【0009】また本発明の前記声質切替情報は、疑問符または感嘆符を含むことを特徴とする。
【0010】また本発明は、声質切替情報である前記疑問符、または感嘆符を読み出したとき、その直前の音声合成文の語句を、声質切替情報に対応付けられた声質で発声させることを特徴とする。
【0011】本発明に従えば、疑問符や感嘆符を声質切替情報とし、たとえば疑問符を読み出したとき、その直前の語句の語尾が上がるように設定したり、感嘆符の直前の語句は、驚いた口調で発生するように設定することによって、特別な話調変更データを挿入しなくとも、自然な話調で発声することができる。
【0012】
【発明の実施の形態】以下、添付した図面を参照して本発明の音声合成処理装置の実施の一形態について詳細に説明する。本実施形態の音声合成処理装置は、たとえばパーソナル・コンピュータ、または携帯情報端末などの情報処理装置によって実現される。
【0013】図1は本実施形態の音声合成装置1の概略構成を示すブロック図である。本装置はCPU(central processing unit)11、ROM(read only memory)12、RAM(random access memory)13、記憶装置14、辞書15、入力部16、表示部17、音響処理部18、およびスピーカ19から構成される。つぎに、本装置の概要について説明する。記憶装置14には、音声合成を行う文章が格納されており、使用者は入力部16、表示部17により前記文章に音質切替情報を挿入して文章の編集を行い、音声合成文および声質切替情報を含む入力文章を作成する。なお、声質切替情報の具体的な挿入方法については、図8〜図14で詳細に説明する。
【0014】音声合成処理のプログラムはROM12に格納されており、辞書15には、漢字の読みやアクセント情報がデータとして登録されている。CPU11は、ROM12に格納されるプログラムにしたがって記憶装置14から前記入力文章を読み出し、辞書15に記憶されたデータをもとに音響処理部18で抑揚とともに、指定された声質で音声合成を行い、スピーカ19から発声する。
【0015】図2は音声合成装置1の音声合成処理の構成を示すブロック図である。処理部22は、前記記憶装置14から声質切替情報が含まれた入力文章21を順に読み出し、音声合成処理を行い、声質切換を伴った音声28を発声させる。
【0016】処理部22は、フォント音質対応記憶手段23、音声合成文一時記憶手段24、声質切替履歴記憶手段26、音声合成処理部27とを有する。これらは、実行時にRAM13に生成される。
【0017】フォント声質対応記憶手段23は、図3に一例として示すように、フォントと声質切替情報とを対応させて記憶している。たとえば、フォント欄に示されているロボットの顔に似せた絵文字は、“ロボットの声にする”という声質切替情報に対応づけられている。また、句点“。”は、声質解除情報として対応づけられおり、“!”、“?”は、それぞれのフォントが出現する以前の文章を、驚いた声、疑問の声で発声する声質切替情報と対応づけられている。
【0018】また、通常は表示されないが、テキストデータに含まれる改行コードや読点“、”を声質解除情報として設定してもよい。
【0019】つぎに、音声合成処理方法について説明する。入力文章21は先頭から一文字ずつ読み出して処理が行われる。読み出したフォントが、フォント声質対応記憶手段23で対応づけされていない場合は、音声合成文となるテキストデータとして、音声合成文一時記憶手段24に一時的に記憶する。また、対応づけされた声質切替フォントは対応する声質切替情報25に変換し、この声質切替情報25に従って、声質情報を声質切替履歴記憶手段26に記憶する。
【0020】このようにして、一連の入力文章を読み込み、音声合成文一時記憶手段24に記憶された音声合成文と共に声質切替情報を音声合成処理部27に送り、音声28として発声する。
【0021】図4〜6は声質切替履歴記憶手段26の記憶形式及び動作について示したものである。声質切替履歴記憶手段はスタックのような動作を行い、読みだした順に声質切替情報がスタックにプッシュされ、声質解除情報によりスタックからポップされるものとする。
【0022】図4を参照して音質切替履歴記憶手段26の動作について説明する。音質切替履歴記憶手段26には、下から“宇宙人の声”、“相撲取りの声”、“お婆さんの声”の順に音質切替情報が積み上げられて格納されており、音声合成文一時記憶手段24に記憶されている情報はリセットされ、何も記憶されていないものとする。そして、入力文章を順に読み出し、音質切替情報が現れるまで、音声合成文一時記憶手段24に音声合成文がテキストデータとして蓄積される。
【0023】図4の41の状態は、“ロボットの声にする”という声質切替情報が現れたときの状態を示す。声質切替情報が現れると、声質切替情報履歴記憶手段26に最後に積まれた情報である“お婆さんの声にする”という声質情報と共に音声合成文一時記憶手段24に記憶された音声合成文を音声合成処理部27へ送り、音声合成文をお婆さんの声で発声させる。その上で、“ロボットの声にする”という声質情報を音質切替履歴記憶手段26の最後に積むことにする。そうすることで、声質切替情報以後の文章を、ロボットの声質で発声させることができる。
【0024】図5は声質切替情報として声質解除情報が与えられた場合の処理を示す。51の状態から声質解除情報が与えられた時は、それまでに最後に積まれた情報である“ロボットの声にする”という声質情報と共に音声合成文一時記憶手段24に記憶された文章を音声合成処理部へ送り、ロボットの声で発声させる。その上で、スタックの最上部に積まれた“ロボットの声にする”という声質情報をスタックから削除する(52)。そうすることにより、次に発声される文章を元の声質情報である“お婆さんの声”に戻すことが可能となる。
【0025】また、図3で示したように、句点“。”を声質解除情報と設定することで、一文ずつ、音質切替履歴記憶手段26に積まれた声質切替情報を取り出し、一文ごとに、声質切替履歴記憶手段26に格納される声質切替情報で順に発声することができる。
【0026】また、改行コードを声質解除情報として設定した場合は、一段落を一まとまりの音声合成文として発声することができ、読点“、”を声質解除情報として設定した場合は、読点で区切られた文章を一まとまりの音声合成文として発声することができる。また、図4の42で“ロボットの声にする”という声質情報をスタックに積むとき、複数、たとえば2個積むことにより、その直後の声質解除情報を無効にし、2文を指定された声質で発声させることも可能である。
【0027】図6は直前文声質切替情報が与えられた場合の処理を示している。図3で示したように、“!”および“?”には、直前文声質切替情報が対応付けられており、図6の61の状態において、“!”に対応づけられた“驚いた声にする”という直前文声質切替情報が与えられた時は、最後に積まれた情報である“お婆さんの声”という声質情報に“驚いた声”という声質情報を加えた上に、音声合成文一時記憶手段24に記憶された文章と共に音声合成処理部へ送り、お婆さんの驚いた声で発声させる。この“驚いた声”の声質情報は声質切替履歴手段26には積まず、声質切替履歴手段26はそのままの状態を保持する(62)。
【0028】図7は本発明の動作を示すフローチャートである。前述したように、声質切替情報を含んだ入力文章を1文字づつ読み出し、図7に示すフローチャートに従って一文字ずつ処理する。
【0029】まず、読み出した文字が声質切替情報であるかを判定し(ステップS701)、声質切替情報の場合は図4で示したように声質切替履歴記憶手段24の最上部に積まれた声質情報で発声させる(ステップS702)。その後、音声合成文一時記憶手段24に記憶される音声合成文を削除した上で、入力切替情報を声質切替履歴手段26に積んで元の処理に戻る(ステップS703)。
【0030】声質切替情報でない場合は、声質解除情報であるかを判定し、(ステップS704)、声質解除情報の場合は図5で示したように声質切替履歴記憶手段24の最上部に積まれた声質情報で発声させる(ステップS705)。音声合成文一時記憶手段24の音声合成文を削除した上で、声質切替履歴記憶手段24の最上部に積まれた声質情報を削除し、元の処理に戻る(ステップS706)。
【0031】声質解除情報でない場合は、直前文声質切替情報であるかを判定し、(ステップS707)、直前文声質切替情報の場合は図6で示したように声質切替履歴記憶手段24の最上部に積まれた声質情報に直前文声質切替情報を加えた声質で発声させ、音声合成文一時記憶手段24の情報を削除した上で、元の処理に戻る(ステップS708)。
【0032】直前文声質切替情報でない場合は、通常のテキストデータとして、音声合成文一時記憶手段24に一時記憶(ステップ709)し、その後、全文が終了したかどうかを判定し(ステップ710)、終了していない場合は元の処理に戻る。終了した場合は、音声合成文一時記憶手段24に記憶される音声合成文を声質切替履歴記憶手段24の最上部に積まれた声質情報で発声して処理を終了する(S711)。
【0033】図8〜14は音声合成処理すべき文章に声質切替情報を挿入して入力文章を作成するときの表示例である。文章全文を指定された声質で発声される場合は、まず、図8に示すように、文章の先頭にカーソル100を配置する。つぎに、図9に示すように、その場所でメニュー表示を表示させる、そこで希望の声質を選択する。こうすることで、フォント声質対応記憶手段23に記憶されている対応付けされたフォント101が、図10のようにカーソル位置に挿入される。このように文章の先頭にのみ声質切替情報が挿入された入力文章は、全文が指定された声質で発声される。
【0034】その他の設定状態として、文章全体に標準声質設定が指定されており、句点コード“。”が声質解除情報に対応づけられており、上記したように、文章の先頭のみに声質切替情報が挿入される場合は、最初の文章の“突然ですが、本日5時に集まることになりました。”のみが声質切替情報で指定された声質で発声され、その後は標準声質設定の声質で発声されることになる。このような標準声質の設定は、たとえば声質解除情報によって解除されないように設定されて声質切替履歴記憶手段26に格納するようにしてもよい。
【0035】図11からは使用者が指定する区間のみの声質を切り替える時の手順を示している。カーソル100を声質切替えしたい区間の先頭に配置し(図11)、シフトキーを押しながらカーソルキーを押すなどによる既存のテキスト文書の区間指定手段にしたがって、終点を指定する(図12)。区間が指定された状態のまま、メニュー表示を開いて希望の声質を選択する(図13)。そうすることで、声質切替えをする先頭に声質切替情報に対応づけられたフォント141が挿入され、終点には声質解除情報に対応づけされたフォント142が挿入される。この場合、文章の先頭の“突然ですが、〜連絡しておきます。”までが標準声質設定の声質で発声され、その次の“ご注意!〜”の手前に、声質切替えフォント141があるため、この“ご注意!〜電話で確認して下さい。”までを対応する声質情報に切り替えて発声させる。その次には、声質解除情報に対応づけされたフォント142があるので、前記“ご注意”の前にある声質切替えフォント141の設定を解除し、以降の文章は、対応する声質切替え情報141以前の声質である標準声質設定で発声されることになる。
【0036】その他の条件として例えば声質切替えフォント141以前に“ロボットの声質に切り替える”声質切替えフォントが指定されていた場合は、声質解除フォント142以降がロボットの声質で発声される。
【0037】
【発明の効果】本発明によれば、声質解除情報を設定することで、元の声質に戻して発声することができる。この声質解除情報として、テキストデータにもともと挿入される改行コードや句読点などのコードを対応づけることで、表示が煩雑にならず見やすくなる。また、疑問符や感嘆符が付されている直前の単語の声質を変えることで、内容を確実に伝えることができ、聞く場合に、注意して聞くところを促すことができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013