米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 株式会社エヌ・ティ・ティ・ドコモ

発明の名称 音声合成システム、音声合成方法、音声合成プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−18006(P2007−18006A)
公開日 平成19年1月25日(2007.1.25)
出願番号 特願2006−259082(P2006−259082)
出願日 平成18年9月25日(2006.9.25)
代理人 【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
発明者 真鍋 宏幸 / 平岩 明 / 杉村 利明
要約 課題
音声認識において、周囲の雑音の影響を受けることなく、少量の音量
であっても高度な認識率を維持する。

解決手段
音声認識システムは、音響信号を取得し、取得した音響信号の変化に基づいて音響情報パラメータを算出する音響情報処理部10と、対象物表面の電位変化を筋電信号として取得し、取得した音響信号の変化に基づいて筋電信号パラメータを算出する筋電信号処理部13と、撮影した対象物の映像を画像情報として取得し、映像中の対象物の変化に基づいて画像情報パラメータを算出する画像情報処理部16と、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータに基づいて音声を認識する音声認識手段20と、音声認識手段による認識結果を提示する認識結果提示手段21とを有する。
特許請求の範囲
【請求項1】
音声を認識する音声認識手段と、
音響信号を取得する音響取得手段と、
取得した前記音響情報から音響信号のスペクトラムを第1のスペクトラムとして取得する手段と、
前記音声認識手段による認識結果から再構成した音響信号のスペクトラムを第2のスペクトラムとして生成する手段と、
前記第1のスペクトラムと前記第2のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成する手段と、
前記修正スペクトラムから合成された音声を出力する出力手段と
を有することを特徴とする音声合成システム。
【請求項2】
前記出力手段は、合成された音声をデータとして送信する通信手段を有することを特徴とする請求項1に記載の音声合成システム。
【請求項3】
音声を認識するステップ(1)と、
音響信号を取得するステップ(2)と、
取得した前記音響情報から音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(3)と、
前記音声認識手段による認識結果から再構成した音響信号のスペクトラムを第2のスペクトラムとして生成するステップ(4)と、
前記第1のスペクトラムと前記第2のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有することを特徴とする音声合成方法。
【請求項4】
前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項3に記載の音声合成方法。
【請求項5】
コンピュータに、
音声を認識するステップ(1)と、
音響信号を取得するステップ(2)と、
取得した前記音響情報から音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(3)と、
前記音声認識手段による認識結果から再構成した音響信号のスペクトラムを第2のスペクトラムとして生成するステップ(4)と、
前記第1のスペクトラムと前記第2のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有する処理を実行させるための音声合成プログラム。
【請求項6】
前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項5に記載の音声合成プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声等の音響を認識し、認識した音声に基づいて音声を合成する音声合成システム、音声合成方法、音声合成プログラムに関する。
【背景技術】
【0002】
通常の音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号の周波数を分析することによって、音声信号を認識し処理する音声認識技術が採用されており、このための方法として、スペクトル包絡等が利用されている。
【0003】
しかし、この音声認識技術を用いて良好な音声検出結果をもたらすためには、発話時にある程度の音量が必要であり、発話による音響信号が入力されない限り音声情報を検出することは不可能であった。従って、音声入力時に話者の声が周囲の人々の迷惑となるため、静けさが要求されるオフィスや図書館さらに公共機関内などでは、このような音声検出装置を使用することができなかった。また周囲の雑音の大きい場所では、クロストークの問題が発生し、音声検出機能が低下するという欠点もあった。
【0004】
これに対して、音響信号以外から音声情報を獲得する研究も従来から行われていた。音響情報以外の情報から音声情報を獲得することができれば、音響を発することなく発話することが可能となり、上記に示した問題点を解決することができる。口唇の視覚情報による音声認識手法としてはビデオカメラにより入力された画像を用いた画像処理による手法がある(例えば、特許文献1又は特許文献2参照)。
【0005】
さらに、口の周囲の筋肉の動きに伴って発生する筋電信号を処理して発声した母音の種類を認識するという研究がある(例えば、非特許文献1参照)。非特許文献1には、筋電信号をバンドパスフィルタを通した後、閾値の交差回数をカウントして5母音(a,i,u,e,o)を弁別することが記載されている。
【0006】
また、他の方式としては、口の周囲の筋肉の筋電信号をニュートラルネットを用いて処理し、発声話者の母音だけでなく、子音も含めて検出する方法が特開平7−181888号に示されている。さらに、1つの入力チャネルからの情報だけでなく、複数の入力チャネルを利用したマルチモーダルインタフェースが提案・実現されてきている。
【0007】
一方、従来の音声合成システムでは、話者の音声を特徴付けるデータを予め保存しておき、話者の発話に合わせて音声を合成する方法が開発されている。
【特許文献1】特開昭52−112205号公報
【特許文献2】特開平6−43897号公報
【非特許文献1】Noboru Sugie et al., “A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,”IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、上記した音響情報以外の情報から音声情報を獲得する音声検出方法では、音響情報を用いた音声認識に比べ、認識率が低いという問題点がある。特に、口内における筋肉の動きにより発生される子音の認識は困難であった。
【0009】
また、従来の音声合成システムでは、上述したように、話者の音声を特徴付けるデータに基づいて音声を合成しているため、合成音声が機械的であるため表現が不自然になり、話者の感情等を適切に表現できないという問題があった。
【0010】
本発明は、以上の問題点を鑑みてなされたものであり、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる音声認識システム、方法及びプログラムを提供することを目的とする。また、他の発明は、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することのできる音声合成システム、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明は、音響信号を取得し、取得した音響信号の変化に基づいて音響情報パラメータを算出し、対象物表面の電位変化を筋電信号として取得し、取得した音響信号の変化に基づいて筋電信号パラメータを算出し、撮影した対象物の映像を画像情報として取得し、映像中の対象物の変化に基づいて画像情報パラメータを算出し、これらの音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータに基づいて音声を認識し、認識結果を提示することを特徴とする。
【0012】
このような本発明によれば、音響信号や筋電信号、画像情報という複数のパラメータを用いて音声認識を行っているために、対雑音性などを大幅に向上することができる。
【0013】
また、他の発明は、音声を認識するとともに、音響情報から音響信号のスペクトラムを第1のスペクトラムとして取得し、音声認識手段による認識結果から再構成した音響信号のスペクトラムを第2のスペクトラムとして生成し、これら第1のスペクトラムと第2のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成し、修正スペクトラムから合成された音声を出力することを特徴とする。
【0014】
このような発明によれば、音響情報からのスペクトラムのみならず、他のパラメータも用いて認識した音声からのスペクトラムに基づいて音声を合成するため、周囲の雑音を効果的に除去することができる。
【0015】
なお、上記2つの発明における音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行うことが望ましい。さらに、音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを同時に用いて認識処理を行うようにしてもよい。
【0016】
また、他の音声認識としては、データの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続し、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたデータ及び前記重み係数に応じて、下流へ出力するデータ及び出力部からの接続を決定する階層ネットワークを構築し、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを上流側から入力し、最下流の素子群から出力されるデータを認識音声とすることが好ましい。
【0017】
この階層ネットワークを利用した場合には、階層ネットワークの下流側からサンプルデータを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された前記重み係数を変更させる学習機能を実現することができる。
【発明の効果】
【0018】
以上説明したように、本発明の音声認識システム、方法及びプログラムによれば、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる。また、他の発明の音声合成システム、方法及びプログラムによれば、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することができる。
【発明を実施するための最良の形態】
【0019】
[第1実施形態]
(基本構成)
以下に本発明の実施形態に係る音声認識システムについて詳細に説明する。図1は、本実施形態に係る音声認識システムの基本構成を示すブロック図である。
【0020】
同図に示すように、音声認識システムは、音響情報処理部10と、筋電信号処理部13と、画像情報処理部16と、情報総合認識部19とを備えている。
【0021】
音響情報処理部10は、発話時に発せられる音響情報を処理するものであり、発話時の音響信号を取得するための音響信号取得手段11と、音響信号取得手段で得られた音響信号のスペクトル包絡やスペクトル微細構造を分離するなどして音響情報パラメータを抽出する音響信号処理手段12とを備えている。
【0022】
音響信号取得手段11は、マイクロフォン等の音響を取得する装置であり、発話時に発せられる音響をマイクロフォンで検出し、取得した音響信号を音響信号処理手段12に伝達する。
【0023】
音響信号処理手段12は、音響信号取得手段11から取得した音響信号を音声認識手段20で処理可能な音響情報パラメータを算出する装置であり、音響信号を設定された時間窓で切り出し、切り出された音響信号に対して、一般的な音声認識で用いられている短時間スペクトル分析や、ゲプストラム分析、最尤スペクトル推定、共分散法、PARCOR分析、LSP分析などの分析法を用いて音響情報パラメータを算出する。
【0024】
筋電信号処理部13は、発話時に口周辺の筋肉の動きを検出して処理を行うものであり、発話時の口周辺の筋肉の動きに伴う筋電信号を取得するための筋電信号取得手段14と、筋電信号取得手段で得られた筋電信号のパワーの計算や周波数分析などして筋電信号パラメータを抽出する筋電信号処理手段15とを備えている。
【0025】
筋電信号取得手段14は、発話時における口周辺の筋肉の活動に伴う筋電信号を検出する装置であり、話者の口周辺の皮膚表面の電位変化を検出する。すなわち、発話時には口周辺の複数の筋肉が協調して活動しており、それら複数の筋肉の活動を捉えるために、筋電信号取得手段14では、発話時に活動する複数の筋肉に対応した複数の皮膚表面電極から複数の筋電信号を導出し、増幅して筋電信号処理手段15に伝達する。
【0026】
筋電信号処理手段15は、筋電信号取得手段14から伝達された複数の筋電信号から筋電信号パラメータを算出する装置であり、具体的には、筋電信号に対して、設定した時間窓で切り出しを行い、切り出された筋電信号に対して、スペクトル分析や、二乗平均平方(RMS)、整流化平均値(ARV)、積分筋電図(IEMG)などの平均振幅の特徴量の算出を行い、筋電信号パラメータを算出する。
【0027】
画像情報処理部16は、発話時の口周辺の空間的な変形を検出して画像処理を行うものであり、発話時の口周辺の空間的な変形をビデオカメラで撮影する画像情報取得手段17と、画像情報処理手段で得られた画像情報から唇周辺の動きパラメータを抽出する画像情報処理手段18とを備えている。
【0028】
画像情報取得手段17は、発話時における口周辺の動きを撮像するビデオカメラなどの撮影機であり、口周辺の動きを画像として検出し、画像情報処理手段18に伝達する。
【0029】
画像情報処理手段18は、画像情報取得手段17で得られた画像情報から画像情報パラメータを算出する装置であり、具体的には、画像情報から口周辺の動きの特徴量をオプティカルフローにより抽出し、画像情報パラメータを算出する。
【0030】
情報総合認識部19は、音響情報処理部及び筋電信号処理部及び画像情報処理部から得られた各種情報を統合して認識し、その認識結果を提示するものであり、音響音声認識部で得られた音響情報パラメータと、筋電音声認識部で得られた筋電信号パラメータと、画像情報処理部で得られた画像情報パラメータとを比較・統合し、音声認識結果の判断を下す音声認識手段20と、音声認識手段で得られた認識結果を提示する認識結果提示手段21とを備えている。
【0031】
音声認識手段20は、上記各部10,13,16から取得した音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを用いて、音声認識を行う演算装置である。この音声認識手段20は、周囲の雑音が少ない場合や、発話時の音量が大きい場合等、音響情報パラメータから十分に音声認識することが可能な場合は、音響情報パラメータのみから音声認識を行う機能を備えている。また、この音声認識手段20は、周囲の雑音が大きい場合や、発話時の音量が小さい場合等、音響情報パラメータのみからでは十分に音声認識することが不可能な場合には、音響情報パラメータだけでなく、筋電信号パラメータ及び画像情報パラメータから得られる情報を加味して、音声認識を行う機能を備えている。
【0032】
さらにこの音声認識手段20は、筋電信号パラメータ及び画像情報パラメータを用いて音声認識する際に、認識率が低い場合には、誤認識する音素などについて、音響情報パラメータを用いることによって、全体としての認識率を高める機能を有している。
【0033】
認識結果提示手段21は、音声認識手段20による認識結果を出力する出力デバイスであり、音声認識手段20で得られた音声認識結果を、話者に対して音声で出力する発生装置や、画面に文字テキストで表示する液晶等の表示モニターを採用することができる。また、この認識結果提示手段21としては、通信インターフェース等を設けることにより、音声認識結果を、話者に提示するだけでなく、パーソナルコンピュータ等の端末装置上で起動しているアプリケーションにデータとして出力するようにしてもよい。
【0034】
(基本動作)
上記基本構成を有する本実施形態に係る音声認識システムは、以下のように動作する。図2は、本実施形態にかかる音声認識システムの動作を示すフロー図である。
【0035】
先ず、話者が発話を開始する(S101)。このとき、話者が発話している際の音響信号、筋電信号、画像情報はそれぞれ、音響信号取得手段11、筋電信号取得手段14、画像情報取得手段17により検出される(S102〜S104)。検出された音響信号、筋電信号、画像情報はそれぞれ、音響信号処理手段12、筋電信号処理手段15、画像情報処理手段18により音響情報パラメータ、筋電信号パラメータ、画像情報パラメータとして算出される(S105〜S107)。
【0036】
算出された各種パラメータは音声認識手段20により音声認識され(S108)、認識結果提示手段21により音声認識結果が提示される(S109)。この認識結果の提示は、上述したように、音声によって行うことも、画面に表示することも可能である。
【0037】
(各手段の動作)
上記基本構成における各手段のそれぞれの動作を以下に詳細に説明する。
【0038】
(1)音声認識手段
図4は、音声認識手段20を説明するブロック図である。ここでは、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行う。
【0039】
具体的には、同図に示すように、本実施形態にかかる音声認識手段20は、最終的な音声認識を行う前に、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。それぞれのパラメータから得られた認識結果のうち、複数の認識結果が一致していれば、その一致したものを最終的な認識結果とし、全ての認識結果が一致していなければ、最も認識確度が高いと思われる認識結果を最終的な認識結果とする。
【0040】
また、例えば、筋電信号パラメータのみを用いた音声認識では、ある特定の音素、または発話パターンの認識率が低いことが予めわかっているような場合、他のパラメータを用いた音声認識の結果、それらの発話が行われていると推測できるような時には、筋電信号パラメータを用いた音声認識結果を無視することによって、最終的な音声認識結果の認識率を向上させることができる。
【0041】
さらに、例えば音響情報パラメータから周囲の雑音が大きい、または発話時の音量が小さいと判断できた場合には、音響情報パラメータを用いた音声認識の結果が最終的な音声認識の結果に与える影響を小さくし、筋電信号パラメータ及び画像情報パラメータを用いた音声認識の結果を重視して、最終的な音声認識を行う。なお、それぞれのパラメータを用いた音声認識は、通常用いられている手法を用いることが可能である。
【0042】
さらに、音声認識手段20は、上記方式に代えて、3つのパラメータから音声認識を行うようにしてもよい。図3は、3つのパラメータから音声認識を行う際の、音声認識手段20の動作を説明する説明図である。
【0043】
この3つのパラメータから音声認識を行う方式としては、例えばニューラルネットワークを用いたものがある。このニューラルネットワークは、同図に示すように、パラメータの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続して構築されるものである。
【0044】
そして、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたパラメータ及び重み係数に応じて、下流へ出力するパラメータ及び出力部からの接続を決定する。具体的に音声認識手段20では、音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを受け取り、出力は母音及び子音である。
【0045】
このニューラルネットワークとして本実施形態では、全結合型の3層ニューラルネットワーク(西川・北村、「ニューラルネットと計測制御」、朝倉書店、pp.18-50を参照)を用いる。
【0046】
このニューラルネットワークでは、予め、重み係数を学習しておく必要がある。本実施形態における学習は、バックプロパゲーション法により行う。そのために予め用意しておいた発話パターンに沿った発話動作を行い、それに伴う音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを取得し、用意しておいた発話パターンを教師信号として、各種パラメータを学習する。この学習処理については、後述する。
【0047】
また、本実施形態に係る音声認識手段20は、話者が発話する際に行う発話動作において、筋電信号は、音響信号及び画像情報よりも時間的に早く発声するため、筋電信号パラメータのみ遅延させることにより音響信号、筋電信号及び画像情報との同期を取る機能を有している。
【0048】
そして、各種パラメータを入力として受け取った音声認識手段20のニューラルネットは、入力されたパラメータがどの音素に対応しているかを出力する。またある音素を発声した場合、それに対応する筋電信号は音響信号及び画像情報よりも時間的に早く出力されるため、筋電信号は時間的に遅らせてニューラルネットに入力することにより、各パラメータの同期を取ることも可能である。
【0049】
なお、このニューラルネットワークとしては、直前の認識結果を入力に戻すリカレント型のニューラルネットワークを用いることも可能である。なお、本発明において、認識に用いるアルゴリズムはニューラルネットワークだけではなく、隠れマルコフモデル(HMM)などの他の認識アルゴリズムを用いることも可能である。
【0050】
この音声認識手段20によれば、発話音量が小さかったり、周囲の雑音が大きかったり、筋電信号をうまく検出することができなかった場合に、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータのうちいずれかのパラメータが音声認識にとって無効となってしまったとしても、最終的な音声認識は、意味のあるパラメータを用いて行うことが可能となり、対雑音性などが大幅に向上することができる。
【0051】
なお、本実施形態に係る音声認識手段20において、音響情報音声認識は現在用いられている各種の音響信号を用いた音声認識手法を用いることが可能である。また筋電信号音声認識は文献「Noboru Sugie et al., “A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,”IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490」に示されている方法や特開平7−181888号に示されている方法を用いることが可能である。また画像情報音声認識は特開2001−51693もしくは特開2000−206986に示されている方法を用いることが可能である。さらに、上記に挙げた手法以外の音声認識手法を用いることも可能である。
【0052】
さらに、本発明における音声認識は、図3で示した方式または図4で示した方式のいずれか一方のみ行うようにしてもよい。また、図4で示した方式を行い、全てのパラメータによっては、音声を認識できない場合に、図3で示した、ニューラルネットワークを用いた音声認識を行うようにしてもよく、また、図3で示した方式で行った認識結果と、図4で示した方式で行った認識結果とを比較し、或いは統合することによって最終的な音声認識を行うようにしてもよい。
【0053】
また、本実施形態では、3つのパラメータを用いて音声認識を行う方法として図3で示したニューラルネットワークを例に説明したが、本発明はこれに限定されるものではなく、ニューラルネットワーク以外の方法を用いて、3つのパラメータから音声を認識することもできる。
【0054】
(2)音響信号処理手段及び筋電信号処理手段
上述した音響信号処理手段12及び筋電信号処理手段15の動作について詳述する。図6は、音響情報パラメータ及び筋電信号パラメータ抽出の一例を説明するための図である。
【0055】
音響信号取得手段11及び筋電信号取得手段14により検出された音響信号及び筋電信号は、音響信号処理手段12及び筋電信号処理手段15によって、まず時間窓により切り出される(図中(a)) 。次に、切り出された信号からFFTを用いてスペクトラムを抽出する(図中(b))。そして抽出したスペクトラムに対して1/3オクターブ解析を行い(図中(c))、各バンドのパワーを算出し、それを音響情報パラメータ及び筋電信号パラメータとする(図中(d))。この音響情報パラメータ及び筋電信号パラメータは、音声認識手段20に送られ音声認識される。
【0056】
なお、本発明における音響情報パラメータ及び筋電信号パラメータの抽出方法は図6に示した以外の方法により行うことも可能である。
【0057】
(3)画像情報処理手段
上述した画像情報処理手段18の動作について詳述する。図7は、画像情報パラメータを抽出する方法を説明するための図である。
【0058】
先ず、時刻t0における口周辺の画像から口周辺の特徴点の位置を抽出する(図中(a)、S501)。口周辺の特徴点の位置を抽出するのは、口周辺の特徴点にマーカーを張り、そのマーカーの位置を特徴点の位置とすることや、撮影された画像から特徴点を探し出すことにより位置を抽出することも可能である。また、位置は画像上の2次元的な位置でもよいし、複数のカメラを用いて3次元の位置を抽出してもよい。
【0059】
次に、時刻t0時と同様に、時刻t0よりΔt経過した時刻t1における口周辺の特徴点の位置を抽出する(図中(b)、S502)。そして、時刻t0と時刻t1における口周辺の特徴点の位置から差分を計算することにより各特徴点の移動量を算出する(図中(c)、S503)。この算出結果から、パラメータを生成する(図中(d)、S504)。
【0060】
なお、画像情報パラメータの抽出方法は図7に示した以外の方法により行うことも可能である。
【0061】
(学習処理)
次いで、上述した学習処理について説明する。図8は、本実施形態における学習処理を説明するフロー図である。本実施形態において音声認識精度を向上させるためには、話者個人の発話の特徴を学習することが重要である。なお、個々で説明する学習方式は、上述したニューラルネットワークを用いて音声認識を行う場合を前提としており、他の方式により音声認識を行う場合には、それに適合した学習方式を適宜採用する。
【0062】
本実施形態では、同図に示すように、先ず、話者は発話動作を開始する(S301,S302)。話者は発話と同時に、キーボード等によって発話している内容、つまり学習における教師データ(サンプルデータ)を入力する(S305)。これと平行して音声認識システムにより音響信号・筋電信号・画像情報を検出し(S303)、それぞれの信号からパラメータを抽出する(S304)。
【0063】
そして、抽出されたパラメータをキーボードから入力された教師信号を基に学習を行う(S306)。すなわち、上述した階層ネットワークの下流側から教師データを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された重み係数を変更させる。
【0064】
その後、学習による認識誤差がある一定値以下となった場合は、学習終了と判定し(S307)、学習を終了する(S308)。一方、ステップS307において、また学習が終了していないと判定した場合には、上記ステップS302〜S306により再度学習を繰り返す。
【0065】
(効果)
以上説明した本実施形態にかかる音声認識システムによれば、音響情報及び筋電信号及び画像情報から得られた、複数のパラメータを用いて音声認識を行っているために、対雑音性などが大幅に向上する。すなわち、3種類の入力インタフェースを持つことにより雑音などの影響を受けにくく、3種類の中で使用できないインタフェースがあっても、残ったインタフェースを用いることによって音声認識を行うことが可能となり、音声の認識率を向上させることができる。その結果、話者が、小さな音量で発話しても、また周囲の雑音が大きな場所で発話しても、十分に音声を認識することができる音声認識システムを提供することが可能となった。
【0066】
[第2実施形態]
上述した音声認識システムを応用することにより音声合成システムを構成することができる。図9は、上述した音声認識システムを用いて音声合成行う際の動作を示すフロー図である。
【0067】
本実施形態にかかる音声合成システムは、同図に示すように、上述した音声認識システムにおける動作ステップS202〜S208を行った後、ステップS209において、検出した音響信号から発話者が発した音響信号以外の雑音を除去し、ステップS20においてクリアな合成音声を出力する。
【0068】
この音声合成について詳述すると、図10に示すように、本実施形態では、音声認識システムによる認識結果を用いて、発声した音素のホルマント周波数などの特徴量から、発声した音素のスペクトラムを再構成する。そして、この再構成したスペクトラム(図中(a) )と、検出した雑音成分を含む音響信号のスペクトラム(図中(c))とを掛け合わせることによって、雑音を除去した音声のスペクトラムを得る(図中(d))ことができる。そして雑音を除去した音声のスペクトラムはフーリエ逆変換により雑音を除去した音響信号(図中(b) )として出力する。すなわち、雑音成分を含む音響信号を、再構成したスペクトラムで表される周波数特性を持つフィルタに通して出力する。
【0069】
本実施形態にかかる音声認識システムによれば、種々の方式により音声認識を行い、この認識結果から再構成した信号と、検出した音響信号の中から、発話者が発声した音響信号と、周囲の雑音とを分離することが可能となり、これにより、周囲の雑音が大きくても、話者の声を生かしたクリアな合成音声を出力することができる。その結果、本実施形態によれば、話者が小さな音量で発話しても、また話者が雑音の大きな場所において発話を行っても、相手にはあたかも雑音のない環境下で通常に発話しているかのような合成音声を出力することが可能となる。
【0070】
なお、本実施形態では、音声の認識処理を上述した実施形態1による方式を採用したが、本発明は、これに限定されるものではなく、音響情報以外のパラメータを用いて音声認識を行い、これと音響情報とにより音声を合成するようにしてもよい。
【0071】
[第3実施形態]
上述した音声認識システム及び音声合成システムは以下の形態により実施することができる。図11は、本実施形態にかかる音声認識合成システムの第3実施形態を説明するための図である。
【0072】
同図に示したように、本実施形態に係る音声認識合成システムは、携帯電話機本体30と、この携帯電話機本体30とは離隔された腕時計型端末31とから構成される。
【0073】
携帯電話機本体30は、周知の携帯電話機に、上述した音響情報処理部10,筋電信号処理部13,音声認識手段20及び音声合成手段を付加したものであり、携帯電話機本体30の表面に、筋電信号取得手段14と、音響信号取得手段11とが設けられている。本実施形態において、筋電信号取得手段14は、話者32の皮膚に接触可能に設けられた複数の皮膚表面電極で構成されており、音響信号取得手段11は、話者32の口付近に設けられたマイクとで構成されている。
【0074】
また、この携帯電話機本体30には、通信手段が内蔵されており音声認識手段20の認識結果に基づいて合成された合成音声を、話者32の通話音声として送信する機能を有している。
【0075】
腕時計型端末31は、上述した画像情報処理部16と、認識結果提示手段21を備えたものであり、腕時計型端末31の表面に設けられた画像情報取得手段17としてのビデオカメラと、認識結果提示手段21としての画面表示装置を備えている。
【0076】
このような構成の音声認識合成システムは、携帯電話機本体30の筋電信号取得手段14及び音響信号取得手段11により話者32からの筋電信号と音響信号を取得するとともに、腕時計型端末31の画像情報取得手段17により話者32の画像情報を取得する。そして、携帯電話機本体30と、腕時計型端末31とは、有線もしくは無線により通信を行い、各信号を携帯電話機本体30に内蔵された音声認識手段20に集約し、音声認識を行い、有線若しくは無線により認識結果を腕時計型端末31の認識結果提示手段21に表示させる。さらに、携帯電話機本体30では、認識結果に基づいて、周囲の雑音を除去したクリアーの音声を合成し、通話相手に送信する。
【0077】
なお、本実施形態では、音声認識手段を携帯電話機本体30に内蔵させ、認識結果を腕時計型端末31の認識結果提示手段21に表示させるようにしたが、例えば、音声認識手段を腕時計型端末31側に設けることもでき、或いは、これらの各装置30及び31と通信可能な他の端末側で音声認識及び音声合成を行うようにしてもよい。また、音声認識を行った際の認識結果は、携帯電話機本体30から音声で出力することも、腕時計型端末31(或いは携帯電話機本体30)の画面に表示することも、それらと通信を行う他の端末に出力することも可能である。
【0078】
[第4実施形態]
さらに、上述した音声認識システム及び音声合成システムは以下の形態により実施することもできる。図12は、本発明の第4の実施形態を説明するための図である。
【0079】
同図に示したように、本実施形態に係る音声認識合成システムは、話者32の頭部に装着可能な眼鏡形状をなす保持器具41と、この保持器具41に音源である話者32の口周辺を撮影可能に固定された画像情報取得手段17としてのビデオカメラ、及び固定部42と、認識結果取得手段21としてのシースルーHMDと、保持器具41に内蔵された音声認識手段とから構成される。固定部42には、筋電信号取得手段14としての皮膚表面電極、音響信号取得手段11としてのマイクが取付けられている。
【0080】
このような音声認識合成システムを装着することにより、話者32は、フリーハンド状態で、音声認識及び音声合成を行うことができる。
【0081】
なお、音声認識手段は保持器具41内に納めることもできるし、保持器具41と通信を行うことが可能な外部の端末に納めることもできる。また、音声認識の認識結果は、シースルーHMD(透過性の表示部)に表示することも、また保持器具41に備えられたスピーカ等の出力装置から音声で出力することもでき、さらに外部の端末に出力することも可能である。さらに、保持器具41にスピーカー等の音声出力装置を設けた場合には、音声認識に基づいて合成された音声を出力するようにしてもよい。
【0082】
[第5実施形態]
なお、上述した第1〜4の実施形態にかかる音声認識システム・音声合成システム及び方法は、パーソナルコンピュータ等の汎用コンピュータや、携帯電話機等に備えられたICチップ上において、所定のコンピュータ言語で記述されたプログラムを実行することにより実現することができる。
【0083】
そして、このような通信制御プログラムは、図13に示すようなコンピュータ115で読み取り可能な記録媒体(フロッピー(登録商標)ディスク116,CD−ROM117,RAM118,カセットテープ119)に記録し、この記録媒体を介して、コンピュータ115を通じて、或いは、移動電話機本体30のメモリ等に直接インストールすることにより、上述した実施形態で説明した音声認識システムや音声合成システムを実現することができる。
【図面の簡単な説明】
【0084】
【図1】第1実施形態にかかる音声認識システムの基本構成を説明するためのブロック図である。
【図2】第1実施形態にかかる音声認識システムの動作を説明するためのフロー図である。
【図3】第1実施形態にかかる音声認識手段の動作を説明するための説明図である。
【図4】第1実施形態にかかる音声認識手段の動作を説明するための説明図である。
【図5】第1実施形態にかかる音声認識手段における階層ネットワークの動作を説明するための説明図である。
【図6】第1実施形態におけるパラメータの抽出処理を説明するための説明図である。
【図7】第1実施形態におけるパラメータの抽出処理を説明するための説明図である。
【図8】第1実施形態における学習処理を説明するためのフロー図である。
【図9】第2実施形態にかかる音声合成システムの動作を説明するためのフロー図である。
【図10】第2実施形態にかかる音声合成システムの動作を説明するための説明図である。
【図11】第3実施形態にかかる音声認識合成システムの説明図である。
【図12】第4実施形態にかかる音声認識合成システムの説明図である。
【図13】第5実施形態にかかる音声認識プログラム及び音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体の斜視図である。
【符号の説明】
【0085】
10…音響情報処理部
11…音響信号取得手段
12…音響信号処理手段
13…筋電信号処理部
14…筋電信号取得手段
15…筋電信号処理手段
16…画像情報処理部
17…画像情報取得手段
18…画像情報処理手段
19…情報総合認識部
20…音声認識手段
21…認識結果提示手段
30…携帯電話機本体
31…腕時計型端末
32…話者
41…保持器具
42…固定部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013