発明の名称 |
雑音除去装置、通信端末、及び、雑音除去方法 |
|
発行国 |
日本国特許庁(JP) |
公報種別 |
公開特許公報(A) |
公開番号 |
特開2007−3702(P2007−3702A) |
公開日 |
平成19年1月11日(2007.1.11) |
出願番号 |
特願2005−182197(P2005−182197) |
出願日 |
平成17年6月22日(2005.6.22) |
代理人 |
【識別番号】100066980 【弁理士】 【氏名又は名称】森 哲也
|
発明者 |
張 志鵬 / 菊入 圭 / 仲 信彦 / 大矢 智之 |
要約 |
課題 様々な種類の雑音が発生する雑音環境において、明瞭度の高い音声を獲得することを可能とする雑音除去装置、通信端末、及び、雑音除去方法を提供する。
解決手段 携帯電話機10の音声取得部11は、骨伝導マイクロフォン101から出力された骨伝導音声信号と、気導マイクロフォン102から出力された気導音声信号とを含むマルチチャンネルの音声信号を取得する。雑音除去部12は、ICAを用いて音声信号から雑音成分を除去する。通話部14は、雑音が除去されたクリアな音声信号を通信相手装置に送信する。 |
特許請求の範囲
【請求項1】 骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号を取得する音声取得手段と、 前記音声取得手段により取得された音声信号から、独立成分分析(ICA)を用いて雑音成分を除去する雑音除去手段と を備えることを特徴とする雑音除去装置。 【請求項2】 発話者の発声による身体振動を骨伝導音声信号に変換して出力する骨伝導マイクロフォンと、 発話者の発声による空気振動を気導音声信号に変換して出力する気導マイクロフォンとを備え、 前記音声取得手段は、 前記骨伝導マイクロフォンから出力された骨伝導音声信号と前記気導マイクロフォンにから出力された気導音声信号とを含むマルチチャンネルの音声信号を取得することを特徴とする 請求項1に記載の雑音除去装置。 【請求項3】 前記雑音除去手段は、 前記音声取得手段により取得された骨伝導音声信号から音声区間を検出し、該検出した音声区間における音声信号に対して周波数領域での独立成分分析を行うことを特徴とする 請求項1又は2に記載の雑音除去装置。 【請求項4】 前記雑音除去手段は、 前記骨伝導音声信号の信号レベルが所定の閾値を下回る場合は、独立成分分析を用いずに、前記気導音声信号のみから雑音成分を除去することを特徴とする 請求項1から3の何れか1項に記載の雑音除去装置。 【請求項5】 請求項2から4の何れか1項に記載の雑音除去装置と、 該雑音除去装置によって雑音成分が除去された音声信号を通信相手装置に送信する通話手段と を備えることを特徴とする通信端末。 【請求項6】 前記骨伝導マイクロフォンは、自端末の筐体のうちスピーカが配置されている側に配置されていることを特徴とする 請求項5に記載の通信端末。 【請求項7】 骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号を取得する音声取得ステップと、 前記音声取得ステップにおいて取得された音声信号から、独立成分分析を用いて雑音成分を除去する雑音除去ステップと を有することを特徴とする雑音除去方法。
|
発明の詳細な説明
【技術分野】 【0001】 本発明は、音声信号から雑音成分を除去する雑音除去装置、通信端末、及び、雑音除去方法に関する。 【背景技術】 【0002】 従来、雑音環境において収録した音声信号から雑音成分を除去することにより、明瞭な(クリアな)音声を獲得するための技術が種々検討されている。例えば、特許文献1には、複数の気導マイクロフォンからの出力信号に共通に含まれる音声成分を独立成分分析(ICA(Independent Component Analysis))によって除去することにより、雑音成分を抽出する技術が記載されている。 【0003】 しかしながら、雑音がある程度大きい場合には、ICAを用いても明瞭な音声を獲得することが難しい。また、特許文献1では時間領域でICAを用いており、計算量が膨大となる。さらに、各マイクロフォンからの出力信号に共通に含まれる成分を音声成分とみなしているために、各マイクロフォンの特性が均一でなければならず、調整が困難である。 雑音の影響を抑えるために、骨伝導音声を利用する手法も検討されてきている。骨伝導音声とは人体等を伝搬する音声である。音響インピーダンスの違いによって、骨伝導音声が空気中を伝わる雑音から受ける影響は小さい。従って、雑音環境において、発話者の骨伝導音声を高いSNR(Signal-to-Noise Ratio;対雑音信号比)で獲得することが可能となる。 【0004】 しかしながら、骨伝導音声は雑音環境には強いものの、頭骨内を伝搬するに従って空気中とは異なる変調、減衰作用を受け、特に高周波数帯域が減衰する。これにより、音質が劣化し、明瞭度が低下するという問題点がある。 このような骨伝導音声の問題点を解決するための技術として、特許文献2には、同時に取得した骨伝導音声と気導音声との音圧比を調整する技術が記載されている。 【特許文献1】特開2004−69772号公報(段落0028〜0042) 【特許文献2】特開2003−264883号公報(段落0061〜0066) 【発明の開示】 【発明が解決しようとする課題】 【0005】 しかしながら、特許文献2に記載の技術は、雑音の種類やSNRが変化する場合にゲインの調整が困難である。このため、特許文献2に記載の技術は、多種類の非定常な雑音が発生する環境下では音声信号から雑音を適切に除去することが難しく、利用シーンが限られる。 本発明は上記問題点に鑑みてなされたものであり、様々な種類の雑音が発生する雑音環境において、明瞭度の高い音声を獲得することを可能とする雑音除去装置、通信端末、及び、雑音除去方法を提供することを課題とする。 【課題を解決するための手段】 【0006】 上記課題を解決するために、請求項1に記載の発明は、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号を取得する音声取得手段と、前記音声取得手段により取得された音声信号から、独立成分分析を用いて雑音成分を除去する雑音除去手段とを備えることを特徴とする雑音除去装置を提供する。 この発明によれば、雑音除去装置は、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号から独立成分分析を用いて雑音成分を除去するため、様々な種類の雑音が発生する雑音環境において明瞭度の高い音声を獲得することが可能となる。 【0007】 請求項2に記載の発明は、請求項1に記載の雑音除去装置において、発話者の発声による身体振動を骨伝導音声信号に変換して出力する骨伝導マイクロフォンと、発話者の発声による空気振動を気導音声信号に変換して出力する気導マイクロフォンとを備え、前記音声取得手段は、前記骨伝導マイクロフォンから出力された骨伝導音声信号と前記気導マイクロフォンにから出力された気導音声信号とを含むマルチチャンネルの音声信号を取得することを特徴とする。 この発明によれば、雑音除去装置自身が備える骨伝導マイクロフォンと気導マイクロフォンとを用いて、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号を取得することができ、雑音除去装置は、取得した音声信号に基づいてリアルタイムに明瞭度の高い音声を獲得することができる。 【0008】 請求項3に記載の発明は、請求項1又は2に記載の雑音除去装置において、前記雑音除去手段は、前記音声取得手段により取得された骨伝導音声信号から音声区間を検出し、該検出した音声区間における音声信号に対して周波数領域での独立成分分析を行うことを特徴とする。 この発明によれば、雑音除去装置は、骨伝導音声信号から音声区間を検出し、該検出した音声区間における音声信号に対して周波数領域での独立成分分析を行うため、雑音が大きい環境においても骨伝導音声信号を利用して高精度に音声区間を検出することができ、また、時間領域での独立成分分析を行うよりも計算量を削減することが可能となる。 【0009】 請求項4に記載の発明は、請求項1から3の何れか1項に記載の雑音除去装置において、前記雑音除去手段は、前記骨伝導音声信号の信号レベルが所定の閾値を下回る場合は、独立成分分析を用いずに、前記気導音声信号のみから雑音成分を除去することを特徴とする。 この発明によれば、骨伝導音声信号の信号レベルが所定の閾値を下回る場合は、独立成分分析を用いずに気導音声信号のみから雑音成分を除去するため、骨伝導音声信号の信号レベルが低い場合に独立成分分析による雑音除去の精度が低下するのを防ぐことができる。 【0010】 請求項5に記載の発明は、請求項2から4の何れか1項に記載の雑音除去装置と、該雑音除去装置によって雑音成分が除去された音声信号を通信相手装置に送信する通話手段とを備えることを特徴とする通信端末を提供する。 この発明によれば、発話者は、雑音環境下においても、前記通信端末を用いて、通信相手とクリアな音声で通話を行うことができる。 【0011】 請求項6に記載の発明は、請求項5に記載の通信端末において、前記骨伝導マイクロフォンは、自端末の筐体のうちスピーカが配置されている側に配置されていることを特徴とする。 この発明によれば、前記骨伝導マイクロフォンは、通信端末の筐体のうちスピーカが配置されている側に配置されているため、発話者は、通信端末を用いて通話を行う際に、骨伝導マイクロフォンが身体に接触するようにすることができ、発話者の骨伝導音声信号を高い信号レベルで取得することが可能となる。 【0012】 請求項7に記載の発明は、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号を取得する音声取得ステップと、前記音声取得ステップにおいて取得された音声信号から、独立成分分析を用いて雑音成分を除去する雑音除去ステップとを有することを特徴とする雑音除去方法を提供する。 この発明によれば、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号に対して独立成分分析を適用することにより、音声信号から雑音成分を高精度に除去することができ、様々な種類の雑音が発生する雑音環境においても明瞭度の高い音声を獲得することが可能となる。 【発明の効果】 【0013】 本発明によれば、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号から独立成分分析を用いて雑音成分を除去するため、様々な種類の雑音が発生する雑音環境においても明瞭度の高い音声を獲得することが可能となる。 【発明を実施するための最良の形態】 【0014】 以下、本発明に係る実施形態について図面を参照しながら説明する。本実施形態では、本発明に係る雑音除去装置を携帯電話機に適用した例について説明する。 [1.構成] 図1は、本発明の実施形態に係る携帯電話機10の外観を示す図である。携帯電話機10筐体の片側には、骨伝導マイクロフォン101と、気導マイクロフォン102と、スピーカ103と、液晶ディスプレイ104と、操作キー105とが設けられている。 【0015】 同図に示すように、筐体の上部に液晶ディスプレイ104、下部に操作キー105が配置されている。操作キー105の下方には気導マイクロフォン102が配置されている。この気導マイクロフォン102が配置されている位置は、発話者が携帯電話機10を用いて通話を行う際に発話者の口元に近くなる位置である。液晶ディスプレイ104の上方には、スピーカ103及び骨伝導マイクロフォン101が配置されている。ここで、骨伝導マイクロフォン101は、発話者が通話する際に、発話者の顔等の身体部分が当該骨伝導マイクロフォン101に接触するように配置される必要がある。このため、骨伝導マイクロフォン101は、最低限、携帯電話機10の筐体のうちスピーカ103が配置されている側に配置される必要がある。本実施形態においては、骨伝導マイクロフォン101は、スピーカ103の近傍に配置されている。 【0016】 次に、携帯電話機10が備える機能について説明する。図2は、携帯電話機10の機能構成を示すブロック図である。 骨伝導マイクロフォン101は、発話者の発声による身体振動を骨伝導音声信号に変換し、音声取得部11に出力する。 気導マイクロフォン102は、発話者の発声による空気振動を気導音声信号に変換し、音声取得部11に出力する。 【0017】 図3(a)に示すグラフは、気導マイクロフォン102から出力される気導音声信号を示しており、図3(b)に示すグラフは、骨伝導マイクロフォン101から出力される骨伝導音声信号を示している。グラフの横軸が時間を表し、縦軸が信号レベルを表している。図3(a)に示す気導音声信号よりも図3(b)に示す骨伝導音声信号の方が、音声区間と非音声区間との信号レベルの差が明瞭である。これは、骨伝導音声信号の方が雑音の影響を受けにくく、SNRが高いためである。 【0018】 図2に戻り、音声取得部11は、入出力インターフェース及びメモリを含んで構成される。音声取得部11は、骨伝導マイクロフォン101から出力された骨伝導音声信号と、気導マイクロフォン102から出力された気導音声信号とを含むマルチチャンネルの音声信号を取得し、一時的にメモリに保存する。 雑音除去部12は、CPU及びプログラムを含んで構成され、音声取得部11により取得されたマルチチャンネルの音声信号から、ICAを用いて雑音成分を除去する。ここで、ICAとは、信号源の確率的な独立性に注目し、音源分離を行う公知の手法である。 【0019】 また、雑音除去部12は、音声取得部11により取得した骨伝導音声の信号レベル(ボリューム)が所定の閾値を下回る場合は、ICAを用いずに、気導音声信号のみから雑音成分を除去する。雑音成分を除去する手法としては、ICAの代わりに、例えば、スペクトラムサブトラクション法を用いる。スペクトラムサブトラクション法とは、雑音成分の混入した音声信号の振幅スペクトラムから雑音成分の振幅スペクトラムを差し引くことによって、雑音成分を除去する手法である。 結果保存部13はメモリを含んで構成され、雑音除去部12により雑音成分が除去されたクリーンな音声を一次的又は永続的に保存する。 通話部14は無線通信インターフェースを含んで構成され、雑音成分が除去されたクリーンな音声を携帯電話機等の通信相手装置に対して送信する。 【0020】 [2.音声通信処理] 次に、図4に示すフローチャートを参照して、上記構成の携帯電話機10が行う音声通信処理について説明する。 まず、発話者は、携帯電話機10の操作キー105を操作して携帯電話機10と通信相手装置との通信を確立した後、携帯電話機10に設けられているスピーカ103及び骨伝導マイクロフォン101の部分を耳の付近に接触させて発話する。 携帯電話機10の骨伝導マイクロフォン101は、発話者の発声による身体振動を骨伝導音声信号に変換し、音声取得部11に出力する。同時に、気導マイクロフォン102は、発話者の発声による空気振動を気導音声信号に変換し、音声取得部11に出力する。 【0021】 音声取得部11は、骨伝導マイクロフォン101から出力された骨伝導音声信号、及び、気導マイクロフォン102から出力された気導音声信号を含むマルチチャンネルの音声信号を取得する(ステップS1)。 雑音除去部12は、音声取得部11が取得した音声信号から、ICAを用いて雑音成分を除去する雑音除去処理を行う(ステップS2)。 結果保存部13は、雑音成分が除去されたクリーンな音声のみをメモリバッファに一時的に保存する(ステップS3)。通話部14は、メモリバッファに保存された音声信号を通信相手装置に送信する(ステップS4)。 これにより、通信相手装置は音声信号を受信し、スピーカから音声を出力する。通信相手は発話者の明瞭な音声を聞くことができる。 【0022】 [3.雑音除去処理] 次に、図5に示すフローチャートを参照しつつ、図4に示すステップS2において雑音除去部12が行う雑音除去処理について詳細に説明する。 まず、ステップS21において、雑音除去部12は、音声取得部11により取得された音声信号のうち、骨伝導音声信号に基づいて音声区間を検出する。音声区間の検出方法としては、例えば、骨伝導音声信号の信号レベルが所定の閾値を超えている区間を音声区間として検出する。 次に、ステップS22において、ステップS21で検出された音声区間におけるマルチチャンネルの音声信号に対して、窓関数の掛け算を行う。 【0023】 次に、ステップS23において、音声信号を時間領域から周波数領域にフーリエ変換する。具体的には、ステップS22における演算結果に対してFFT(高速フーリエ変換;First Fourier Transform)を実行することにより、音声区間における音声信号を周波数領域で表現するスペクトル情報を算出する。 次に、ステップS24において、ステップS23における演算結果に対してICAを実行する。具体的には、ICAの分離行列を推定し、推定した分離行列を用いて、音声信号をクリアな音声信号と雑音成分とに分離する。 次に、ステップS25において、ステップS24における演算結果(行列)のチャネルを入れ替える。 【0024】 次に、音声信号を周波数領域から時間領域に戻すために、ステップS26において、ステップS25における演算結果に対してIFFT(逆高速フーリエ変換;Inverse Fast Fourier Transform)を実行する。さらに、ステップS27において、ステップS26における演算結果に対して窓関数を掛け算し、雑音成分を除去したクリーンな音声信号と、雑音成分とを分離して出力する。 なお、周波数領域におけるICA実行手順の詳細は、「周波数領域のブラインド信号分離におけるpermutationについて 浅野太、麻生秀樹 信学技法 EA2001-19,PP.9-16」に記載されている。 【0025】 以上説明した雑音除去処理では、SNRが高い骨伝導音声信号を利用しているため、ICAを用いて音源分離を行い易いというメリットがある。 また、雑音の影響を受けにくい骨伝導音声信号を用いて音声区間を検出しているため、雑音が大きい環境においても高精度に音声区間を検出することができる。このため、ICAの分離行列の推定誤差が小さくなり、音源の分離精度を高めることが可能となる。さらに、周波数領域でICAを行うため、時間領域で行うよりも計算量を削減することが可能となる。 【0026】 図6(a)には、SNRが0の音声信号を気導マイクロフォン102のみで収録し、収録した音声信号について音声認識を行った場合の評価結果のグラフを示す。また、図6(b)には、本実施形態に係る手法により獲得した音声信号(SNRが0の音声信号を骨伝導マイクロフォン101及び気導マイクロフォン102で同時に収録し、収録した音声信号に対してICAによる雑音除去処理を行うことにより獲得した音声信号)について音声認識を行った場合の評価結果のグラフを示す。(a)に示すグラフでは音声認識率(ACC)が30%程度であるのに対して、(b)に示すグラフでは音声認識率は50%弱であり、本実施形態に係る手法により獲得した音声信号について音声認識率が大幅に向上しているのが確認された。また、雑音環境下において本実施形態に係る手法により獲得した音声の聴覚実験によって、音声の明瞭度が向上しているのが確認された。 【0027】 このように、骨伝導音声信号及び気導音声信号を含むマルチチャンネルの音声信号に対してICAを適用することにより、音声信号から雑音成分を高精度に除去することができ、非定常雑音や大きな雑音等、様々な種類の雑音が発生する環境においても、明瞭度の高い音声を獲得することが可能となる。 【0028】 [4.変形例] 以上、本発明の実施形態について説明したが、本発明は係る実施形態に限定されるものではなく、その技術思想の範囲内で様々な変形が可能である。変形例としては、例えば、以下のようなものが考えられる。 (1)上述した実施形態においては、携帯電話機10に骨伝導マイクロフォン101と気導マイクロフォン102とが各1つずつ設けられていていて、音声取得部11は骨伝導音声信号と気導音声信号とで構成される2チャンネルの音声信号を取得するとして説明したが、2チャンネルに限定されることはなく、3チャンネル以上の音声信号を取得するようにしてもよい。例えば、携帯電話機10に1つの骨伝導マイクロフォン101と2つの気導マイクロフォン102とが設けられていて、音声取得部11が1チャンネルの骨伝導音声と2チャンネルの気導音声とを取得するようにしてもよい。 【0029】 (2)上述した実施の形態においては、本発明に係る雑音除去装置を携帯電話機10に適用した場合について説明したが、携帯電話機10に限定されることはなく、PDA(Personal Digital Assistance)、PHS(Personal Handyphone System)、固定電話機、固定電話の子機等、あらゆる通信端末に適用することが可能である。 また、骨伝導マイクロフォン101と気導マイクロフォン102とを備えたヘッドホン装置から、音声取得部11と雑音除去部12と結果保存部13とを備えた雑音除去装置に音声信号を入力するようにしてもよい。この場合には、結果保存部13に保存されたクリーンな音声を、音声認識、通話等の様々な用途に利用することができる。 【産業上の利用可能性】 【0030】 多種類の非定常な雑音が発生するあらゆるシーンにおいて利用することが可能であり、携帯電話機、PDA、PHS、固定電話機等による通話や、各種サービス産業用の音声認識装置に利用することができる。 【図面の簡単な説明】 【0031】 【図1】本発明の実施形態に係る携帯電話機の外観を示す図である。 【図2】同実施形態に係る携帯電話機の機能構成を示すブロック図である。 【図3】図3(a)は、気導マイクロフォンから出力される気導音声信号のグラフであり、図3(b)は、骨伝導マイクロフォンから出力される骨伝導音声信号のグラフである。 【図4】同実施形態に係る音声通信処理の流れを示すフローチャートである。 【図5】同実施形態に係る雑音除去処理の流れを示すフローチャートである。 【図6】図6(a)は、SNRが0の音声信号について音声認識を行った場合の評価結果のグラフを示し、図6(b)は、本発明の実施形態に係る手法により獲得した音声信号について音声認識を行った場合の評価結果を示すグラフである。 【符号の説明】 【0032】 10 携帯電話機 11 音声取得部 12 雑音除去部 13 結果保存部 14 通話部 101 骨伝導マイクロフォン 102 気導マイクロフォン 103 スピーカ 104 液晶ディスプレイ 105 操作キー
|
|