米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 東芝テック株式会社

発明の名称 音声処理装置及び音声処理用コンピュータプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−156361(P2007−156361A)
公開日 平成19年6月21日(2007.6.21)
出願番号 特願2005−355403(P2005−355403)
出願日 平成17年12月8日(2005.12.8)
代理人 【識別番号】100101177
【弁理士】
【氏名又は名称】柏木 慎史
発明者 吉崎 圭祐 / 伊久美 智則 / 柿野 友成 / 関根 直樹
要約 課題
人間の発話音とピッチやピッチ継続時間に共通性がある機械音等の音響を非音声信号として判別できるようにすることである。

解決手段
入力音信号からピッチを抽出して入力音信号の経過時間毎に抽出したピッチを対応付けたピッチ情報を出力し(ピッチ抽出部203a)、出力されたピッチ情報からピッチの変動を算出してピッチ変動量として出力し(変動算出部203b)、出力されたピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると入力音信号の種類を判定するようにした(変動判定部203c)。
特許請求の範囲
【請求項1】
入力音信号からピッチを抽出し、前記入力音信号の経過時間毎に前記抽出したピッチを対応付けたピッチ情報を出力するピッチ情報出力手段と、
このピッチ情報出力手段によって出力された前記ピッチ情報からピッチの変動を算出し、ピッチ変動量として出力するピッチ変動量出力手段と、
このピッチ変動量出力手段によって出力されたピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると前記入力音信号の種類を判定する判定手段と、
を備える音声・非音声判定装置。
【請求項2】
前記ピッチ変動量出力手段は、前記ピッチ情報に基づいて回帰直線を求め、当該回帰直線と前記ピッチ情報に含まれているピッチとの誤差を前記ピッチ変動量とする、請求項1記載の音声・非音声判定装置。
【請求項3】
ピッチ情報に基づいて有ピッチ区間と無ピッチ区間の判別を行う区間判別手段を備え、
この区間判別手段によって判別された前記有ピッチ区間毎に前記ピッチ変動量出力手段によって前記回帰直線を求める、
請求項2記載の音声・非音声判定装置。
【請求項4】
ピッチ情報に基づいて有ピッチ区間と無ピッチ区間の判別を行う区間判別手段を備え、
この区間判別手段によって判別された前記有ピッチ区間で前記ピッチ変動量出力手段は前記有ピッチ区間の長さに基づいて、当該長さに比例して重みが増すように前記ピッチ変動量に重み付けを行なう、請求項1記載の音声・非音声判定装置。
【請求項5】
前記ピッチ情報に基づいてピッチの変動値を求め、当該ピッチの変動値を平均した平均ピッチ変動値を求める変動補正手段を備え、前記ピッチの変動値と前記平均ピッチ変動値との差の値を前記ピッチ変動量とする、
請求項1記載の音声・非音声判定装置。
【請求項6】
前記変動補正手段は、規定範囲を超えた前記ピッチ変動量の値を、前記入力音信号の種類を判定するためのデータとして用いない、請求項5記載の音声・非音声判定装置。
【請求項7】
音響の入力を許容して入力した音響をアナログの入力音信号として出力する音響入力部と、
前記アナログの入力音信号をデジタル信号に変換するアナログデジタル変換部と、
前記デジタル信号に変換された音響からピッチを抽出し、当該音響の経過時間毎に前記抽出したピッチを対応付けたピッチ情報を出力するピッチ情報出力手段と、
このピッチ情報出力手段によって出力された前記ピッチ情報からピッチの変動を算出し、ピッチ変動量として出力するピッチ変動量出力手段と、このピッチ変動量出力手段によって出力されたピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると前記入力音信号の種類を判定する判定手段と、
前記音声信号であると判定された前記入力音信号についてのみ、音声処理を実行する音声処理実行手段と、
を具備する音声処理装置。
【請求項8】
前記ピッチ変動量出力手段は、前記ピッチ情報に基づいて回帰直線を求め、当該回帰直線と前記ピッチ情報に含まれているピッチとの誤差を前記ピッチ変動量とする、請求項7記載の音声処理装置。
【請求項9】
コンピュータにインストールされ、当該コンピュータに、
入力音信号からピッチを抽出し、前記入力音信号の経過時間毎に前記抽出したピッチを対応付けたピッチ情報を出力するピッチ情報出力機能と、
このピッチ情報出力機能によって出力された前記ピッチ情報からピッチの変動を算出し、ピッチ変動量として出力するピッチ変動量出力機能と、
出力されたピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると前記入力音信号の種類を判定する判定機能と、
を実行させる音声・非音声判定用のコンピュータプログラム。
【請求項10】
前記ピッチ変動量出力機能は、前記ピッチ情報に基づいて回帰直線を求め、当該回帰直線と前記ピッチ情報に含まれているピッチとの誤差を前記ピッチ変動量とする、請求項9記載のコンピュータプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、入力音響に基づいて音声認識処理や話者認識処理等を実行する音声処理装置、これに用いる音声・非音声判定装置、及び音声・非音声判定用のコンピュータプログラムに関する。
【背景技術】
【0002】
音声認識装置は、無雑音や雑音の少ない環境においては高性能な認識結果を得やすい。しかしながら、雑音が原因となり実際に利用者が行った発話内容とは異なった認識を音声認識装置が行ってしまうケースの一つとしては、利用者が発話を行っていないにも関わらず音声認識装置が雑音を利用者の発話と勘違いして認識を行ってしまうケースがある。
【0003】
このような問題を解決するための雑音対策技術として、非音声判定技術が考えられる。非音声判定技術を用いることで、音声ではない音に対しては音声認識させる前に除外することが可能となるため、結果として音声認識の誤動作が低減される。
【0004】
従来の非音声判定技術としては、入力音からピッチ(音の高さ)を取得して音声か非音声かを判別する手法がある。この手法では、ピッチが人間の声と同等であれば音声と判別し、ピッチが取得できない場合やピッチが人間の声の高さとは異なる値であった場合には非音声と判別する。
【0005】
【特許文献1】特開平08−292787号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、屋外での音声処理技術の利用を考慮すると、路上を走行する2輪車音等のように人間の発話音と類似する音響が雑音として入力されることが予想される。2輪車音と人間の発話音とは、ピッチやピッチ継続時間に共通性があるため、誤認識等の原因となる。
【0007】
本発明の目的は、人間の発話音とピッチやピッチ継続時間に共通性がある機械音等のような音響を非音声信号として判別できるようにすることである。
【課題を解決するための手段】
【0008】
本発明は、入力音信号からピッチを抽出し、前記入力音信号の経過時間毎に前記抽出したピッチを対応付けたピッチ情報を出力する処理と、出力された前記ピッチ情報からピッチの変動を算出し、ピッチ変動量として出力する処理と、出力されたピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると前記入力音信号の種類を判定する処理と、を実行する。
【発明の効果】
【0009】
本発明によれば、ピッチ変動量が規定値よりも大きい場合には音声信号で小さい場合には非音声信号であると前記入力音信号の種類を判定するようにしたので、人間の発話音とピッチやピッチ継続時間に共通性がある機械音等のような音響を非音声信号として判別することができる。
【発明を実施するための最良の形態】
【0010】
本発明の実施の一形態を図面に基づいて説明する。
【0011】
[基本構成]
図1は、本実施の形態の音声処理装置のハードウェア構成を示すブロック図である。本実施の形態の音声処理装置101は、マイクロコンピュータによって実現されている。つまり、マイクロコンピュータは、各種演算処理を実行して各部を集中的に制御するCPU102を備え、このCPU102には、固定データを固定的に記憶するROM103と、可変データを書き換え自在に記憶するRAM104と、HDD105とがバスライン106を介して接続されている。
【0012】
また、CPU102には、磁気ディスク107に対する情報の書き込みと読み取りとを実行する磁気ディスクドライブ108、CD系やDVD系等の各種の光ディスク109に対する情報の読み取り、情報書き込み可能な光ディスク109に対しては書き込みを実行する光ディスクドライブ110、各種のI/O111、及び通信インターフェース112がバスライン106を介して接続されている。
【0013】
また、音声処理装置101のマイクロコンピュータは、ディスプレイ113に情報を出力し、キーボード114及びポインティングデバイス115から情報を入力することができる。そのために、ディスプレイ113は表示制御回路116を介して、キーボード114及びポインティングデバイス115は入力制御回路117を介して、それぞれCPU102に接続されている。表示制御回路116及び入力制御回路117は、バスライン106に接続されてCPU102との間で通信自在である。
【0014】
更に、音声処理装置101のマイクロコンピュータは、音声入力回路118を備えている。音声入力回路118は、一例として、図示しない増設基板上に集積回路として形成され、音声処理装置101のマイクロコンピュータの図示しない増設基板追加用スロットに差し込まれている。そして、音声入力回路118にはマイクロフォン119が接続されている。マイクロフォン119は、入力された音声等の音響を取り込み、アナログ信号として出力する構造のものであり、音響の入力を許容して入力した音響をアナログ信号として出力する音響入力部を構成する。音声入力回路118は、増幅器120とアナログデジタルコンバータ121とを備えている。増幅器120は、マイクロフォン119から出力されたアナログ信号を増幅してアナログデジタルコンバータ121に入力する。アナログデジタルコンバータ121は、増幅されたアナログ信号である音響信号をデジタル信号に変換し、デジタル化された音響信号としてバスライン106上に出力可能である。
【0015】
別の実施の形態として、音声入力回路118をソフトウェアによって生成することも可能である。もっとも、処理速度の上からは、集積回路によって音声入力回路118を構成することが好ましい。
【0016】
更に別の実施の形態としては、マイクロフォン119それ自体が増幅器120及びアナログデジタルコンバータ121を内蔵していても良い。つまり、マイクロフォン119は、音声処理装置101のマイクロコンピュータから見ると、別付け部品ということになるが、このようなマイクロフォン119を構成する図示しないハウジングが増幅器120及びアナログデジタルコンバータ121を内蔵していても良い。この場合、音声入力回路118は、アナログデジタルコンバータ121から出力されたデジタル化された音信号を例えばRAM104に向けて出力する構成を主要構成として備えているだけで良い。
【0017】
ここで、音声処理装置101のマイクロコンピュータは、HDD105に各種の処理プログラムをインストールすることが可能である。代表的には、OS(オペレーティングシステム)がインストールされている他、HDD105には、音声処理用コンピュータプログラムもインストールされている。このような音声処理用コンピュータプログラムは、一例として、磁気ディスク107に記憶保存され、磁気ディスクドライブ108を介して読み取られてHDD105にインストールされる。音声処理用コンピュータプログラムは、別の一例として、光ディスク109に記憶保存され、光ディスクドライブ110を介して読み取られてHDD105にインストールされる。更に別の一例として、音声処理用コンピュータプログラムは、通信インターフェース112を介して接続された上位機(例えばイントラネットの場合)やウェブページ(例えばインターネットの場合)からダウンロードし、HDD105にインストールしたものであっても良い。これらの各種例において、HDD105、磁気ディスク107、光ディスク109は、音声処理用プログラムを記憶する記憶媒体となる。
【0018】
音声処理装置101のマイクロコンピュータの起動時、処理速度の高速度化を図るために、HDD105にインストールされたOSの全部又は一部がRAM104にコピーされる。同様の目的で、HDD105にインストールされた音声処理用コンピュータプログラムも、一例としてその起動時等のタイミングで、その全部又は一部がRAM104にコピーされる。これにより、音声処理用コンピュータプログラムは、単独で、あるいはOSと協働して、CPU102に各種機能を実行させる。これらの機能は、音声処理用コンピュータプログラムが意図する目的達成手段としても認識し得る。
【0019】
図2は、音声処理装置の基本的な機能ブロック図である。音声処理装置101は、音響入力部201、アナログデジタル変換部202、音声・非音声判別部203、音声認識部204、音声認識用辞書205から構成されている。
【0020】
音響入力部201は、音響の入力を許容して入力した音響をアナログ信号として出力する。ハードウェア構成としては、前述したマイクロフォン119及び音声入力回路118中の増幅器120によって音響入力部201が構成されている。
【0021】
アナログデジタル変換部202は、音響入力部201から出力されるアナログ信号をデジタル信号に変換する。より詳細には、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換する。ハードウェア構成としては、前述した音声入力回路118中のアナログデジタルコンバータ121によってアナログデジタル変換部202が構成されている。
【0022】
音声・非音声判別部203は、音響入力部201から出力されてデジタル信号に変換された音響について、当該デジタル信号が音声なのか非音声なのかを判別する。音声・非音声判別部203は、ハードウェア構成として、CPU102、ROM103及びRAM104等を主体とするマイクロコンピュータによって構成され、このようなマイクロコンピュータがRAM104にコピーされて使用される音声処理用コンピュータプログラムに従い、音声・非音声判別部203としての機能が発揮される。このような音声・非音声判別部203の詳細については、後述する。
【0023】
音声認識部204は、音響入力部201から出力されてデジタル信号に変換された音響であって、音声・非音声判別部203によって音声であると判別された音響についてのみ音声処理を実行する機能を果たす手段である。つまり、音声・非音声判別部203で音声と判断された音響は、音声認識部204へ渡される。音声認識部204は、予め音声認識用辞書205に登録された認識語句を元に、音声認識を開始する。このような音声認識部204は、音響分析部と音響照合部とを有している(いずれも図示せず)。図示しない音響分析部は、デジタル信号を受取り、FFT(高速フーリエ変換)などの処理による周波数分析などを行ない、入力音声の所定区間(例えば、音素単位あるいは単語単位など)毎に、各区間についての音声認識のために必要な特徴情報(例えばスペクトルなど)を時系列に出力する。図示しない音響照合部は、音響分析部から出力された特徴情報を受取り、音声認識用辞書205に登録されている単語を参照して照合を行い,入力音声区間(例えば、音素あるいは音節あるいはアクセント句などの音素列単位、あるいは単語単位などの文字列単位など)の認識候補との類似度を計算して、音声認識用辞書205に登録されている単語かどうかを判別する。なお、音響照合部での上記処理は、HMM(隠れマルコフモデル)やDP(ダイナミックプログラミング)、あるいはNN(ニューラルネットワーク)など、従来から知られている照合技術を用いて実現することができる。
【0024】
以上、本実施の形態では、音声処理を実行する機能を果たす手段として音声認識部204を設け、音声処理として音声認識処理を実行するようにしたが、別の実施の形態としては、音声処理として話者認識処理を実行するようにしても良い。
【0025】
[非音声判別部203の第1の実施の形態]
非音声判別部203の第1の実施の形態を図3ないし図11に基づいて説明する。
【0026】
図3は、音声・非音声判別部203の機能ブロック図である。以下、音声・非音声判別部203の詳細について説明する。音声・非音声判別部203は、デジタル音信号よりピッチを抽出し、ピッチ情報として出力するピッチ情報出力手段であるピッチ抽出部203aと、ピッチ情報よりピッチの変動を算出し、ピッチ変動情報として出力するピッチ変動量出力手段である変動算出部203bと、ピッチ変動情報に基づいて入力された音声が非音声であるか否かを判定する判定手段である変動判定部203cと、によって構成されている。
【0027】
図4は、人間の発話音の波形の一例を示す波形図である。図5は、図4に例示した波形から取得されるピッチ情報の波形を示す波形図である。「ピッチ情報」というのは、音響入力部201からの入力音信号の経過時間毎に抽出したピッチを対応付けた情報である。例えば、図4に示す人間の発話音に対しては図5に示すようなピッチ情報が得られる。
【0028】
音声・非音声判別部203での処理内容について次に説明する。マイクロフォン119に入力された音響はアナログの入力音信号として出力され、増幅器120を経てアナログデジタルコンバータ121でデジタル信号に変換される。変換されたデジタル信号は、音声・非音声判別部203に入力され、ピッチ抽出部203aにおいてそのピッチが抽出される。つまり、ピッチ抽出部203aは、入力音信号からピッチを抽出し、ピッチ情報を出力する。ピッチの抽出は、例えば自己相関法などを用いて実行される。
【0029】
図6は、図5に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。図7は、送風機の作動音の波形から取得されるピッチ情報の波形を示す波形図である。図8は、図7に波形を例示する送風機の作動音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。図5に例示する人間の発話音のピッチ及びピッチ継続時間と図6に例示する送風機の作動音のピッチ及びピッチ継続時間とを比較すると、両者に共通性が認められることが分かる。そこで、音声・非音声判別部203は、ピッチ及びピッチ継続時間に共通性がある音声と非音声との相違を、変動算出部203b及び変動判定部203cを用いて判別する。
【0030】
つまり、ピッチ抽出部203aからピッチ情報が出力されると、変動算出部203bは、出力されたピッチ情報からピッチの変動を算出し、ピッチ変動量として出力する。一例として、変動算出部203bは、ピッチ情報に基づいてピッチの変動値を求め、当該ピッチの変動値を平均した平均ピッチ変動値を求め、この値をピッチ変動量として出力する。
【0031】
例えば、ピッチ抽出部203aから出力されたピッチ情報が図5に例示される人間の発話音のピッチ情報である場合、そのピッチ変動量を求めた結果は、図6に例示されるピッチ変動量の波形のようになる。また、ピッチ抽出部203aから出力されたピッチ情報が図7に例示される送風機の作動音のピッチ情報である場合、そのピッチ変動量を求めた結果は、図8に例示されるピッチ変動量の波形のようになる。図6に示す波形図と図8に示す波形図とを比較すると、人間の発話音のピッチ変動量に対して送風機の作動音のピッチ変動量の方がピッチ変動が少なく、ある範囲内に収束していることが分かる。
【0032】
そこで、変動判定部203cは、変動算出部203bが出力したピッチ変動量が規定値よりも大きい場合には音声信号、規定値よりも小さい場合には非音声信号であると入力音信号の種類を判定する。例えば、人間の発話音のピッチ変動量(図6参照)と送風機の作動音のピッチ変動量(図8参照)とのそれぞれの平均値を比較すると、人間の発話音が2.61、送風機の作動音が1.61である。そこで、一例として、規定値を2.0に設定しておくことで、図6に例示するピッチ変動量を有する人間の発話音は音声信号、図8に例示するピッチ変動量を有する送風機の作動音は非音声信号であると判定することができる。このような処理によって、人間の発話音のピッチと類似するピッチ及びピッチ継続時間を有する機械音等を非音声と判別することができる。
【0033】
その結果、音声認識部204(図2参照)は、音響入力部201から出力されてデジタル信号に変換された音響であって、音声・非音声判別部203によって音声であると判別された音響についてのみ音声処理を実行する。上記一例でいうと、音声信号であると判定された人間の発話音については音声認識部204による音声処理が実行され、非音声信号であると判定された送風機の作動音については音声認識部204による音声処理が実行されない。
【0034】
図9は、図4に例示した人間の発話音の波形から取得されるピッチ情報の波形を回帰直線と共に示す波形図である。図10は、2輪車の走行音の波形から取得されるピッチ情報の波形を示す波形図である。図11は、2輪車の走行音の波形から取得されるピッチ情報の波形を回帰直線と共に示す波形図である。変動算出部203bは、別の実施の一例として、ピッチ情報に基づいて回帰直線を求め、当該回帰直線とピッチ情報に含まれているピッチとの誤差をピッチ変動量とする。つまり、変動算出部203bは、ピッチ情報に基づいて回帰直線を求める(図9及び図11参照)。そして、変動算出部203bは、当該回帰直線とピッチ情報に含まれているピッチとの誤差を求め、これをピッチ変動量として扱う。この際、変動算出部203bは、一例として、誤差の平均値を変動量として算出する。図9に例示する人間の発話音に基づくピッチ変動量と図11に例示する2輪車の走行音に基づくピッチ変動量とを比較すると、人間の発話音よりも2輪車の走行音の方が明確にピッチ変動量が少ないことが分かる。そこで、変動判定部203cは、変動算出部203bが出力したピッチ変動量が規定値よりも大きい場合には音声信号、規定値よりも小さい場合には非音声信号であると入力音信号の種類を判定する。
【0035】
[非音声判別部203の第2の実施の形態]
非音声判別部203の第2の実施の形態を図12ないし図17に基づいて説明する。非音声判別部203の第1の実施の形態と同一部分は同一符号で示し、説明も省略する。
【0036】
図12は、音声・非音声判別部203の機能ブロック図である。以下、音声・非音声判別部203の詳細について説明する。音声・非音声判別部203は、デジタル音信号よりピッチを抽出し、ピッチ情報として出力するピッチ抽出部203aと、ピッチ情報よりピッチが抽出できた区間とピッチが抽出できなかった区間とを分別する区間判別手段である区間判別部203dと、ピッチ情報よりピッチの変動を算出し、ピッチ変動情報として出力する変動算出部203bと、ピッチ変動情報に基づいて入力された音声が非音声であるか否かを判定する変動判定部203cと、によって構成されている。
【0037】
図13は、人間の発話音の波形から取得されるピッチ情報について、有ピッチ区間と無ピッチ区間とを分別して示す波形図である。前述したように、マイクロフォン119に入力された音響はアナログの入力音信号として出力され、増幅器120を経てアナログデジタルコンバータ121でデジタル信号に変換される。変換されたデジタル信号は、音声・非音声判別部203に入力され、ピッチ抽出部203aにおいてそのピッチが抽出される。つまり、ピッチ抽出部203aは、入力音信号からピッチを抽出し、ピッチ情報を区間判別部203dに出力する。区間判別部203dは、人間の発話音の波形から取得されるピッチ情報について、ピッチが抽出できた有ピッチ区間とピッチが抽出できなかった無ピッチ区間とを分別する。図13に示す例は、有ピッチ区間と無ピッチ区間との分別処理の結果として得られた波形である。
【0038】
図14は、人間の発話音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。図15は、2輪車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。変動算出部203bは、入力されたピッチ情報からピッチがどのぐらい変動しているかを算出し、ピッチ変動量として出力する。この処理のための、変動算出部203bは、ピッチ情報に基づいて区間判別部203dで判別した有ピッチ区間毎に回帰直線を求め、当該回帰直線とピッチ情報に含まれているピッチとの誤差をピッチ変動量とする。つまり、変動算出部203bは、ピッチ情報に基づいて、区間判別部203dで判別した有ピッチ区間毎に回帰直線を求める(図14及び図15参照)。そして、変動算出部203bは、当該回帰直線とピッチ情報に含まれているピッチとの誤差を求め、これをピッチ変動量として扱う。この際、変動算出部203bは、一例として、誤差の平均値を変動量として算出する。図14に例示する人間の発話音に基づくピッチ変動量と図15に例示する2輪車の走行音に基づくピッチ変動量とを比較すると、人間の発話音よりも2輪車の走行音の方が明確にピッチ変動量が少ないことが分かる。そこで、変動判定部203cは、変動算出部203bが出力したピッチ変動量が規定値よりも大きい場合には音声信号、規定値よりも小さい場合には非音声信号であると入力音信号の種類を判定する。
【0039】
図16は、人間の発話音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めて傾き同一とした回帰直線と共に示す波形図である。図17は、2輪車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めて傾き同一とした回帰直線と共に示す波形図である。変動算出部203bは、別の一例として、ピッチ情報に基づいて区間判別部203dで判別した有ピッチ区間毎に回帰直線を求め、当該回帰直線の傾きを同一にする処理を実行する。その上で、当該回帰直線とピッチ情報に含まれているピッチとの誤差をピッチ変動量とする。これにより、ピッチ変動量が大きくなるほど回帰直線に対する誤差が拡大するため、より正確な音声・非音声の判別処理を実行することが可能となる。
【0040】
[非音声判別部203の第3の実施の形態]
非音声判別部203の第3の実施の形態を図18ないし図21に基づいて説明する。非音声判別部203の第1の実施の形態と同一部分は同一符号で示し、説明も省略する。
【0041】
図18は、音声・非音声判別部203の機能ブロック図である。以下、音声・非音声判別部203の詳細について説明する。音声・非音声判別部203は、デジタル音信号よりピッチを抽出し、ピッチ情報として出力するピッチ抽出部203aと、ピッチ情報よりピッチの変動を算出し、ピッチ変動情報として出力する変動算出部203bと、ピッチ変動情報として出力されるピッチ変動量の平均値を求め、求めた平均ピッチ変動量に基づいてピッチ変動量を補正する変動補正手段である変動補正部203eと、補正後のピッチ変動情報に基づいて入力された音声が非音声であるか否かを判定する変動判定部203cと、によって構成されている。
【0042】
図19は、自動車の走行音の波形から取得されるピッチ情報の波形を示す波形図である。図20は、図19に波形を例示する自動車の走行音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。前述したように、マイクロフォン119に入力された音響はアナログの入力音信号として出力され、増幅器120を経てアナログデジタルコンバータ121でデジタル信号に変換される。変換されたデジタル信号は、音声・非音声判別部203に入力され、ピッチ抽出部203aにおいてそのピッチが抽出される。つまり、ピッチ抽出部203aは、入力音信号からピッチを抽出し、ピッチ情報を変動算出部203bに出力する。ピッチ抽出部203aからピッチ情報が出力されると、変動算出部203bは、出力されたピッチ情報からピッチの変動を算出し、ピッチ変動量として変動補正部203eに出力する。変動補正部203eでは、入力されたピッチ変化量に基づいて平均ピッチ変化量を求め、ピッチの変動値と平均ピッチ変動値との差の値をピッチ変動量として変動判定部203cに出力する。この処理によって、一定の比率でピッチが変化する音響に対しては、変動量が低く算出されることとなる。例えば、図19に例示する自動車の走行音は、加速に際して走行音であり、一度のギヤチェンジが伴われている。自動車が加速する際、その走行音としてエンジン音が目立って聞こえる。加速時のエンジン音は、一定の比率でピッチが変化する音響である。そこで、変動補正部203eにおいて、入力されたピッチ変化量に基づいて平均ピッチ変化量を求め、ピッチの変動値と平均ピッチ変動値との差の値をピッチ変動量として変動判定部203cに出力する処理を実行することで、変動量が低く算出され、非音声であるとの判定がより正確となる。
【0043】
図21は、図20に例示する自動車の走行音のピッチ情報中、規定範囲を超えた値を除去したピッチ変動量の波形を示す波形図である。変動補正部203eは、更に、規定範囲を超えたピッチ変動量の値を、入力音信号の種類を判定するためのデータとして用いない処理を実行する。つまり、変動補正部203eは、上記補正処理後のピッチ変化量について事前に設定された規定範囲内に収まっているかを判定し、収まっていない場合についてはピッチ変化量から除外して扱う。例えば、図20に例示する自動車のピッチ情報には、ギヤチェンジの際のピッチ変化量が秀でて大きくなっている。そこで、一例として、規定範囲を例えば30以内として設定し、30の範囲を超えたピッチ変化量を判別対象のピッチ変化量から除外する。
【0044】
なお、除外した変化量が非常に大きい場合は人間の声とは考えにくいため、ある値以上大きい場合は変動判定部203cにて非音声と判定されるようにピッチ変化量を補正することも考えられる。
【0045】
[非音声判別部203の第4の実施の形態]
非音声判別部203の第4の実施の形態を図22ないし図24に基づいて説明する。非音声判別部203の第1及び第2の実施の形態と同一部分は同一符号で示し、説明も省略する。
【0046】
図22は、音声・非音声判別部203の機能ブロック図である。以下、音声・非音声判別部203の詳細について説明する。音声・非音声判別部203は、デジタル音信号よりピッチを抽出し、ピッチ情報として出力するピッチ抽出部203aと、ピッチ情報よりピッチが抽出できた区間とピッチが抽出できなかった区間とを分別する区間判別部203dと、ピッチ情報より有ピッチ区間の分割を行う区間分割部203fと、ピッチの変動を算出し、ピッチ変動情報として出力する変動算出部203bと、ピッチ変動量に基づいて入力された音声が非音声であるか否かを判定する変動判定部203cと、によって構成されている。
【0047】
図23は、自動車の走行音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。前述したように、マイクロフォン119に入力された音響はアナログの入力音信号として出力され、増幅器120を経てアナログデジタルコンバータ121でデジタル信号に変換される。変換されたデジタル信号は、音声・非音声判別部203に入力され、ピッチ抽出部203aにおいてそのピッチが抽出される。つまり、ピッチ抽出部203aは、入力音信号からピッチを抽出し、ピッチ情報を区間判別部203dに出力する。区間判別部203dは、ピッチ情報について、ピッチが抽出できた有ピッチ区間とピッチが抽出できなかった無ピッチ区間とを分別する。
【0048】
図24は、自動車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。区間分割部203fは、有ピッチ区間をさらに分割する。分割方法としては、例えば隣接するピッチとの差分を取り、所定の範囲に収まらない部分で分割するなどが考えられる。その場合、図23に示す自動車音のピッチ情報より、隣接するピッチとの差分を取ると図24のようになり、事前に閾値を例えば30と設定してあれば、所定の範囲に収まらないA地点より別の区間として分割する。
【0049】
そして、変動算出部203bは、分割された区間毎に回帰直線を求め、その誤差がピッチ変動量として出力される。例えば、図23に例示する自動車音に対する回帰直線は図24に例示するようになる。
【0050】
[非音声判別部203の第5の実施の形態]
非音声判別部203の第5の実施の形態を図25ないし図27に基づいて説明する。非音声判別部203の第2の実施の形態と同一部分は同一符号で示し、説明も省略する。
【0051】
図25は、人間の発話音の波形から取得されるピッチ情報について、有ピッチ区間と無ピッチ区間とを分別して示す波形図である。前述したように、マイクロフォン119に入力された音響はアナログの入力音信号として出力され、増幅器120を経てアナログデジタルコンバータ121でデジタル信号に変換される(図12参照)。変換されたデジタル信号は、音声・非音声判別部203に入力され、ピッチ抽出部203aにおいてそのピッチが抽出される(図12参照)。つまり、ピッチ抽出部203aは、入力音信号からピッチを抽出し、ピッチ情報を区間判別部203dに出力する。区間判別部203dは、人間の発話音の波形から取得されるピッチ情報について、ピッチが抽出できた有ピッチ区間とピッチが抽出できなかった無ピッチ区間とを分別する(図12参照)。図25に示す例は、有ピッチ区間と無ピッチ区間との分別処理の結果として得られた波形である。
【0052】
図26は、図25に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を有ピッチ区間毎に示す波形図である。図27は、図25に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を有ピッチ区間毎に示す重み付け後の波形図である。変動算出部203bは、判別された有ピッチ区間の長さに基づいて、当該長さに比例して重みが増すようにピッチ変動量に重み付けを行なう。例えば、図26の発話音の例においては、有ピッチ区間の平均の長さを1とすると、区間Aの長さは1.56、区間Bの長さは0.44となり、変動算出部203bは、区間Aについては長さは1.56、区間Bについては長さは0.44という有ピッチ区間の長さに基づいて、当該長さに比例して重みが増すようにピッチ変動量に重み付けを行なう。その結果、ピッチ変動量は図26から図27に例示するようになる。
【図面の簡単な説明】
【0053】
【図1】本発明の第1の実施の形態として、音声処理装置のハードウェア構成を示すブロック図である。
【図2】音声処理装置の基本的な機能ブロック図である。
【図3】音声・非音声判定部の第1の実施の形態を示す機能ブロック図である。
【図4】人間の発話音の波形の一例を示す波形図である。
【図5】図4に例示した波形から取得されるピッチ情報の波形を示す波形図である。
【図6】図5に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。
【図7】送風機の作動音の波形から取得されるピッチ情報の波形を示す波形図である。
【図8】図7に波形を例示する送風機の作動音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。
【図9】図4に例示した人間の発話音の波形から取得されるピッチ情報の波形を回帰直線と共に示す波形図である。
【図10】2輪車の走行音の波形から取得されるピッチ情報の波形を示す波形図である。
【図11】2輪車の走行音の波形から取得されるピッチ情報の波形を回帰直線と共に示す波形図である。
【図12】音声・非音声判定部の第2の実施の形態を示す機能ブロック図である。
【図13】人間の発話音の波形から取得されるピッチ情報について、有ピッチ区間と無ピッチ区間とを分別して示す波形図である。
【図14】人間の発話音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。
【図15】2輪車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。
【図16】人間の発話音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めて傾き同一とした回帰直線と共に示す波形図である。
【図17】2輪車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めて傾き同一とした回帰直線と共に示す波形図である。
【図18】音声・非音声判定部の第3の実施の形態を示す機能ブロック図である。
【図19】自動車の走行音の波形から取得されるピッチ情報の波形を示す波形図である。
【図20】図19に波形を例示する自動車の走行音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。
【図21】図20に例示する自動車の走行音のピッチ情報中、規定範囲を超えた値を除去したピッチ変動量の波形を示す波形図である。
【図22】音声・非音声判定部の第4の実施の形態を示す機能ブロック図である。
【図23】自動車の走行音のピッチ情報に基づくピッチ変動量の波形を示す波形図である。
【図24】自動車の走行音の波形から取得されるピッチ情報の波形を判別された有ピッチ区間毎に求めた回帰直線と共に示す波形図である。
【図25】人間の発話音の波形から取得されるピッチ情報について、有ピッチ区間と無ピッチ区間とを分別して示す波形図である。
【図26】図25に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を有ピッチ区間毎に示す波形図である。
【図27】図25に波形を例示する人間の発話音のピッチ情報に基づくピッチ変動量の波形を有ピッチ区間毎に示す重み付け後の波形図である。
【符号の説明】
【0054】
201 音響入力部
202 アナログデジタル変換部
203a ピッチ抽出部(ピッチ情報出力手段)
203b 変動算出部(ピッチ変動量出力手段)
203d 区間判別部(区間判別手段)
203c 変動判定部(判定手段)
203d 区間判別部(区間判別手段)
203e 変動補正部(変動補正手段)




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013