米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 日本放送協会

発明の名称 音響分類装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2002−62892(P2002−62892A)
公開日 平成14年2月28日(2002.2.28)
出願番号 特願2000−245388(P2000−245388)
出願日 平成12年8月11日(2000.8.11)
代理人 【識別番号】100077481
【弁理士】
【氏名又は名称】谷 義一 (外2名)
【テーマコード(参考)】
5D015
【Fターム(参考)】
5D015 AA06 CC01 CC06 CC14 FF00 GG00 JJ00 
発明者 西 隆司 / 中山 靖茂 / 梅田 哲夫
要約 目的


構成
特許請求の範囲
【請求項1】 音響信号から音響の特徴として一定時間長ごとの音響の統計的性質を抽出する特徴抽出手段と、前記特徴抽出手段により分類内容が既知の学習用音響信号の音響の特徴を取得し、当該取得した音響の特徴が入力、対応する分類内容が出力となるようにニューラルネットワークに学習させる学習手段と、前記特徴抽出手段により分類対象の音響信号の音響の特徴を取得し、当該取得した音響の特徴を前記ニューラルネットワークに入力し、該ニューラルネットワークの出力を受け取ることにより、前記分類対象の音響信号を分類する識別手段とを具えたことを特徴とする音響分類装置。
【請求項2】 請求項1に記載の音響分類装置において、前記音響の統計的性質は、音響のゼロクロス分布、レベル分布および周波数分布であることを特徴とする音響分類装置。
【請求項3】 請求項1に記載の音響分類装置において、前記特徴抽出手段は、予め音声信号および音楽信号に関する複数種類の前処理用音源信号から音響の特徴を示す統計分布形状の主成分分析を行い、分析の結果として得られる固有ベクトルを使用して、前記学習用音響信号の音響の特徴および前記分類対象の音響信号の特徴を取得することを特徴とする音響分類装置。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、音声や音楽などの音響を分類するための音分類装置に関する。
【0002】
【従来の技術】音声や音楽などの音響を自動識別する技術を開示した文献としては、過去に、以下の文献が発表されている。
【0003】・文献1:J.Audio Eng.Soc.,Vol.47,No9,1999 Sep.、720−725音響信号を周波数分析し、音楽・音声の周波数特性の違いを利用して音響信号を識別する方法が開示されている。この方法は音楽、音声の主要な周波数成分が一般に分離できないために特徴の検出精度が低いという欠点を有する。
【0004】・文献2:Proc.ICASSP 96,993−996,著者名 JohnSaunders音響信号のゼロクロス分布に基づいた4種類の統計量およびエネルギから抽出した物理量の全体で5種類の特徴量ベクトルを記述し、多変量判別関数を用いて、音声・音楽の分類を行なう方法が開示されている。この方法はゼロクロスから抽出した統計量が全体の8割を占めており、識別結果がゼロクロス分布に依存し、音響の種類によっては分類制度が落ちるという欠点を有する。
【0005】・文献3:Proc.ICASSP 97,1331−1334,著者名 Eric Scheider, Malcom Slaney音響信号を一定の窓内で分析して得られたゼロクロス数、周波数重心、低いパワーレベルの時間率等13種類の特徴ベクトルを基に多変量判別関数を用いて音声・音楽の分類を行なう方法が開示されている。この方法は音響の特徴の種類が13種類と多く、分類の結果を得るまでの時間が長くなり、高速での分類処理には不向きである。
【0006】
【発明が解決しようとする課題】上述したように上記文献1〜3に記載されている方法は、処理速度および分類精度の双方を満足することはできない。
【0007】そこで、本発明の目的は、高速かつ高い分類精度で分類を行なうことができる音響分類装置を提供することにある。
【0008】
【課題を解決するための手段】このような目的を達成するために、請求項1の発明は、音響信号から音響の特徴として一定時間長ごとの音響の統計的性質を抽出する特徴抽出手段と、前記特徴抽出手段により分類内容が既知の学習用音響信号の音響の特徴を取得し、当該取得した音響の特徴が入力、対応する分類内容が出力となるようにニューラルネットワークに学習させる学習手段と、前記特徴抽出手段により分類対象の音響信号の音響の特徴を取得し、当該取得した音響の特徴を前記ニューラルネットワークに入力し、該ニューラルネットワークの出力を受け取ることにより、前記分類対象の音響信号を分類する識別手段とを具えたことを特徴とする。
【0009】請求項2の発明は、請求項1に記載の音響分類装置において、前記音響の統計的性質は、音響のゼロクロス分布、レベル分布および周波数分布であることを特徴とする。
【0010】請求項3の発明は、請求項1に記載の音響分類装置において、前記特徴抽出手段は、予め音声信号および音楽信号に関する複数種類の前処理用音源信号から音響の特徴を示す統計分布形状の主成分分析を行い、分析の結果として得られる固有ベクトルを使用して、前記学習用音響信号の音響の特徴および前記分類対象の音響信号の特徴を取得することを特徴とする。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の実施形態を詳細に説明する。
【0012】図1は本発明を適用した音響分類装置の機能構成を示す。音響分析装置としてはパーソナルコンピュータなどのプログラムを実行可能な汎用コンピュータを使用することができる。以下に述べる構成部は、後述のプログラムをCPU等が実行することにより実現される。
【0013】図1において、100は音声信号および音楽信号の複数種類の音源信号から一定時間長ごとの音響の統計的性質を抽出し、その特徴的性質の主成分分析を行い、その分駅結果として得られる固有ベクトルを取得する前処理部である。
【0014】200は分類内容が既知の学習用音響信号の音響の特徴を取得し、前処理部100により得られた固有ベクトルを使用して学習用音響信号の特徴の主成分を取得し、当該取得した音響の特徴の主成分が入力、対応する分類内容が出力となるようにニューラルネットワークに学習させる学習部である。
【0015】300は分類対象の前処理部100により分類対象の音響信号の音響の特徴を取得し、前処理部100により得られた固有ベクトルを使用して分類対象の音響信号の主成分を取得し、当該取得した音響の特徴の主成分をニューラルネットワークに入力し、ニューラルネットワークの出力を受け取ることにより、分類対象の音響信号を分類する識別部である。
【0016】図2は前処理部100の機能を実現するためのプログラムの処理内容を示す。以下、図2の各処理について説明する。
【0017】(1−1)時間分割処理(ステップS10)
音声信号および音楽信号などの複数種の前処理用音源信号はマイクロホンから入力され、汎用コンピュータにおいて、アナログ信号からデジタル信号に変換され、内部メモリに一時記憶された後CPUにより以下の処理が行なわれる。すなわち、所定時間の間で採取した音響信号の時間時間軸方向の統計特徴量を求める際、音響信号は図5(A)に示すようにMサンプルからなるブロックをNブロック隣接して並べたフレームで時間分割される。なお、後述するが周波数分析のために時間軸上のK点の音響信号はそのフレーム内で図5(B)に示すようにL点ずつシフトされる。
【0018】(1−2)音響特徴量の抽出(ステップS20)
音声、音楽の物理的な違いを反映した特徴量として本実施形態では、ゼロクロス分布、レベル分布および周波数分布の統計特徴量を使用する。これらの分布の特徴を以下に説明する。
【0019】(a)ゼロクロス分布この物理量は一定時間(1ブロック)で信号がゼロレベルを横切る回数の時間軸上の分布である。ゼロクロス分布は大きなパワーを持つ音響信号の周波数と相関性が高い。たとえば、高い周波数成分が優勢な信号ではゼロクロス数が多くなる傾向を示す。
【0020】本実施形態では、隣接したNブロックを1ブロックMサンプルごとにゼロクロス数を求め、1フレーム分まとめてNブロックで平均した頻度分布を得た。このセロクロス数の頻度分布パターンの形状を統計量として採用する。
【0021】音声信号の場合、母音、子音+母音(ゼロクロス数:少)の他に、摩擦音や破裂音(ゼロクロス数:多)が混在するため、1フレームの平均頻度分布はゼロクロス数が多い値と少ない値の2極に分離した形状を示す。一方、音楽の場合には単一の山形のけ上を示す。
【0022】(b)レベル分布この物理量は、1ブロックMサンプルサンプルの時間平均レベルの1フレームの音響信号の時間平均レベル(0dB)に対する相対レベルをもとに、この相対レベルのフレーム内で頻度分布を算出したものである。音声信号の場合、音声と音声の信号間に無音区間がある場合が多いため、音楽に比べて頻度分布の分散が大きくなる傾向を示す。
【0023】(c)最大パワーを与える周波数の分布(以下、周波数分布)
窓掛したK点の時間波形をFFT(高速フーリエ解析)して求めた振幅周波数特性を、聴覚に対応するように対数周波数軸上に並び替え最大のパワーを与える周波数をその時間を代表する物理量とした。1フレーム内をL点ずつシフトし、それぞれの時間窓内で最大のパワーとなる周波数の出現頻度を求め、これを物理統計量として採用した。音声信号の場合、ゼロクロス分布同様、高い周波数と低い周波数の2極に分離した文献上でレベル分布を表す。この統計量を使用することにより、単一楽器のように音域が狭いものと、オーケストラのように音域が広いものを分布パターンの形状で分類できるため、音楽信号をさらに詳細に分類することができる。
【0024】(1−3)統計量算出および平均処理(ステップS30、S40)
上述の音響特徴量はフレームごとに、音響信号(学習用音響信号および分類対象の音響信号)から抽出されるので、音響信号の複数フレームから抽出した音響特徴量を使用して音響統計特徴量を算出し、また、音響信号ごとに統計量の平均化を行なう。
【0025】(1−4)主成分分析処理および固有ベクトルの保存(ステップ50、S60)
本実施形態では、1フレームの統計量は多次元のベクトルであるが、音響特徴量の次元数を減少させるために、主成分分析処理、より具体的には、統計分布形状の特徴を保ったまま、(たとえば、因子負荷量90%以上)主成分を抽出する処理を行なう。また、統計量の主成分を求める際の変換マトリクスとして以後の処理で使用するために、上記主成分分析の結果得られた固有ベクトルを装置内部の記憶手段に保存する。
【0026】図3は図1の学習部200の機能をプログラムで実現するための処理内容を示す。
【0027】マイクロホンなどから入力される内容が既知の学習用音響信号はアナログ信号からデジタル信号に変換された後汎用コンピュータにより処理される。
【0028】(2−1)時間分割処理〜統計量算出処理(ステップS100〜S120)
時間分割処理、音響特徴量抽出処理および統計量算出処理は上述の前処理と処理内容が同一であり、これらの処理については共通のプログラム(サブルーチンプログラム)を使用することができる。
【0029】(2−2)主成分抽出処理(ステップS130)
固有ベクトルを使用して主成分を取得するには公知の技術である多変量解析を用いて行なう。多変量解析については、例えば、「石村貞夫著、すぐわかる多変量解析、第4章(東京図書)に詳述されている。
【0030】(2−3)ニューラルネットワークの学習上述の処理ステップで得られた学習用音響信号の特徴の主成分と、学習音響信号の種類内容を示す既知の分類データとをニューラルネットワークに学習させる。
【0031】ニューラルネットワークおよびその学習方法については周知であるが、発明に係るので、簡単に説明しておく。
【0032】ニューラルネットワークの代表的な構成を図6に示す。図1が入力層、2が中間層、3が出力装置である。各層にニューロンを使用することができる。ニューロンは入力信号と出力信号の間の相関関係が予め定められた関数(本実施形態では数学的に取扱の便利なシグモイド関数を使用)で表される。したがって、入力層1にある値を有する入力信号を入力すると、出力層3からは所定の値を持つ出力信号が出力される。そこで、入力層1に対して、学習用音響信号から得られた特徴の主成分を入力し、その分類内容を示すデータが出力層3から出力されるように各ニューロンの相関関数(伝達関数とも呼ばれる)の係数を学習する。学習方法としては多数の提案があるが、代表的な例は、初期的にある係数を各ニューロンの相関関数に与え、入力信号をニューラルネットワークの入力層1へに与えて、出力層3からの出力信号を計算する。出力信号の値が、目標とする分類データの値からかけ離れている場合には上記初期値を少しずつ微小変更しながら、出力信号の値が目標となる分類データの値となるまで微小変更を試行錯誤的に繰り返す。出力信号の値が許容範囲内となったとき、その時に、使用された相関関数の係数が学習結果となる。以上の学習処理はコンピュータのプログラム実行で実現可能である。複数組の入力信号を与える場合には、それらの入力信号をそれぞれ与えたときに、出力信号が対応する分類データの値となるような相関関数の係数を検出することになる。
【0033】図4は図1の識別部300の機能をプログラムで実現するための処理内容を示す。
【0034】(3−1)時間分割処理〜主成分抽出処理(ステップS200〜S230)
時間分割処理〜統計処理の処理内容は学習処理と同様である。ただ、音響分類装置に入力される音響信号が種類が未知の音響信号である点が異なる。
【0035】(3−2)ニューラルネットワーク計算処理上述の学習処理でニューラルネットワークの各ニューロンの相関関数(正確には係数)が決定されているので、これら相関関数を使用して、出力信号の値を計算する。ニューラルネットワークは周知のように、入力信号と出力信号の間の関係を学習させた後、そのニューラルネットワークに入力信号を与えると、その入力信号に類似する学習入力信号に対応する出力信号を出力するという性質がある。そのため、計算の結果として得られる分類データの値が分類の識別結果となる。分類結果は音響分類装置(汎用コンピュータ)のディスプレイに表示してもよいし、印刷出力してもよい。
【0036】以上述べた実施形態に限定されず、用途に応じて種々の変形が可能である。たとえば、ニューラルネットワークを構成するニューロンの個数は用途に応じて適宜、定めればよい。また、音響分類の用途としては音響データベースの高速検索、音響信号の自動インデキシングおよびこのインデックスをサイド情報として用いた画像検索、音声認識処理の前処理、放送音声の自動モニターが考えられる。
【0037】
【発明の効果】以上、説明したように、本発明によれば、音響信号の分類のためにニューラルネットワークを使用することにより分類処理を高速化することができ、また、音響の特徴として、音響のゼロクロス分布、レベル分布および周波数分布のような統計的性質を使用するので、単一の音楽楽器による音楽やオーケストラのような音楽を分類することも可能となり、人間の判断と同程度の識別性能も得られる。さらに、識別したい音響信号も多数種とすることができ、その結果、放送音声の自動モニター、音声データベースの自動インデキシングおよび検索の高速化、マルチメディアを使用した検索の効率化に寄与することができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013