米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> シャープ株式会社

発明の名称 音声処理装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−312292(P2001−312292A)
公開日 平成13年11月9日(2001.11.9)
出願番号 特願2000−129609(P2000−129609)
出願日 平成12年4月28日(2000.4.28)
代理人 【識別番号】100100701
【弁理士】
【氏名又は名称】住吉 多喜男 (外3名)
【テーマコード(参考)】
5D015
9A001
【Fターム(参考)】
5D015 DD02 DD04 HH11 HH15 LL03 LL09 LL10 
9A001 HH16 HH17 LL03 LL09
発明者 竹村 英夫 / 堀野 真司 / 中西 馨
要約 目的


構成
特許請求の範囲
【請求項1】 音声入力処理手段と、音声解析前処理手段と、音声認識処理手段とを有する音声処理装置において、前記音声入力処理手段が、音声入力のゲインを調整するゲイン調整機能と、音声入力の通過帯域を調整する通過帯域調整機能と、アナログ信号をディジタル信号に変換するアナログ−ディジタル変換機能を有し、前記音声解析前処理手段が、音声のスペクトルおよび音声のスペクトルとその時間変化を解析するスペクトル解析機能と、発声の開始や終了および音声のパワーおよび音声のパワーの時間変化を解析するゲイン解析機能と、音声のスペクトル解析の結果に基づいて前記通過帯域調整機能のカットオフ周波数を演算するカットオフ周波数演算機能と、ゲイン解析の結果に基づいて前記ゲイン調整機能の次ぎの音声のゲインを演算するゲイン演算機能とを有し、前記音声認識処理手段が、音声パターンマッチング処理機能と、通常の言葉の音声からなる通常音声辞書と、通常の言葉以外の音声からなる特殊音声辞書と、前記通常音声辞書と前記特殊音声辞書を選択する辞書選択機能を有することを特徴とする音声処理装置。
【請求項2】 前記音声解析前処理手段が、入力された音声のパワーと音声のパワーの変化から次ぎに入力される音声のパワーレベルを推定し、次ぎに入力される音声に対するゲインを変更する必要があるときに、ゲイン切替信号を、音声入力処理手段のゲイン調整機能に出力することを特徴とする請求項1に記載の音声処理装置。
【請求項3】 次ぎに入力される音声のパワーレベルが、音声入力処理手段のダイナミックレンジを超えると予測された場合、音声入力処理手段のゲイン調節機能のゲインを下げるゲイン切替信号を出力し、音声入力処理手段のダイナミックレンジを超えないと予測された場合、音声入力処理手段のゲイン調節機能のゲインを上げるゲイン切替信号を出力することを特徴とする請求項2に記載の音声処理装置。
【請求項4】 前記音声解析前処理手段が、入力された音声のスペクトルと音声のスペクトルの変化から次ぎに入力される音声のスペクトルを推定し、次ぎに入力される音声のカットオフ周波数を変更する必要があるときに、カットオフ周波数切替信号を、音声入力処理手段の通過帯域調整機能に出力することを特徴とする請求項1に記載の音声処理装置。
【請求項5】 スペクトル解析機能が、音声入力信号のスペクトル帯域における高い周波数への分布を解析し、物が破壊する音などの言葉以外の音声の場合は通過帯域調整機能のカットオフ周波数を上げるカットオフ周波数切替信号を、人間の言葉の音声の場合は通過帯域調整機能のカットオフ周波数を下げるカットオフ切替信号を出力することを特徴とする請求項4に記載の音声処理装置。
【請求項6】 前記音声認識前処理手段が、通常の言葉の音声の認識の他、物の壊れる音、怒号や悲鳴、物を叩く音、足音、破裂音、爆音、打撃音など言葉以外の音声の認識を可能とした請求項1に記載の音声処理装置。
【請求項7】 前記音声認識処理手段の後段に、該音声認識処理手段からの信号に異常な状態を検出したときに、警報や警告のメッセージを発する警報発生手段を設けたことを特徴とする請求項1ないし請求項6のいずれか1項に記載の音声処理装置。
【請求項8】 前記警報発生手段が、積算機能と、閾値処理機能と、重み・励起時間テーブルを有し、単語毎に単語のスコアと単語毎に定めた重みと単語毎の励起時間を用いて所定の時間の値を積算し、この値が閾値を越えたときに異常な状態の発生を判断することを特徴とする請求項7に記載の音声処理装置。
【請求項9】 音声認識処理手段に入る音声特徴情報とゲイン情報などから通常の言葉以外の音を、音声のパワーの大きさ,パワーの変化の速さ,スペクトル帯域の広さ,スペクトルのピークの鋭さ,パワーの減衰の仕方などをもとにイベントの開始を検知することを特徴とする請求項8に記載の音声処理装置。
【請求項10】 イベント期間の中でさらに大きな言葉の音声や破壊音,打撃音等が入力されたときに、それらを認識し異常音らしさの値と異常音の重要度を示す重み値および重要度に応じて設定した励起時間の3値を演算し、特定の状況に応じた警報や警告等のメッセージを発生することを特徴とする請求項7ないし請求項9のいずれか1項に記載の音声処理装置。
【請求項11】 上記演算を単語の認識と混合して行なうことを特徴とする請求項10に記載の音声処理装置。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、音声処理装置に関し、ことに通常の話し言葉以外の音声が入力されたときにこの言葉以外の音声を認識して異常の発生などを判断するようにした音声処理装置に関する。さらに、本発明は、商品販売防犯機能を備えた端末装置や緊急ナースコールまたは携帯電話や警備保安要員などの使用する携帯情報端末等における発声や会話や単語等の言葉を認識する音声処理装置に関する。
【0002】
【従来の技術】近年、24時間営業のストアなどが増加し、これに伴い電子キャッシュレジスタやPOS端末装置などから、売上げ現金を奪う犯罪が増加している。このような事態に対処するために防犯機能を備えた商品販売データ登録装置が各種提案されている。
【0003】例えば、特開平10−269455号公報には、POS端末装置に、異常状態を検出する異常状態検出手段と、この異常状態検出手段により検出した異常状態に応じて通報先電話番号および通報内容を選択して公衆通信回線により通報を行う通報処理手段を備え、異常状態検出手段が、例えば、ドロワが長時間に渡り開放された状態のままのドロワ異常状態の検出やキーボードの通常操作でない異常操作状態の検出等を行う装置が開示されている。この装置は、店の責任者や従業員が犯人に強要されてドロワを開放しなければならない場合に、店の責任者や従業員に及ぶ危険性を極力無くし、しかも迅速な警報あるいは通報ができる商品販売データ登録装置として示されている。
【0004】しかし、この公報に開示された装置は、商品販売防犯機能を備えた端末装置に関する危険性を通報する音声装置のみに関するものであり、音声入力処理手段にて特定の状祝下での発声音や発声や会話や単語を認識し、音声認識処理手段において認識した言葉の重要度に応じてきめ細かな異なった警報や警告を発生する機能がないために、状況に応じた複数の警報や警告を感知して迅速に対応しなければならない状況に対する情報量が不足していた。
【0005】さらに、正常な発声を取り出して状況を認識する手法にあっては、正常な発声が不可能な状況や、大声や怒号もしくは悲鳴など音声認識ができない状況にあっては、過重大な事象が発生しても認識が不可能な事態が起こりうる。
【0006】例えば、ナースコールや携帯電話や警備保安要員などの使用する携帯情報端末等における発声や会議や単語を認識する音声処理装置では、状祝に対する情報量と迅速性を両立させる必要性が高いにもかかわらず、前述のシステムではこのような要求を満足させることはできなかった。
【0007】
【発明が解決しようとする課題】本発明は、状況に関する情報の量の増加と処理の迅速性を両立させ、異常な状況が発生したときに、複数の警報や警告から異常な状況に対応した警報や警告を選択して迅速に警報あるいは通報するともに、通常の言葉の音声以外の音声も認識の対象に加え、通常の言葉以外の音声を認識して、より正確な状祝判断を行う音声処理システムを提供するものである。
【0008】
【課題を解決するための手段】上記課題を解決するために、本発明は、音声入力処理手段と、音声解析前処理手段と、音声認識処理手段とを有する音声処理装置において、前記音声入力処理手段が、音声入力のゲインを調整するゲイン調整機能と、音声入力の通過帯域を調整する通過帯域調整機能と、アナログ信号をディジタル信号に変換するアナログ−ディジタル変換機能を有し、前記音声解析前処理手段が、音声のスペクトルおよび音声のスペクトルとその時間変化を解析するスペクトル解析機能と、発声の開始や終了および音声のパワーおよび音声のパワーの時間変化を解析するゲイン解析機能と、音声のスペクトル解析の結果に基づいて前記通過帯域調整機能のカットオフ周波数を演算するカットオフ周波数演算機能と、ゲイン解析の結果に基づいて前記ゲイン調整機能の次ぎの音声のゲインを演算するゲイン演算機能とを有し、前記音声認識処理手段が、音声パターンマッチング処理機能と、通常の言葉の音声からなる通常音声辞書と、通常の言葉以外の音声からなる特殊音声辞書と、前記通常音声辞書と前記特殊音声辞書を選択する辞書選択機能を有することとした。
【0009】また、本発明は、上記音声処理装置において、前記音声解析前処理手段が、入力された音声のパワーと音声のパワーの変化から次ぎに入力される音声のパワーレベルを推定し、次ぎに入力される音声に対するゲインを変更する必要があるときに、ゲイン切替信号を、音声入力処理手段のゲイン調整機能に出力することを特徴とする。
【0010】本発明は、上記音声処理装置において、次ぎに入力される音声のパワーレベルが、音声入力処理手段のダイナミックレンジを超えると予測された場合、音声入力処理手段のゲイン調節機能のゲインを下げるゲイン切替信号を出力し、音声入力処理手段のダイナミックレンジを超えないと予測された場合、音声入力処理手段のゲイン調節機能のゲインを上げるゲイン切替信号を出力することを特徴とする。
【0011】本発明は、上記音声処理装置において、前記音声解析前処理手段が、入力された音声のスペクトルと音声のスペクトルの変化から次ぎに入力される音声のスペクトルを推定し、次ぎに入力される音声のカットオフ周波数を変更する必要があるときに、カットオフ周波数切替信号を、音声入力処理手段の通過帯域調整機能に出力することを特徴とする。
【0012】本発明は、スペクトル解析機能が、音声入力信号のスペクトル帯域における高い周波数への分布を解析し、物が破壊する音などの言葉以外の音声の場合は通過帯域調整機能のカットオフ周波数を上げるカットオフ周波数切替信号を、人間の言葉の音声の場合は通過帯域調整機能のカットオフ周波数を下げるカットオフ切替信号を出力することを特徴とする。
【0013】本発明は、上記音声処理装置において、前記音声認識前処理手段が、通常の言葉の音声の認識の他、物の壊れる音、怒号や悲鳴、物を叩く音、足音、破裂音、爆音、打撃音など言葉以外の音声の認識を可能とした。
【0014】本発明は、上記音声処理装置において、前記音声認識処理手段の後段に、該音声認識処理手段からの信号に異常な状態を検出したときに、警報や警告のメッセージを発する警報発生手段を設けたことを特徴とする。
【0015】本発明は、上記音声処理装置において、前記警報発生手段が、積算機能と、閾値処理機能と、重み・励起時間テーブルを有し、単語毎に単語のスコアと単語毎に定めた重みと単語毎の励起時間を用いて所定の時間の値を積算し、この値が閾値を越えたときに異常な状態の発生を判断することを特徴とする。
【0016】本発明は、上記音声処理装置において、音声認識処理手段に入る音声特徴情報とゲイン情報などから通常の言葉以外の音を、音声のパワーの大きさ,パワーの変化の速さ,スペクトル帯域の広さ,スペクトルのピークの鋭さ,パワーの減衰の仕方などをもとにイベントの開始を検知することを特徴とする。
【0017】本発明は、上記音声処理装置において、イベント期間の中でさらに大きな言葉の音声や破壊音,打撃音等等が入力されたときに、それらを認識し異常音らしさの値と異常音の重要度を示す重み値および重要度に応じて設定した励起時間の3値を演算し、特定の状況に応じた警報や警告等のメッセージを発生することを特徴とする。
【0018】本発明は、上記音声処理装置において、上記演算を単語の認識と混合して行なうことを特徴とする。
【0019】このような構成を備える本発明の音声処理装置は、音声入力処理手段においてゲイン可変増幅器とカットオフ周波数可変ローパスフィルタを持ち、入力音声信号のダイナミックレンジと周波数帯域幅に応じて最適な入力を行う。
【0020】本発明におけるゲインとカットオフ周波数の切替えは、音声解析前処理での特徴量(スペクトル情報,パワーレベル)の時間変化を予測しながら切り替える。このゲイン切替情報とカットオフ切替情報は音声認識処理手段に送られ、パワーのスケーリングと、認識における補助情報として使用される。
【0021】警報発生手段は、計数機能と閾値処理機能と通信機能をもち、音声認識処理手段において言葉が認識されたとき、単語S毎にSのスコア値と言葉の重要度を示す重み付け値Wa〜Wxと言葉の重要度に応じて設定した励起時間値Ta〜Txの3値を用いて積算置Vを演算し、演算値Vが予め設定した閾値Vthに達した時に、複数の警報や警告等のメッセージの内から特定の状祝に応じたメッセージを発生する。
【0022】さらに、本発明の音声処理装置は、言葉が認識された時、認識スコア値と言葉の重要度を示す重み付け値Wa〜Wxと言葉の重要度に応じて設定した検知時間値Ta〜Txの3値を用いて単語S毎の積算置Vを演算し、演算値Vが設定した複数の閾値Vthに達した時に、特定の状況に応じた複数の警報や警告等を通信手段により伝送することを特徴とする。
【0023】本発明の音声処理装置は、言葉の認識時に、類似語辞書に基づいて予め登録された言葉として認識される音声認識処理手段を有する。
【0024】(作用)本発明にかかる音声処理装置は、音声入力処理手段にて音声信号を増幅する。これは音声信号(アナログ)をアナログ−ディジタル変換可能な振幅までに増幅させる。次にこのアナログ信号の中から不用な帯域の成分をローパスフィルタでカットする。増幅のゲインとカットオフ周波数は音声解析処理手段において予測計算により求めた設定信号によって行われる。
【0025】音声解析処理手段では、ゲイン切替信号やカットオフ周波数切替信号などの制御信号を音声信号の時間変化から計算し音声入力処理手段へ送るとともに、音声のパワー,音声のスペクトル成分,およびその時間変化を計算し、音声認識処理手段に送る。音声認識処理手段では、音声パターンマッチングによりパワーやスペクトルを音素ごとに照合し、最も音素と時間的な音素のならびが近い単語侯補を抽出する。この時単語侯補の辞書を参照するが統計的な計算からその単語らしさも計算し同時に出力する。
【0026】警報発生手段では、単語侯補とその単語らしさの値をもとに、単語の出現頻度、単語の重要度を累積し、ある一定時間内での重要単語発声が発声累積がある閾値を超えた時、警報もしくは警告メッセージを発生する。このメッセージは通信手段により遠隔地へも転送する。
【0027】
【発明の実施の形態】以下、本発明の実施の形態について図面を参照して説明する。
【0028】図1は、本発明にかかる音声認識装置の全体構成を示す機能ブロック図である。本発明にかかる音声処理装置は、音声入力処理手段10と、音声解析前処理手段30と、音声認識処理手段50と、警報発生手段70とを有して構成される。
【0029】前記音声入力処理手段10は、入力音声信号のゲインをダイナミックレンジ内で以降の信号処理に適した範囲に調整するゲイン調整機能11と、入力音声信号のスペクトルを以降の信号処理に適した帯域に調整する通過帯域調整機能12と、入力音声信号をアナログ信号からディジタルの時系列のPCM信号に変換するアナログ−ディジタル変換機能13を有して構成される。
【0030】前記ゲイン調整機能11は、例えばゲイン可変増幅器によって達成することができる。このゲイン可変増幅器は、外部(音声解析前処理手段)から入力されるゲイン可変制御信号(ゲイン切替信号)によって、例えばゲイン1:100に変更することができる増幅器であって、該増幅器のフィードバック量を決定する抵抗や、ゲイン可変増幅器を構成する可変アッテネータ抵抗のネットワークを、アナログスイッチで切り替えてゲインを調整する。前記ゲイン可変制御信号は、ゲイン演算機能34からの“1”または“0”の1ビットのゲイン切替信号が用いられる。このゲイン可変増幅器は、マイクなどで捉えられた微弱な音声信号を後段のアナログ−ディジタル変換器で十分なビット精度が得られる電圧レベルまで増幅する回路であり、専用の増幅ICやオペアンプなどの半導体増幅素子を用いて構成される。
【0031】前記通過帯域調整機能12は、例えばオペアンプなどを用いたアクティブフィルタなどからなるカットオフ周波数可変ローパスフィルタによって達成することができる。この可変ローパスフィルタは、外部(音声解析前処理手段)からのカットオフ周波数切替信号によって、フィルタの時定数を決定するネットワーク抵抗を切り替えてカットオフ周波数を調整している。カットオフ周波数の切替えは、人間が通常発生する音声のスペクトル領域の信号を取り出すのに適したカットオフ領域を持つ時定数と、破壊音や悲鳴など通常の言葉以外の音声のより広帯域に広がったスペクトル領域の信号を取り出すのに適したカットオフ領域を持つ時定数の2つが用意される。
【0032】前記アナログ−ディジタル変換機能13は、例えばアナログ−ディジタル変換器によって達成することができる。アナログ−ディジタル変換器には、不要な周波数成分が除かれたカットオフ周波数可変ローパスフィルタから出力された信号からランダムノイズに基づく高い周波数成分を除去した信号が入力される。アナログ−ディジタル変換器では、入力された不要な周波数成分やランダムノイズ等を取り除いたアナログ信号を、逐次比較方式やデルタΣ方式と言われる一般的変換方式によって、ディジタル時系列PCM信号に変換する。
【0033】前記音声解析前処理手段30は、音声認識処理手段50での音声認識処理に必要な特徴パラメータを前記ディジタル時系列PCM信号から計算するとともに、前記音声入力処理手段10でのゲインやカットオフ周波数をも計算により決定する。前記特徴パラメータは、一般に使われる音声のパワーや音声のパワーの時間変化および周波数スペクトル包絡線のピーク周波数を示すパラメータとその時間変化などである。音声解析前処理手段30は、スペクトル解析機能31と、ゲイン解析機能32と、カットオフ周波数演算機能33と、ゲイン演算機能34とを有して構成される。
【0034】前記スペクトル解析機能31は、前記ディジタル時系列PCM信号からピーク周波数を求めカットオフ周波数演算機能33に出力する。カットオフ周波数演算機能33は、各周波数の電力の分布により通常の音声データの平均より高い周波数にピーク列が分布するかを判断し、通常の音声データの平均より高い周波数にピーク列が分布する場合カットオフ周波数を上げてより沢山の情報を取り込むように、カットオフ周波数切替信号を、音声入力処理手段10の通過帯域調整機能12と、音声認識処理手段50の音声パターンマッチング処理機能51に送る。
【0035】前記ゲイン解析機能32は、前記ディジタル時系列PCM信号から音声信号のパワーを計算し、ゲイン演算機能34に出力する。ゲイン演算機能34は、例えば線形一次予測などを用いて音声信号の変化を計算して次ぎに入力される音声のパワーを予測し、予測した次ぎに入力される音声のパワーが前記音声入力処理手段10のアナログ−ディジタル変換器の入力電圧の最大値を越えるか否かを判断し、アナログ−ディジタル変換器の入力電圧の最大値を超える入力電圧が予測される場合、ダイナミックレンジのオーバーフローを防ぐ目的で音声入力処理手段10のゲイン可変増幅器に対してゲインを下げる旨のゲイン切替信号を送る。また、逆に次ぎに入力される音声が通常の発声レベルに戻ることが予測される場合には、ゲインを元のレベルに上げる旨のゲイン切替信号を送る。このゲイン切替信号は、他の認識パラメータと同期したタイミングで音声認識処理手段50にも送られる。これは入力の絶対値を音声認識処理の中で使用する為であり、これによりアナログ−ディジタル変換を恒に最適な入力電圧とビット精度にて行える。
【0036】音声認識処理手段50は、言葉の認識時に、類似語辞書に基づいて予め登録された言葉として認識する。
【0037】音声認識処理手段50は、特徴パラメータとその時系列変化を音素ならびに単語辞書データと照合し音声認識を行う手段であり、音声パターンマッチング処理機能51と、通常の言葉の音声単語が登録された通常音声辞書52と、通常の言葉の音声以外の特殊な音声、例えば物の壊れる音、叫び声、打撃音などで作られた特殊音声辞書53と、これらの2つの辞書を選択する辞書選択手段54とを有して構成される。
【0038】音声パターンマッチング処理機能は、音声解析枚処理手段30から送られたゲインの状態およびカットオフ周波数の状態ならびに音声のパワーの時間的減衰パターンを観測し、音声のパワーが以上に大きいとか周波数分布が広いこと、また音のパワー減衰が指数関数的に減衰するなど、通常言葉の音声でない兆候を判断し、辞書をその都度、通常音声辞書と特殊音声辞書とのいずれかに切り替える。
【0039】前記音声パターンマッチング処理機能51は、各分析した音素の類似度と音素の時間変化等を用いて音声辞書を参照して単語候補を計算し求める。計算の方法はHMMや公知のパターンマッチングの手法を用いることができる。単語候補と共に、統計的な認識の確からしさを示すスコアも同時に出力する。
【0040】警報発生手段70は、単語候補と単語らしさ(スコア)を元に警報を出す為の演算を行う手段であり、積算機能71と、閾値処理機能72と、重み・励起時間テーブル73と、通信機能74とを有して構成される。
【0041】積算機能71は、あらかじめ登録された単語に対応する単語が入力された場合、その単語の重要度をあらわす重み値および励起時間を、重み・励起時間テーブル73を参照して、下記(1)式を演算して演算値Vを得る。
【0042】
【数1】

【0043】上記(1)式において、例えば、ある単語のスコアをS、単語毎に定められた定数である重み値をW、単語発生時には値1であり一定時間後には0となるステップ関数である励起時間をTとする。
【0044】すなわち、積算機能71は、音声認識処理手段50において言葉が認識されたとき、単語S毎に言葉の重要度を示す重み付け値Wa〜Wxと言葉の重要度に応じて設定され励起時間値Ta〜Txの2値を用いて積算値Vを演算し、演算値Vが予め設定され複数の閾値Vthに達した時に、複数の警報や警告等のメッセージの内から特定の状祝に応じたメッセージを発生する。
【0045】閾値処理機能72は、積算機能71で得た単語毎に得られた値Vを閾値と比較し、値Vがある一定レベル以上であれば、警報を出力する。閾値のレベルや複数の閾値とその警報レベルは、目的に応じてあらかじめ設定する。
【0046】
【発明の効果】以上のように、本発明にかかる音声処理装置によれば、入力された音声信号のレベルを調整するとともに、音声スペクトルによって音声が言葉の音声かその他の音声かを判断してその特徴を判断しやすい音声スペクトルとなるように通過帯域を長調整して最適なアナログ−ディジタル変換を施すことができ、音声信号が、通常の言葉の音声であるか通常の言葉以外の音声であるかを判断して、警報や警告を発する音声であると判断したときには、迅速にその旨を出力することができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013