米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 日本放送協会

発明の名称 発話速度推定方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開平7−295588
公開日 平成7年(1995)11月10日
出願番号 特願平6−83032
出願日 平成6年(1994)4月21日
代理人 【弁理士】
【氏名又は名称】杉村 暁秀 (外5名)
発明者 安藤 彰男 / 宮坂 栄一
要約 目的
話し手の音声の発話速度を推定する。

構成
入力音声中の母音を検出し、所望の時間区間内における上記検出した母音の数を所望の時間区間内における音節数に置き替え、その置き替えた所望の時間区間内における音節数を上記所望の時間区間で除したものを発話速度として被対象とする音声の発話速度を推定するようにした。
特許請求の範囲
【請求項1】 入力音声中の母音を検出し、所望の時間区間内における前記検出した母音の数を前記所望の時間区間内における音節数に置き替え、該置き替えた前記所望の時間区間内における音節数を前記所望の時間区間で除したものを発話速度として該発話速度を推定するようにしたことを特徴とする発話速度推定方法。
【請求項2】 請求項1記載の発話速度推定方法において、前記入力音声中の母音を検出するにあたっては、前記入力音声の各フレームごとのLPCケプストラム係数とLPCケプストラム係数で表現された各母音の母音標準パターンとのユークリッド距離を計算し、該計算結果に基づいて検出するようにしたことを特徴とする発話速度推定方法。
【請求項3】 請求項1記載の発話速度推定方法において、前記入力音声中の母音を検出するにあたっては、母音の隠れマルコフモデルを使用して検出するようにしたことを特徴とする発話速度推定方法。
発明の詳細な説明
【0001】
【産業上の利用分野】本発明は、話し手の音声の発話速度を推定する方法に関する。最近、発話速度が速いことにより生じる聞き取りにくさを解消するため、信号処理技術を用いて発話速度がゆっくりな音声に変換する“話速変換型補聴システム”の研究が行われているが(特開平5−80796号公報参照)、このようなシステムを良好に動作させるためには、入力音声中の発話速度が速い部分を何らかの方法で自動的に検出して、そのような部分についてのみ発話速度を遅くするように話速変換を行うことが必要となる。また、アナウンサーはもとより、テレビジョン、ラジオ等の放送メディア、あるいは講演等において発言するため、前もって最も聞きやすい発話速度で発声する訓練をしたい場合にも、発話速度を測定する装置があれば訓練の効率が上がることが想定される。本発明は、このように発話速度を測定したいという需要に応えるものである。
【0002】
【従来の技術】従来、発話速度を測定ないし推定する方法は無いが、それに使用し得る材料を提供するものとして、例えば特開平5−289691号公報に開示されているような音声信号の動的特徴量に基づく方法、および大坂ほか“入力の発声速度を考慮した単語音声認識”電子通信学会技術研究報告SP93−53 1993年8月に示されているように、音素の継続時間長を推定して、その結果を音声認識に適用することにより音声認識の性能向上を図ったものがある。
【0003】
【発明が解決しようとする課題】上記従来技術において、前者(特開平5−289691号公報)に記載のものは、音声信号の特徴量のみによっては発話速度の正確な推定は難しい。また、後者(大坂ほかの文献)は、発話速度の推定を目的としていないためこれを直接発話速度推定に利用することは困難で、いずれにしても現状では、発話速度を推定できる方法は皆無であり、前述したような需要に応えて、早急に精度よく発話速度を測定ないし推定できる方法の実現が望まれていた。
【0004】
【課題を解決するための手段】本発明発話速度推定方法は、このような期待に応えるために、従来皆無であった発話速度を推定、しかも高精度(誤差5%以下)で推定する方法を提供するもので、すなわち本発明は、入力音声中の母音を検出し、所望の時間区間内における前記検出した母音の数を前記所望の時間区間内における音節数に置き替え、該置き替えた前記所望の時間区間内における音節数を前記所望の時間区間で除したものを発話速度として該発話速度を推定するようにしたことを特徴とするものである。
【0005】また本発明は、前記入力音声中の母音を検出するにあたっては、前記入力音声の各フレームごとのLPCケプストラム係数とLPCケプストラム係数で表現された各母音の母音標準パターンとのユークリッド距離を計算し、該計算結果に基づいて検出ようにしたことを特徴とするものである。また本発明は、前記入力音声中の母音を検出するにあたっては、母音の隠れマルコフモデルを使用して検出するようにしたことを特徴とするものである。
【0006】
【実施例】以下に添付図面を参照し実施例により本発明を詳細に説明する。まず本発明では、日本語の特質として、各音節ごとに1個ずつ母音が存在することを有効に利用し、有限個の音節の数をその音節が含まれている時間で除して発話速度を求める代わりに、音節の数を母音の数に置き替えて入力音声を母音標準パターンと比較照合することにより入力音声中の母音を検出し、その検出した母音の数を母音が含まれている時間で除して発話速度を求めるようにしている。
【0007】本発明によって構成した発話速度推定装置の概略のブロック線図を図1に示す。図1において、入力音声は、音声波形分割部2により一定の時間区間(数秒程度)ごとのブロックに分割され、音響分析部4で各ブロックごとに音響分析が行われ、さらに母音検出部8において、母音標準パターンを用いた母音検出が行われる。音響分析法としては、入力音声の周波数構造を抽出できるものであればどのような方法を採用してもよいが、本実施例では、時間軸上である一定の長さ(数十ミリ秒程度)の音声区間を切り出すという処理を、切り出し区間をずらしながら行い(この場合の各切り出し区間をフレームと呼ぶ)、各フレームごとに対数パワースペクトル包絡のフーリエ変換(これをLPCケプストラム係数と呼ぶ)を計算するLPCケプストラム分析を採用している。
【0008】母音標準パターン10は、音声中の母音部分から得られたLPCケプストラム係数を用いて事前に作成しておくものとする。母音検出は、入力音声の各フレームごとのLPCケプストラム係数と、LPCケプストラム係数で表現された各母音の母音標準パターンとのユークリッド距離を計算し、この距離の最小値が予め設定した閾値より小さい場合に母音が存在すると判断することにより行う。また、母音の無声化に起因する母音脱落に対処するため、無声化母音検出部6において入力音声に対し、零交差波分析を行って摩擦性子音 (/s/,/sh/,/ts/など) の存在を調べ、摩擦性子音の後に破裂性子音 (/p/, /t,/, /k/など)が存在し、両子音の間に母音部分が検出されていない場合には、母音無声化が起こっていると判断して母音部分を補うこととする。
【0009】母音検出後、発話速度計算部12において検出された母音数(すなわち音節数)をブロック長(単位:秒)で除することによりブロック内での平均発話速度が求められる(単位:モーラ/秒)。この各ブロックごとに求めた平均発話速度の値を発話速度表示部14に順次表示するようにする。
【0010】次に、本発明発話速度推定方法の一実施例における処理手順を図2および図3(図2の続き)のフローチャートに示す。以下においては、フローチャートの各ブロックが行う処理の実行内容を説明するに留めるが、必要に応じ、判断機能を含むブロックについては他のブロックとの関係も説明する。また、図2および図3において、符号■および■はそれぞれこの点において流れが接続していることを示している。
【0011】各ブロックごとの実行内容は次の通りである。
B2:発話速度の表示をリセットする処理ブロック。
B3:発話速度推定中に検出される全母音数を表す変数m vowel に0を代入する処理ブロックB4:全ブロック長(音声区間の長さ、単位:秒)を表す変数t lengthに0を代入する処理ブロック。
B5:入力音声をA/D変換する処理ブロック。本実施例ではサンプリング周波数15KHz、量子化ビット数16ビットでA/D変換する。
B6:音声データの入力が終了したかどうかを判断する処理ブロック。
B7:発話速度推定時における平均発話速度を計算する処理ブロック。計算は、m vowel をt lengthで除することにより行う。
B8:B7で求めた平均発話速度を表示する処理ブロック。
B9:音声データを1ブロック分読み込む処理ブロック。(ブロックサイズは数秒程度)
B10,B12:A/D変換された音声を10ミリ秒の時間窓を用いて10ミリ秒ずつずらしながら切り出し、パワーと零交差数を求める。パワーに対し音声区間の境界を見いだすための閾値T1 と、その閾値よりも大きい値に設定される音声区間検出用の閾値T2 を設ける。また、零交差数に対しても閾値T3 を設ける。この時、以下の様な判定を行う。
(i)求めたパワーがT2 より大きくなった場合には、音声区間と判定する。
(ii) 求めたパワーがT1 以上あるいは零交差数がT3 以上である場合には、まず過去の時点にさかのぼってパワーあるいは零交差数がT1 あるいはT3 を下回ることなくパワーがT2 以上になる点を見いだせた場合に音声区間と判定する。そうでない場合には音声データを先読みしてそれ以降の時点で同様な点を見いだせた場合に音声区間と判定する。
(iii)上記 (i),(ii)以外の場合には音声区間でないと判定する。この場合、音声データの入力が終了したかどうかを判断する処理ブロックB6に戻る。
B14:母音数を数えるため変数n vowel に0を代入する処理ブロック。
B16:音声データをフレーム単位に分割する処理ブロック。実施例においては、20ミリ秒の長さのハミング窓を5ミリ秒ずつずらしながら切り出すことにより、1ブロック分の音声データをフレーム単位に分割する。
B18:フレーム番号を表す変数frame に1を代入する処理ブロック。
B20:変数frame が、現在処理中の音声ブロック内に設定できる最大フレーム数より大きいかどうかを判断する処理ブロック。大きい場合には、発話速度を計算する処理ブロックB44に進む。
B22:入力の各フレームについて、線形予測分析、および零交差波分析からなる音響分析を行う処理ブロック。合わせて、フレーム内の平均パワーも計算する。本実施例では、線形予測分析における次数は18次とし、プリエンファシス係数として1−0.95z-1を用いる。また、得られた線形予測分析結果からLPCケプストラム係数を求める。
B24:入力音声のLPCケプストラム係数と、LPCケプストラム係数で表現されている母音標準パターンとのユークリッド距離を計算する処理ブロック。また、どの母音の標準パターンとの距離が最小となるかを調べ、その値が閾値T4 以下の場合には、現在のフレームに対応する母音とする。どの母音に対する距離もT4 を超えている場合には対応する母音は無しとする。
B26,B28:母音終了点を検出する処理ブロックで、前フレームに対応する母音が存在し現在のフレームに対応する母音がない場合、もしくは、前フレームおよび現在のフレームに対応する母音が存在するがその母音が異なる場合に、前フレームを母音の終了点とする。検出できない場合、次の無声化母音を検出する処理ブロックB32に進む。
B30:変数n vowel に1を加える処理ブロック。
B32:変数m vowel に1を加える処理ブロック。
B34,B36:無声化母音の存在を判定する処理ブロック。まず、現在のフレームの平均パワーと2つ前のフレームの平均パワーとの比を計算することにより、現在のフレームにおいて、パワーが急激に増加する特徴を有する破裂性子音の存在を判定する。破裂性子音の存在が判定された場合には、このフレームから過去にさかのぼって摩擦性子音が存在するかどうかを調べる。摩擦性子音の存在は、零交差数の大きさが予め定めた閾値を超えているかどうかによって判定する。現在のフレームに破裂性子音が存在し、かつその前に摩擦性子音が存在する場合であって、両子音間に母音の存在が認められない場合には、両子音の間に無声化した母音が存在すると判定する。存在が認められない場合、次の変数frame の値に1を加える処理ブロックB42に進む。
B38:変数n vowel に1を加える処理ブロック。
B40:変数m vowel に1を加える処理ブロック。
B42:変数frame の値に1を加える処理ブロック。
B44:発話速度を計算する処理ブロック。発話速度は、変数n vowel をブロック長(単位:秒)で除することにより、“モーラ/秒”単位で求める。
B46:B38の発話速度を計算する処理ブロックで得られた発話速度を表示する処理ブロック。
B48:変数t lengthの値に、ブロック長(単位:秒)を加える処理ブロック。
【0012】以上の説明においては、入力音声中の母音を検出するために、母音の標準パターンを使用して、これとのユークリッド距離を計算して求めるものとしたが、これは他の方法、例えば母音HMM(Hidden Markov Model :隠れマルコフモデル)を用いて母音部分を検出することも可能である。
【0013】
【発明の効果】本発明によれば、任意に発声された音声に対して、その発話速度を推定することが可能となる。その一例として50文(計1501音節)からなるテキストを5人の話者が発生した音声を評価データとして、発話速度を推定する実験を行った結果、5%以下の推定誤差で発話速度を推定できることが確認され、本発明の有効性が示された。
【0014】なお、このとき使用した評価用音声としては、ATR(株式会社国際電気通信基礎研究所)が販売している音声データベース中のものを用い、また母音標準パターンとしては、同じくATRが販売している音声データベースのうち、評価用音声を発声した話者とは異なる男性21名が発声したデータを用いて作製した。評価に当たっては、発話速度を測定するためのブロックは固定長のものとせず、文音声全体を1つのブロックとして扱った。すなわち、各文音声ごとに本発明により平均発話速度を推定し、音声に付与されているラベルから計算された平均発話速度との誤差を求めることによって、本発明の評価を行った。結果は上記の通りである。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013