米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 沖電気工業株式会社

発明の名称 音声認識システム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−140048(P2007−140048A)
公開日 平成19年6月7日(2007.6.7)
出願番号 特願2005−332780(P2005−332780)
出願日 平成17年11月17日(2005.11.17)
代理人 【識別番号】100085198
【弁理士】
【氏名又は名称】小林 久夫
発明者 吉田 敏之
要約 課題
なりすましによる機器の遠隔操作を防止する音声認識システムを提供する。

解決手段
予め各ユーザの声紋情報が認証用のデータとして登録された認証データテーブル13と、外部から入力された音声から声紋情報と特徴量を抽出する音響分析部11と、声紋情報が認証データテーブル13に登録されているかどうかを検索し、声紋情報が登録されているときは認証済と判別する認証処理部12と、認証処理部12により認証済と判別されたとき、予め設けられた辞書15から特徴量をキーとしてメッセージを抽出する認識デコーダ部14と、予め各メッセージに対応してコマンドが登録されたコマンドテーブル17と、認識デコーダ部14により抽出されたメッセージをキーとしてコマンドテーブル17からコマンドを検索し、かつ、そのコマンドにより機器のコマンド1を操作するメッセージ処理部16とを備えた。
特許請求の範囲
【請求項1】
予め各ユーザの声紋情報が認証用のデータとして登録された認証データテーブルと、
外部から入力された音声から声紋情報を抽出し、かつ、その声紋情報が前記認証データテーブルに登録されているかどうかを検索し、声紋情報が登録されているときは認証済と判別する認証処理部とを備え、
前記認証処理部により認証済と判別されたときに前記音声からコマンドを認識し、かつ、そのコマンドにより機器を遠隔操作する音声認識システム。
【請求項2】
予め各ユーザの声紋情報が認証用のデータとして登録された認証データテーブルと、
外部から入力された音声から声紋情報と特徴量を抽出する音響分析部と、
前記声紋情報が前記認証データテーブルに登録されているかどうかを検索し、声紋情報が登録されているときは認証済と判別する認証処理部と、
前記認証処理部により認証済と判別されたとき、予め設けられた辞書から前記特徴量をキーとしてメッセージを抽出する認識デコーダ部と、
予め各メッセージに対応してコマンドが登録されたコマンドテーブルと、
前記認識デコーダ部により抽出されたメッセージをキーとして前記コマンドテーブルからコマンドを検索し、かつ、そのコマンドにより機器を遠隔操作するメッセージ処理部と
を備えたことを特徴とする音声認識システム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、声紋情報から個人認証し、コマンドを操作する音声認識システムに関するものである。
【背景技術】
【0002】
情報システムの高度化に伴い、アプリケーションソフトや端末、各種装置などを遠隔操作する機会が非常に多くなっている。そこで、広汎な人に容易に操作できるよう、音声認識技術を用いて音声の入力を認識し、メッセージを処理することでプログラムを操作する音声認識システムが確立された。音声認識システムは、例えば家庭内LAN(ホームネットワーク)に接続された機器、例えば家電やコンピュータを音声により遠隔操作することに利用されている。
【0003】
従来の操作手法として、音声の入力を認識し、メッセージを処理することで複数の応用プログラムを操作する音声認識システムがある(例えば、特許文献1参照)。
【0004】
【特許文献1】特開平7−140998号公報(第4頁−第7頁、図1−図10)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、前述した従来の音声認識システムでは、システム内部に個人認証機能がなく、このため、なりすましが非常に容易であった。
【課題を解決するための手段】
【0006】
本発明に係る音声認識システムは、予め各ユーザの声紋情報が認証用のデータとして登録された認証データテーブルと、外部から入力された音声から声紋情報を抽出し、かつ、その声紋情報が認証データテーブルに登録されているかどうかを検索し、声紋情報が登録されているときは認証済と判別する認証処理部とを備え、その認証処理部により認証済と判別されたときに音声からコマンドを認識し、かつ、そのコマンドにより機器を遠隔操作するようにしたものである。
【発明の効果】
【0007】
本発明においては、予め各ユーザの声紋情報が認証用のデータとして登録された認証データテーブルを設け、外部から入力された音声から声紋情報を抽出し、その声紋情報が認証データテーブルに登録されているかどうかを検索し、声紋情報が登録されているときは音声からコマンドを認識し、かつ、そのコマンドにより機器を遠隔操作するようにしたので、認証データテーブルに声紋情報が登録されたユーザのみが操作可能になり、このため、なりすましによる機器の遠隔操作を防止できる。
【発明を実施するための最良の形態】
【0008】
図1は本発明の実施の形態に係る音声認識システムの構成を示すブロック図である。
本実施の形態の音声認識システム1は、複数のコマンド2と接続され、音響分析部11と、認証処理部12と、認証データテーブル13と、認識デコーダ部14と、辞書15と、メッセージ処理部16と、複数のコマンド2を管理するコマンドテーブル17と、応答部18と、応答テーブル19と、認証データ管理部20とで構成されている。前述したコマンド2は、例えばコンピュータや家電などの機器に内蔵されたプログラムのコマンドである。
【0009】
図2は実施の形態における音響分析部の構成を示すブロック図である。
音響分析部11は、例えばマイクや電話機から送信されたユーザ(又は管理者)の音声を取り込む音声取込手段11aと、音声取込手段11aにより取り込まれた音声から声紋情報を抽出する声紋情報抽出手段11bと、認証要求と認証対象の声紋情報とを認証処理部12に送信する認証要求送信手段11cと、認証処理部12により処理された声紋情報に対する認証結果を受信する認証結果受信手段11dと、その認証結果が「認証済」のとき、音声取込手段11aにより取り込まれた音声を例えばFFTやバンドパスフィルタなどを用いて周波数分析し、単語音声の特徴量を抽出する特徴量抽出手段11eと、認識要求と認識対象の特徴量とを認識デコーダ部14に送信する認識要求送信手段11fとから構成されている。前述した特徴量抽出手段11eは、認証結果が「未承認」の場合、入力音声から特徴量を抽出しないようになっている。
【0010】
図3は実施の形態における認証処理部の構成を示すブロック図である。
認証処理部12は、音響分析部11からの認証要求と声紋情報とを受信する認証要求受信手段12aと、その声紋情報が認証データテーブル13に登録されているかどうかを検索し、声紋情報が認証データテーブル13に登録されているとき認証結果を「認証済」とし、声紋情報が認証データテーブル13に登録されていないときは「未認証」とする認証データテーブル検索手段12bと、認証結果を受けたときに音響分析部11と応答部18とにそれぞれ送信する認証結果送信手段12cとからなっている。
【0011】
図4は実施の形態における認識デコーダ部の構成を示すブロック図である。
認識デコーダ部14は、音響分析部11からの認識要求と特徴量とを受信する認識要求受信手段14aと、その特徴量(単語音声)を用いて辞書15と照合し、該当するメッセージが存在するとき、それを辞書照合結果として取り込む辞書照合手段14bと、辞書照合結果を受けたときにメッセージ処理要求とその照合結果(メッセージ)とをメッセージ処理部16に送信するメッセージ処理要求送信手段14cと、辞書照合手段14bにより取り込まれた辞書照合結果(メッセージ)を応答部18に送信する辞書照合結果送信部14dとから構成されている。
【0012】
前述した辞書照合手段14bは、特徴量を用いて、例えば複合類似度法(永田、他「ワークステーションにおける音声認識機能の開発」、電子情報通信学会技術報告、HC9119、pp.63−70、(1991))やHMM、DPマッチングなどの手法により辞書15との照合を行い、スコアの最も高い語彙を認識結果としてメッセージ処理要求送信手段14cと辞書照合結果送信部14dとに通知する。辞書照合結果送信部14dは、辞書照合手段14bにより照合された辞書照合結果からメッセージを抽出できたとき「照合済」の結果を応答部18に送信し、メッセージを抽出できないときは「未照合」の結果を送信する。
【0013】
図5は実施の形態におけるメッセージ処理部の構成を示すブロック図である。
メッセージ処理部16は、認識デコーダ部14からのメッセージ処理要求と辞書照合結果(メッセージ)とを受信するメッセージ処理要求受信手段16aと、そのメッセージキーとしてコマンドテーブル17からコマンドを検索するコマンドテーブル検索手段16bと、検索されたコマンドに基づいて例えば実行/停止の操作をコマンド2に対して行うコマンド操作手段16cと、コマンド2の操作結果を応答部18に送信するコマンド操作結果送信手段16dと、コマンドテーブル検索手段16bによるコマンドテーブル17の検索結果を応答部18に送信するコマンドテーブル検索結果送信手段16eとから構成されている。このコマンドテーブル検索結果送信手段16eは、メッセージがコマンドテーブル17に記載されていたとき「操作開始」の検索結果を送信し、メッセージがコマンドテーブル17に記載されていなかったときは「操作中止」の検索結果を送信する。
【0014】
図6は実施の形態における応答部の構成を示すブロック図である。
応答部18は、応答音を生成して送信する応答音送信手段18aと、応答テーブル19から応答音を検索する応答テーブル検索手段18bと、認証処理部12からの認証結果を受信する認証結果受信手段18cと、認識デコーダ部14からの辞書照合結果を受信する辞書照合結果受信手段18dと、メッセージ処理部16からの操作結果を受信するコマンド操作結果受信手段18eと、メッセージ処理部16からの検索結果を受信するコマンドテーブル検索結果受信手段18fとから構成されている。
【0015】
図7は実施の形態における認証データ管理部の構成を示すブロック図である。
認証データ管理部20は、ユーザから発せられた音声の声紋情報を認証データとして認証データテーブル13に登録する認証データ登録手段20aと、認証データテーブル13から認証データを削除するための認証データ削除手段20bと、認証データテーブル13に登録されている認証データを更新するための認証データ更新手段20cと、認証データテーブル13に登録された認証データ(声紋情報)を読み取るための認証データ読取手段20dとからなっている。
【0016】
図8は実施の形態における認証データテーブルの構成を示すブロック図である。
この認証データテーブル13は、各ユーザの声紋情報と、各声紋情報にそれぞれ対応付けられた例えばユーザの氏名や社員番号など個人を特定する個人情報とから構成され、声紋情報をキーとして個人情報の参照、また逆に、個人情報をキーとして声紋情報の参照が可能になっている。
【0017】
図9は実施の形態におけるコマンドテーブルの構成を示すブロック図である。
コマンドテーブル17は、各種のメッセージと、各メッセージにそれぞれ対応付けられたコマンドとからなっている。コマンドは、例えば読み仮名(コマンドの発音を平仮名で示した文字列)や、スタートやストップ、開始や停止、再起動などで構成され、メッセージをキーとしてコマンドの参照が可能になっている。
【0018】
図10は実施の形態における応答テーブルの構成を示すブロック図である。
応答テーブル19は、結果と、各結果に対応付けられた応答音とで構成され、結果をキーとして応答音の参照が可能になっている。
【0019】
前記のように構成された本実施の形態の音声認識システムの動作を図11に基づいて説明する。図11は実施の形態に係る音声認識システムの各部の動作の流れを示す図である。
(1)まず、ユーザ(又は管理者)が認証データ管理部20の認証データ読取手段20dと認証データ登録手段20aを使用して自己の音声及び個人情報を入力すると、認証データ読取手段20dがその音声を読み取って声紋情報を取得し、認証データ登録手段20aがその声紋情報と個人情報とを対応付けて認証データとし、認証データテーブル13に登録する(S0001)。
また、登録した認証データを削除する場合は、認証データ削除手段20bを使用して自己の認証データを削除する。さらに、登録した認証データを更新する場合は、認証データ更新手段20cを使用して自己の認証データを更新する。
【0020】
(2)続いて、ユーザが例えば電話機により本システムにアクセスして音声を入力すると、その音声は音響分析部11に到達する(S0002)。この時、音響分析部11の音声取込手段11aがその音声を取り込み、声紋情報抽出手段11bに送出する。声紋情報抽出手段11bは、入力されたユーザの音声から声紋情報を抽出し、認証要求送信手段11cに送出する。認証要求送信手段11cは、声紋情報が入力されたとき、認証処理部12に対して認証要求と声紋情報とを送信する(S0003)。
【0021】
(3)認証処理部12に音響分析部11からの認証要求と声紋情報とが入ってくると、認証要求受信手段12aがそれを受信し、声紋情報を認証データテーブル検索手段12bに送出する。この時、認証データテーブル検索手段12bは、声紋情報が認証データテーブル13に登録されているかどうかを検索し(S0004)、声紋情報が認証データテーブル13に登録されているときは「認証済」の認証結果を認証結果送信手段12cに送り、声紋情報が認証データテーブル13に登録されていないときは「未認証」の認証結果を通知する。認証結果送信手段12cは、検索された認証結果を受けたとき、認証要求のあった音響分析部11に対し認証結果を送信すると共に、応答部18に送信する(S0005)。
【0022】
(4)応答部18に認証処理部12からの認証結果が入ってくると、認証結果受信手段18cがそれを受信し、応答テーブル検索手段18bに通知する。この時、応答テーブル検索手段18bは、その認証結果をキーとして応答テーブル19から応答音を検索して取得し(S0012)、応答音送信手段18aに送出する。図10に示すように、認証結果が「認証済」のときは「応答音B」を取得し、認証結果が「未認証」のときは「応答音C」を取得する。応答音送信手段18aは、応答テーブル検索手段18bによって検索された応答音に基づいて音を生成し、ユーザ使用の電話機に送信して応答音を鳴らせる(S0013)。
【0023】
(5)一方、音響分析部11の認証結果受信手段11dは、認証処理部12からの認証結果を受信し、その認証結果が「認証済」のときはその旨を特徴量抽出手段11eに通知する。特徴量抽出手段11eは、「認証済」の通知を受けたときに、先に受信されたユーザの音声をバンドパスフィルタなどを用いて周波数分析し、単語音声の特徴量を抽出して認識要求送信手段11fに送出する。認識要求送信手段11fは、特徴量抽出手段11eにより抽出された単語音声の特徴量が入力されると、認識デコーダ部14に対し認識要求と特徴量とを通知する(S0006)。なお、特徴量抽出手段11eは、認証結果が「未認証」の場合、音声の特徴量の抽出を行わずに、次の入力音声に対する認証結果の通知を待つ。
【0024】
(6)認識デコーダ部14に音響分析部11からの認識要求と特徴量とが入ってくると、認識要求受信手段14aがそれを受信し、単語音声の特徴量を辞書照合手段14bに送出する。辞書照合手段14bは、その特徴量を用いて辞書15との照合を行い、スコアの最も高い語彙を認識結果(メッセージ)として取得する(S0007)。そして、その認識結果を辞書照合結果送信手段14dに送出し、次いでメッセージ処理要求送信手段14cに通知する。辞書照合結果送信手段14dは、辞書照合手段14bから受けた認識結果からメッセージを抽出できたとき「照合済」の認識結果を応答部18に送信し、また、メッセージを抽出できなかったときは「未照合」の認識結果を送信する(S0008)。一方、メッセージ処理要求送信手段14cは、辞書照合手段14bからの認識結果を受けたとき、メッセージ処理部16に対しメッセージ処理要求と認識結果とを送信する(S0008)。
【0025】
(7)応答部18に認識デコーダ部14からの認識結果が入ってくると、辞書照合結果受信手段18dがそれを受信し、応答テーブル検索手段18bに送出する。この時、応答テーブル検索手段18bは、その認識結果をキーとして応答テーブル19から応答音を検索して取得し(S0012)、応答音送信手段18aに送出する。図10に示すように、認識結果が「照合済」のときは「応答音D」を取得し、認識結果が「未照合」のときは「応答音E」を取得する。応答音送信手段18aは、応答テーブル検索手段18bによって検索された応答音に基づいて音を生成し、ユーザ使用の電話機に送信して応答音を鳴らせる(S0013)。
【0026】
(8)一方、メッセージ処理部16に認識デコーダ部14からのメッセージ処理要求と特徴量の認識結果とが入ってくると、メッセージ処理要求受信手段16aがそれを受信し、特徴量の認識結果をコマンドテーブル検索手段16bに送出する。コマンドテーブル検索手段16bは、認識結果を受け取るとメッセージを抽出し、それをキーとしてコマンドテーブル17から操作対象のコマンドを検索する(S0009)。図9に示すように、抽出したメッセージがメッセージAのときコマンドAを取得し、メッセージBのときはコマンドBを取得し、コマンド操作手段16cに通知する。この時、コマンドを検索した旨をコマンドテーブル検索結果送信手段16eに通知し、また、コマンドを検索できなかったときは、その旨をコマンドテーブル検索結果送信手段16eに通知し、次のメッセージ処理要求を待つ。
【0027】
(9)コマンドテーブル検索結果送信手段16eは、コマンドが検索された旨の通知を受けたとき「操作開始」の検索結果を応答部18に送信し、コマンドが検索されなかった旨の通知を受けたときは「操作中止」の検索結果を応答部18に送信する(S0011)。一方、コマンド操作手段16cは、コマンドテーブル検索手段16bにより検索されたコマンドに基づいて操作対象となるコマンド2を操作し、かつ、その操作結果(例えば実行/停止)を取得し(S0010)、コマンド操作結果送信手段16dに通知する。コマンド操作結果送信手段16dは、コマンドの操作結果を応答部18に送信する(S0011)。
【0028】
(10)応答部18にメッセージ処理部16からの検索結果(「操作開始」又は「操作中止」)が入ってくると、コマンドテーブル検索結果受信手段18fがその検索結果を受信し、応答テーブル検索手段18bに通知する。この時、応答テーブル検索手段18bは、その検索結果をキーとして応答テーブル19から応答音を検索して取得し(S0012)、応答音送信手段18aに送出する。図10に示すように、検索結果が「操作開始」のときは「応答音F」を取得し、検索結果が「操作中止」のときは「応答音G」を取得する。応答音送信手段18aは、応答テーブル検索手段18bによって検索された応答音に基づいて音を生成し、ユーザ使用の電話機に送信して応答音を鳴らせる(S0013)。
【0029】
(11)次いで、応答部18にメッセージ処理部16からの操作結果が入ってくると、コマンド操作結果受信手段18eがその操作結果を受信し、応答テーブル検索手段18bに通知する。応答テーブル検索手段18bは、その操作結果をキーとして応答テーブル19から応答音を検索して取得し(S0012)、応答音送信手段18aに送出する。図10に示すように、操作結果が「結果A」のときは「応答音A」を取得し、操作結果が「結果K」のときは「応答音K」を取得する。応答音送信手段18aは、前述したように、応答テーブル検索手段18bによって検索された応答音に基づいて音を生成し、ユーザ使用の電話機に送信して応答音を鳴らせる(S0013)。
【0030】
以上のように本実施の形態によれば、ユーザ使用の電話機などからの音声を受信して声紋情報と特徴量を抽出し、その声紋情報が認証データテーブル13に登録されているかどうかを検索し、声紋情報が登録されているときは、音声から抽出した特徴量と辞書15とを照合してメッセージを抽出し、そして、そのメッセージに対応するコマンドにより機器のコマンド2を操作するようにしたので、認証データテーブル13に声紋情報が登録されたユーザのみが操作可能になり、このため、なりすましによる機器の遠隔操作を防止できる。
【図面の簡単な説明】
【0031】
【図1】本発明の実施の形態に係る認証機能付き音声認識システムの構成を示すブロック図である。
【図2】実施の形態における音響分析部の構成を示すブロック図である。
【図3】実施の形態における認証処理部の構成を示すブロック図である。
【図4】実施の形態における認識デコーダ部の構成を示すブロック図である。
【図5】実施の形態におけるメッセージ処理部の構成を示すブロック図である。
【図6】実施の形態における応答部の構成を示すブロック図である。
【図7】実施の形態における認証データ管理部の構成を示すブロック図である。
【図8】実施の形態における認証データテーブルの構成を示すブロック図である。
【図9】実施の形態におけるコマンドテーブルの構成を示すブロック図である。
【図10】実施の形態における応答テーブルの構成を示すブロック図である。
【図11】実施の形態に係る音声認識システムの各部の動作の流れを示す図である。
【符号の説明】
【0032】
1 音声認識システム、2 コマンド、11 音響分析部、12 認証処理部、13 認証データテーブル、14 認識デコーダ部、15 辞書、16 メッセージ処理部、17 コマンドテーブル、18 応答部、19 応答テーブル、20 認証データ管理部。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013