米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 株式会社ザナヴィ・インフォマティクス

発明の名称 車載用音声認識装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−25076(P2007−25076A)
公開日 平成19年2月1日(2007.2.1)
出願番号 特願2005−204848(P2005−204848)
出願日 平成17年7月13日(2005.7.13)
代理人 【識別番号】110000198
【氏名又は名称】特許業務法人湘洋内外特許事務所
発明者 度會 則男
要約 課題
周囲の環境が時々刻々と変化する環境において、より確実に音声認識を行う。

解決手段
車載用音声認識装置は、取得した音声の中の発話部分でない音声を抽出し背景音声として優先度とともに記憶する。優先度の高い順に抽出された複数の背景音声と音声モデルとを用いて、発話部分の音声を認識する。最も信頼性の高い語句の候補を最終的な音声認識結果として出力する。ユーザから認識結果の訂正要求を受け付けた場合、その語句を高スコアで認識するのに用いられた背景音声の優先度を下げる。
特許請求の範囲
【請求項1】
車載用音声認識装置であって、
音声認識のための音声モデルを記憶する手段と、
音声を取得する音声取得手段と、
前記音声取得手段で取得した音声の中の発話部分でない音声を抽出し背景音声として記憶する背景音声記憶手段と、
前記背景音声記憶手段に記憶された背景音声と前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声を認識する音声認識手段と
を備えることを特徴とする車載用音声認識装置。
【請求項2】
車載用音声認識装置であって、
音声認識のための音声モデルを記憶する手段と、
音声を取得する音声取得手段と、
前記音声取得手段で取得した音声の中の発話部分でない音声を抽出し背景音声として記憶する背景音声記憶手段と、
前記背景音声記憶手段に記憶された複数の背景音声と前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声を認識する音声認識手段と
を備えることを特徴とする車載用音声認識装置。
【請求項3】
請求項1において、
前記背景音声記憶手段は、優先度とともに前記背景音声を記憶し、
前記音声認識手段は、
前記背景音声記憶手段に記憶された背景音声の中から優先度の大きい順に複数の背景音声を取得し、
取得した複数の背景音声のそれぞれと前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声に含まれる語句の候補とその信頼性を求め、
最も信頼性の高い語句の候補を音声認識結果として出力する
ことを特徴とする車載用音声認識装置。
【請求項4】
請求項3において、
出力した前記認識結果に対して、訂正要求を受け付けたか否かにより、当該認識結果を最も信頼性の高い語句の候補として求めるのに用いられた背景音声の優先度を変える手段を備える
ことを特徴とする車載用音声認識装置。
発明の詳細な説明
【技術分野】
【0001】
本発明は、車載用の音声認識装置に関する。
【背景技術】
【0002】
特許文献1には、取得した音声を認識する音声認識装置が記載されている。この音声認識装置は、取得した音声に周囲の環境のノイズなどの背景音声が含まれていることを考慮して、予め記憶している背景音声とサンプル音声を合成した合成音を用いて、音声認識を行う。
【0003】
【特許文献1】特開2001−42886号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、車両などの移動体では、周囲環境が時々刻々と変化するため、さまざまな背景音声が想定される。したがって、あるときに取得した背景音声を、他のときに背景音声として用いた場合、音声認識が確実に行われないことがある。
【0005】
本発明の目的は、車両などの周囲の環境が時々刻々と変化する環境において、より確実に音声認識を行うことにある。
【課題を解決するための手段】
【0006】
上記課題を解決すべく、本発明では、取得した音声の中の発話中でない部分の音声を背景音声データとして記憶し学習する。
【0007】
例えば、本発明の車載用音声認識装置は、音声認識のための音声モデルを記憶する手段と、音声を取得する音声取得手段と、前記音声取得手段で取得した音声の中の発話部分でない音声を抽出し背景音声として記憶する背景音声記憶手段と、前記背景音声記憶手段に記憶された背景音声と前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声を認識する音声認識手段とを備えている。
【0008】
また前記音声認識手段は、前記背景音声記憶手段に記憶された複数の背景音声と前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声を認識するようにしてもよい。
【0009】
また、前記背景音声記憶手段は、優先度とともに前記背景音声を記憶するようにしてもよい。そして、前記音声認識手段は、前記背景音声記憶手段に記憶された背景音声の中から優先度の大きい順に複数の背景音声を取得し、取得した複数の背景音声のそれぞれと前記音声モデルとを用いて、前記音声取得手段で取得した音声の中の発話部分の音声に含まれる語句の候補とその信頼性を求め、最も信頼性の高い語句の候補を音声認識結果として出力するようにしてもよい。
【0010】
また、前記車載用音声認識装置は、出力した前記認識結果に対して、訂正要求を受け付けたか否かにより、当該認識結果を最も信頼性の高い語句の候補として求めるのに用いられた背景音声の優先度を変える手段を備えていてもよい。
【発明を実施するための最良の形態】
【0011】
以下に、本発明の一実施形態について、図面を参照して説明する。
【0012】
図1は、本発明の一実施形態が適用された車載用カーナビゲーション装置100の概略構成図である。本実施形態の車載用ナビゲーション装置100は、車載用音声認識装置として機能する。図示するように、車載用ナビゲーション装置100は、演算処理部1と、ディスプレイ2と、記憶装置3と、音声入出力装置4と、入力装置5と、車輪速センサ6と、地磁気センサ7と、ジャイロセンサ8と、GPS(Global Positioning System)受信装置9と、を備えている。
【0013】
演算処理部1は、様々な処理を行う中心的ユニットである。例えば各種センサ6〜8やGPS受信装置9から出力される情報を基にして現在位置を検出する。また、音声入出力装置4から入力された音声を認識し、認識した語句から、ユーザの入力内容を特定する。
【0014】
ディスプレイ2は、演算処理部1で生成されたグラフィックス情報を表示するユニットである。
【0015】
記憶装置3は、CD-ROMやDVD-ROMやHDDやICカードといった記憶媒体で構成されている。この記憶媒体には、地図データが記憶されている。
【0016】
音声入出力装置4は、ユーザが発話した音声を背景音声とともに取得し、演算処理部1に送信する。また、演算処理部1で生成したユーザへのメッセージを音声信号に変換し出力する。
【0017】
入力装置5は、ユーザからの指示を受け付けるユニットである。入力装置5は、スクロールキー、縮尺変更キーなどのハードスイッチ、ジョイスティック、ディスプレイ上に貼られたタッチパネルなどで構成される。
【0018】
センサ6〜8およびGPS受信装置9は、車載用ナビゲーション装置100で現在地(自車位置)を検出するために使用されるものである。
【0019】
図2は、演算処理部1の機能ブロック図である。
【0020】
図示するように、演算処理部1は、ユーザ操作解析部41と、音声認識部42と、ナビゲーション処理部43と、情報記憶部44、表示処理部45と、音声辞書データベース46と、を備えている。
【0021】
ユーザ操作解析部41は、入力装置5に入力されたユーザからの要求を受け、その要求内容を解析して、その要求内容に対応する処理が実行されるように演算処理部1の各部を制御する。また、音声入出力装置4に入力され音声認識部42により認識された語句からユーザの要求(コマンド)を解析して、その要求内容に対応する処理が実行されるように演算処理部1の各部を制御する。例えば、ユーザが「現在位置」と発話した場合、現在位置周辺の地図をディスプレイ2に表示する処理を表示処理部45に要求する。
【0022】
音声認識部42は、音声入出力装置4を介してユーザが発話した音声を取得する。そして、取得した音声を、音声辞書データベース46を用いて認識し、ユーザが発した語句(単語)を特定する。音声から語句を認識する音声認識の手法は、既存の技術を適用できる。例えば、DP(動的計画法)マッチングを用いる方法やHMM(隠れマルコフモデル)を用いる方法などを適用できる。なお、音声辞書データベース46には、音声認識に必要な音声モデルが語句に対応させて格納されている。
【0023】
ナビゲーション処理部43は、各センサ6〜8及びGPS受信装置9の出力から現在位置を求めたり、指定された2地点(現在地、目的地)間を結ぶ推奨経路を探索したりする。また、ディスプレイ2に推奨経路を表示し経路誘導を行う。
【0024】
情報記憶部44は、音声認識部42で認識された語句や、ナビゲーション処理部43により検索された地点の情報を記憶する。
【0025】
表示処理部45は、ディスプレイ2への描画コマンドを生成する。例えば、指定された縮尺、描画方式で、道路、その他の地図構成物や、現在地、目的地、推奨経路のための矢印といったマークを描画するように地図描画コマンドを生成する。
【0026】
図3は、演算処理部1のハードウェア構成例を示す図である。
【0027】
図示するように、演算処理部1は、各デバイス間をバス32で接続した構成としてある。演算処理部1は、数値演算及び各デバイスを制御するといった様々な処理を実行するCPU(Central Processing Unit)21と、記憶装置3から読み出した地図データ、演算データなどを格納するRAM(Random Access Memory)22と、プログラムやデータを格納するROM(Read Only Memory)23と、メモリ間およびメモリと各デバイスとの間のデータ転送を実行するDMA(Direct Memory Access)24と、グラフィックス描画を実行し且つ表示制御を行う描画コントローラ25と、グラフィックスイメージデータを蓄えるVRAM(Video Random Access Memory)26と、イメージデータをRGB信号に変換するカラーパレット27と、アナログ信号をデジタル信号に変換するA/D変換器28と、シリアル信号をバスに同期したパラレル信号に変換するSCI(Serial Communication Interface)29と、パラレル信号をバスに同期させてバス上にのせるPIO(Parallel Input/Output)30と、パルス信号を積分するカウンタ31と、を有する。
【0028】
[動作の説明]次に、上記構成の車載用ナビゲーション装置100の音声認識に関する動作について説明する。
【0029】
図4は、音声取得モードになった場合の処理の流れを示すフロー図である。このフローは、ユーザ操作解析部41がユーザから入力装置5を介して音声認識の開始要求を受け付けたときに開始される。また、同様に、ユーザ操作解析部41がユーザから入力装置5を介して音声認識の停止要求を受け付けたときに終了する。または、ユーザ操作解析部41が、音声認識部42の音声認識結果からユーザの要求(コマンド)を特定し、それに応じた処理を開始する場合に終了する。
【0030】
まず、音声認識部42は、音声入出力装置4を介して、音声の取得を開始する(S11)。次に、音声認識部42は、取得した音声から、ユーザが発話中か否かを判定する(S12)。図5は、取得される音声の波形を、時系列にしたがって表した図である。すなわち、当初、ユーザが発話していないときは、取得される音声は背景音声のみである。一方、ユーザが発話したときは、取得される音声には背景音声とユーザの声が含まれるので、音量(波形)が大きくなる。そこで、音声認識部42は、取得した音声の音量が予め定めた値未満の場合、発話中でないと判定する。一方、音量がその値以上の場合は、発話中と判定する。
【0031】
発話中でないと判定した場合、音声認識部42は、取得した音声を背景音声データとして、情報記憶部44に格納する(S14)。図6は、背景音声データ4710の構成を示す図である。背景音声データ4710は、データを識別するためのコード(背景音声ID)4711と、音声の取得日時4712と、音声データ4713と、優先度4714とからなる。優先度4714は、後述する音声認識処理(S13)において背景音声として用いる優先順位を決めるためのものである。音声認識部42は、優先度を、初期値「0」に設定する。
【0032】
こうして、発話中でない場合に取得した音声から、背景音声データ4710が次々に蓄積されていく。
【0033】
一方、取得した音声から、ユーザが発話中であると判定した場合(S12でYes)、音声認識部42は、音声認識処理を行う(S13)。
【0034】
図7は、音声認識処理(S13)のフロー図である。
【0035】
ここでは、音声認識部42は、音声辞書データベース46に含まれる音声モデルを用いて、S11で取得した音声を認識する。すなわち、音声に含まれているユーザが発した語句(単語)を特定する。音声認識の方法は、既存の技術を用いることができる。ただし、取得した音声には、ユーザの発した音声の他に、背景音声も含まれているので、この背景音声の存在に配慮する必要がある。その方法としては、(1)取得した音声の中から背景音声を除いて、残った音声について認識を行う方法や、(2)予め用意しておいた背景音声と音声モデルを合成し、得られた合成音声と取得した音声とを比較して認識を行う方法、などが考えられるが、本実施形態では後者の方法を用いた場合について説明する。
【0036】
まず、音声認識部42は、情報記憶部44に記憶されている背景音声データ4710の中から、優先度4714の大きい順に1つの音声データ4713を取得する。なお、優先度の同じものが複数ある場合は、データの取得日時4712が新しいものから順に取得する(S21)。
【0037】
次に、音声認識部42は、音声辞書データベース46の中の音声モデルの中から、発話される可能性のある語句の音声モデルを選択する。発話される可能性のある語句は、どのような処理の過程で現在の音声取得モードになったかにより異なる。例えば、目的地設定処理において、現在の音声取得モードになった場合は、「お気に入り」、「登録地」、「住所検索」などが発話される可能性のある語句であり、音声認識部42は、これらの語句を選択する。音声認識部42は、選択した音声モデルに、それぞれS21で取得した音声データ(背景音声)を合成し、背景音声が合成された音声モデル(背景音声合成音声モデル)を得る。そして、音声認識部42は、背景音声合成音声モデルを用いて、S11で取得した音声を認識する。すなわち、音声に含まれる語句の候補を求める。また、求めた語句の候補ごとに、認識の信頼性を示すスコアを算出する(S22)。なお、このスコアは、背景音声合成音声モデルと、S11で取得した音声との相関性を表し、相関性が高いほど大きくなる。
【0038】
音声認識部42は、優先度の大きい順に所定の数(例えば、5つ)の背景音声について、S21〜22の処理を行う(S23)。こうして、図8に示すように、複数の背景音声4722のそれぞれを用いた場合について、S11で取得した音声に含まれている語句の候補4721とそのスコア4724が求められる。
【0039】
次に、音声認識部42は、最もスコアの高い語句を特定する(S24)。そして、特定した語句を音声認識の結果としてユーザ操作解析部41に出力する(S25)。これを受けて、ユーザ操作解析部41は、認識された語句の内容に応じた処理を行う。例えば、「登録地」と認識された場合、ユーザ操作解析部41は、表示処理部46を介して、ディスプレイ2に認識結果として「登録地」と表示する。さらに、ユーザ操作解析部41は、ナビゲーション処理部43に、予め登録されている登録地を検索し表示する処理を行うように指示する。
【0040】
ここで、音声認識部42は、ユーザ操作解析部41がユーザから入力装置4を介して認識結果の訂正要求を受け付けたか否か判定する(S26)。訂正要求を受け付けた場合(S26でYes)、音声認識部42は、S24で特定された語句を最もスコアの高い語句の候補として求めるのに用いられた背景音声の優先度を下げる処理を行う。例えば、図8において、スコアXが最大であり、S24において語句Aが認識結果として求められた場合で、さらに、ユーザから訂正要求があった場合、背景音声ID:Yの背景音声の優先度を下げる処理を行う。具体的には、その背景音声(音声データ)4713の現在の優先度4714から「1」を引いて更新する(S27)。
【0041】
一方、訂正要求を受け付けなかった場合(S25でNo)、音声認識部42は、S24で特定された語句を最もスコアの高い語句の候補として求めるのに用いられた背景音声の優先度4714を上げる処理を行う。例えば、図8において、スコアXが最大であり、S24において語句Aが認識結果として求められた場合で、さらに、ユーザから訂正要求なかった場合、背景音声ID:Yの背景音声の優先度を上げる処理を行う。具体的には、その背景音声(音声データ)4713の現在の優先度4714に「1」を足し更新する(S28)。
【0042】
こうして、音声認識部42は、S11で取得した音声の認識を行う(S13)。上述したように、音声認識によりユーザからの要求(コマンド)が特定されると、ユーザ操作解析部41は、音声取得モードを解除し、要求に応じた処理を行う。一方、ユーザからの要求を継続して受け付ける場合は、ユーザ操作解析部41は、音声取得モードを継続する。そして、音声認識部42は、S11に戻り、再び新たに音声の取得を行い、以降の処理を続ける。なお、音声認識部42は、音声入出力装置4で取得される音声を、バッファに貯めておき、そこから処理速度に応じて順次音声を取得するようにしてもよい。
【0043】
以上、本発明の一実施形態について説明した。
【0044】
上記実施形態によれば、音声取得の機会があると、取得可能な音声から、発話中か否かを判断し、発話中でない場合、取得した音声を背景音声として蓄積する。したがって、時々刻々と背景音声が変化するときでも、最新の背景音声を用いて音声認識を行うことができる。
【0045】
また、音声認識の際は、蓄積された複数の背景音声に基づいて行う。また、優先度の高い背景音声を用いて音声認識を行い、より信頼性の高い語句の候補を最終的に認識結果として出力するので、より確実な認識が期待できる。
【0046】
また、ユーザが認識結果を訂正したかどうかで、背景音声の優先度を変えるので、信頼性の高い認識結果を与える背景音声が優先的に音声認識に用いられることなり、学習効果が期待できる。
【0047】
本発明は、上記実施形態に限定されない。上記実施形態は、本発明の技術的思想の範囲内で、様々な変形が可能である。
【0048】
例えば、音声認識部42は、背景音声を記憶する際に(S14)、取得した背景音声をナビゲーション処理部43から取得した位置情報に対応させて記憶するようにする。音声認識の際は(S13)、現在位置と同じ分類に属する位置に対応させて記憶された背景音声を用いるようにする。具体的には、位置を、トンネル内、高速道路、一般道などに分類する。そして、S21において、現在位置と分類が同じ位置で取得した背景音声を取得するようにする。いいかえれば、分類が異なる背景音声を除外してS21の処理を行う。こうすれば、周囲の環境変化に配慮して、より確実に音声認識を行うことができる。
【0049】
また、上記の実施形態では、本発明を車載用ナビゲーション装置に適用した例について説明したが、本発明は他の移動体に搭載されるナビゲーション装置にも適用できる。また。ナビゲーション装置以外の装置(例えば、オーディオ機器)にも適用することができる。
【図面の簡単な説明】
【0050】
【図1】図1は、本発明の車載用音声認識装置が適用された車載用ナビゲーション装置の概略構成図である。
【図2】図2は、演算処理部1の機能構成を示す図である。
【図3】図3は、演算処理部1のハードウェア構成を示す図である。
【図4】図4は、音声取得モードのフロー図である。
【図5】図5は、取得される音声の波形を示す図である。
【図6】図6は、背景音声データの構成を示す図である。
【図7】図7は、音声認識処理(図5のS13)のフロー図である。
【図8】図8は、用いる背景音声による語句ごとのスコアを示す図である。
【符号の説明】
【0051】
100…車載用ナビゲーション装置、
1…演算処理部、2…ディスプレイ、3…記憶装置、4…音声出入力装置、5…入力装置、6…車輪速センサ、7…地磁気センサ、8…ジャイロ、9…GPS受信装置、21…CPU、22…RAM、23…ROM、24…DMA、25…描画コントローラ、26…VRAM、27…カラーパレット、28…A/D変換器、29…SCI、30…PIO、31…カウンタ、41…ユーザ操作解析部、42…音声認識部、43…ナビゲーション処理部、44…情報記憶部、45…表示処理部、46…音声辞書データベース




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013