米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 株式会社ザナヴィ・インフォマティクス

発明の名称 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2001−83982(P2001−83982A)
公開日 平成13年3月30日(2001.3.30)
出願番号 特願平11−255982
出願日 平成11年9月9日(1999.9.9)
代理人 【識別番号】100084412
【弁理士】
【氏名又は名称】永井 冬紀
【テーマコード(参考)】
2F029
5D015
5H180
【Fターム(参考)】
2F029 AA02 AB01 AB07 AB09 AC01 AC02 AC04 AC18 
5D015 GG03 KK02
5H180 AA01 BB13 FF04 FF05 FF22 FF25 FF27 FF33
発明者 平山 善一 / 小林 禎之
要約 目的


構成
特許請求の範囲
【請求項1】音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、前記格納手段は、前記音声認識対象の言葉の全体の読みに対応する第1の認識語と、前記音声認識対象の言葉の全体の読みのうち先頭から所定の長さの読みにのみ対応する第2の認識語とを、双方とも前記音声認識対象の言葉の認識語として格納することを特徴とする音声認識装置。
【請求項2】請求項1記載の音声認識装置において、前記格納手段は、前記音声認識対象の言葉の全体の読みが第1の所定の長さ以上であるときに、前記音声認識対象の言葉の全体の読みのうち先頭から第2の所定の長さの読みにのみ対応する第2の認識語を、前記音声認識対象の言葉の認識語として格納することを特徴とする音声認識装置。
【請求項3】請求項1または2記載の音声認識装置と、地図情報を格納する地図情報格納手段と、少なくとも前記音声認識装置の認識結果と前記地図情報とに基づき、道案内のための制御を行う制御手段とを備えることを特徴とする音声認識ナビゲーション装置。
【請求項4】音声認識処理において、音声入力手段により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉に対応した認識語に関するデータであって、音声認識対象の言葉の全体の読みに対応する第1の認識語と、前記音声認識対象の言葉の全体の読みのうち先頭から所定の長さの読みにのみ対応する第2の認識語とを、双方とも前記音声認識対象の言葉の認識語とするデータを記録したコンピュータ読みとり可能な記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】本発明は、音声認識、および音声認識ナビゲーション装置に関する。
【0002】
【従来の技術】自動車の現在地を表示し、地図の広域・詳細表示を行い、目的地までの進行方向および残距離を誘導する車載用ナビゲーション装置(以下、ナビゲーション装置と言う)が知られている。また、ナビゲーション装置の一機能として、運転中のドライバからの操作指示を音声で行い、ドライバの安全性を高めるいわゆる音声認識ナビゲーション装置も知られている(例えば特開平09−292255号公報)。
【0003】音声認識ナビゲーション装置で使用する音声認識ソフトは、一般的に、発話開始から発話が無くなった時点で、発話終了と判断し、発話開始から発話が無くなった時点までの音データと認識辞書内の全認識語との相関値を算出する。その結果、相関値が最大になった認識語を認識結果と判断する。音声認識ナビゲーション装置で認識させる言葉には、ナビゲーションの各種の操作を指示するナビコマンド(立体表示、拡大、縮小等)、駅名、ゴルフ場名、病院名、スキー場名などいろいろ考えられる。
【0004】
【発明が解決しようとする課題】これらの言葉のうちゴルフ場名、病院名、スキー場名など長い言葉のものは、ナビコマンド、駅名などの短い言葉のものに比べて非常に認識しにくいという問題があった。
【0005】本発明の目的は、長い言葉も容易に確実に認識することが可能な音声認識装置、そのためのデータを記録した記録媒体、および、音声認識ナビゲーション装置を提供することにある。
【0006】
【課題を解決するための手段】実施の形態を示す図1を使用して、括弧内にその対応する要素の符号をつけて本発明を以下に説明する。上記目的を達成するために、請求項1の発明は、音声入力手段(201)と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段(210)と、音声入力手段(201)により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段(210)は、音声認識対象の言葉の全体の読みに対応する第1の認識語と、音声認識対象の言葉の全体の読みのうち先頭から所定の長さの読みにのみ対応する第2の認識語とを、双方とも音声認識対象の言葉の認識語として格納するようにしたものである。請求項2の発明は、請求項1記載の音声認識装置において、格納手段(210)を、音声認識対象の言葉の全体の読みが第1の所定の長さ以上であるときに、音声認識対象の言葉の全体の読みのうち先頭から第2の所定の長さの読みにのみ対応する第2の認識語を、音声認識対象の言葉の認識語として格納するようにしたものである。請求項3の音声認識ナビゲーション装置は、請求項1または2記載の音声認識装置と(200)、地図情報を格納する地図情報格納手段(108)と、少なくとも音声認識装置(200)の認識結果と地図情報とに基づき、道案内のための制御を行う制御手段(105)とを備えるものである。請求項4のコンピュータ読みとり可能な記録媒体は、音声認識処理において音声入力手段(201)により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉に対応した認識語に関するデータであって、音声認識対象の言葉の全体の読みに対応する第1の認識語と、音声認識対象の言葉の全体の読みのうち先頭から所定の長さの読みにのみ対応する第2の認識語とを、双方とも音声認識対象の言葉の認識語とするデータを記録したものである。
【0007】なお、上記課題を解決するための手段の項では、分かりやすく説明するため実施の形態の図と対応づけたが、これにより本発明が実施の形態に限定されるものではない。
【0008】
【発明の実施の形態】−第1の実施の形態−図1は、本発明の車載用ナビゲーションシステムの第1の実施の形態の構成を示す図である。車載用ナビゲーションシステムは、ナビゲーション装置100および音声ユニット200により構成される。第1の実施の形態のナビゲーションシステムは、施設名称が長い場合にも確実に音声認識に成功させるようにしたものである。
【0009】ナビゲーション装置100は、GPS受信機101と、ジャイロセンサ102と、車速センサ103と、ドライバ104と、CPU105と、RAM106と、ROM107と、CD−ROMドライブ108と、表示装置109と、バスライン110等から構成される。
【0010】音声ユニット200は、マイク201と、A/D変換部202と、D/A変換部203と、アンプ204と、スピーカ205と、発話スイッチ206と、ドライバ207と、CPU208と、RAM209と、ROM210と、バスライン212等から構成される。ナビゲーション装置100と音声ユニット200は、通信ライン211を介して接続される。
【0011】GPS受信機101は、GPS(Global Positioning System)衛星からの信号を受信し、自車の絶対位置、絶対方位を検出する。ジャイロセンサ102は、例えば振動ジャイロで構成され、車のヨー角速度を検出する。車速センサ103は、車が所定距離走行毎に出すパルス数に基づき、車の移動距離を検出する。ジャイロセンサ102と車速センサ103により、車の2次元的な移動が検出できる。ドライバ104は、GPS受信機101、ジャイロセンサ102、車速センサ103からの信号をバスライン110に接続するためのドライバである。すなわち、それぞれのセンサ出力をCPU105が読むことができるデータに変換する。
【0012】CPU105は、ROM107に格納されたプログラムを実行することによりナビゲーション装置100全体を制御する。RAM106は揮発性メモリであり、ワークデータ領域を確保する。ROM107は、不揮発性メモリで、上述した制御プログラム等を格納する。CD−ROMドライブ108は、CD−ROMを記録媒体とし、ベクトル道路データ等の道路地図情報を格納する。CD−ROMドライブは、DVDを記録媒体とするDVDドライブやその他の記録装置であってもよい。表示装置109は、車の現在地および周辺の道路地図、目的地までのルート情報、次の誘導交差点情報等を表示する。例えば、液晶表示装置あるいはCRTで構成される。バスライン110は、ナビゲーション装置100のCPU105等の構成要素をバス接続するラインである。
【0013】音声ユニット200は、音声認識、音声合成等、音声に関する処理を行う。発話スイッチ206は、ユーザが押すことにより音声認識の開始を指示するスイッチである。発話スイッチ206が押された後所定時間、音データの入力がマイク201を介して行われる。入力された音は、A/D変換部202およびドライバ207により、デジタル音声データに変換される。
【0014】音声ユニット200のROM210には、音声認識ソフト(プログラム)、音声合成ソフト(プログラム)、音声認識辞書(以下、単に認識辞書と言う)、音声合成辞書(以下、単に合成辞書と言う)等が格納されている。音声認識ソフトは、デジタル音声データと、認識辞書内の全認識語との相関値を算出し、最も相関値の高い認識語を認識結果として求める。音声合成ソフトは、指定した文章をスピーカから発声させるためのデータを算出する。両ソフトウェアについては、公知な内容であるので詳細な説明は省略する。
【0015】認識辞書は、音声認識の対象となる言葉(語)を複数集めたひとかたまりのデータである。具体的には、ひらがなやカタカナやローマ字(実際にはその文字コード)で指定されたそれぞれの言葉の読みデータが格納されている。認識辞書に格納された言葉を認識語という。各認識語には、読みデータの他その言葉の文字データや、施設名であれば座標情報などの情報が付帯している。認識辞書の詳細については後述する。合成辞書は、音声合成のために必要な音源データ等が格納されている。
【0016】発話終了時、CPU208は、RAM209、ROM210等を使い音声認識ソフトを実行し、デジタル音声データの音声認識を行う。音声認識ソフトは、認識辞書内の認識語の読みデータ(ひらがなやカタカナやローマ字で指定されたデータ)を参照しながらその言葉の音声認識用データを生成し、デジタル音声データとの相関値を算出する。すべての認識語についてデジタル音声データとの相関値を算出し、相関値が最も高くかつ所定の値以上の認識語を決定して音声認識を完了する。その認識語にリンクしたエコーバック語を音声合成ソフトを使い、発声用のデータに変換する。その後、D/A変換部203、アンプ204、スピーカ205を用い、認識結果をエコーバック出力させる。
【0017】もし、算出したどの相関値も所定の値以下である場合は、音声認識できなかったとしてナビの操作を行わないようにする。具体的には、「プップー」等の認識失敗を意味するビープ音を鳴らすことや、「認識できません」と応答(エコーバック)させる。バスライン212は、音声ユニット200のバスラインである。
【0018】次に、認識辞書について詳細に説明する。図2は、10件のゴルフ場名に関する認識語を格納したゴルフ場認識辞書を示す図である。認識語は、その施設名(図2はゴルフ場名)に関する読みデータである。図2では、分かりやすいように漢字を含む文字で記載しているが、ひらがなあるいはカタカナあるいはローマ字で指定され対応する文字コードが格納される。各認識語には付帯情報がついている。付帯情報は、その施設の地図上の座標情報、次に読み込む認識辞書の番号、施設の諸属性情報、その施設名の表示用文字データ等の各種の情報が格納されている。図2では、代表して座標情報のみを示している。
【0019】図2のゴルフ場認識辞書の例で、長いゴルフ場名(言葉)の場合に認識に失敗する確率が高いことについて分析をする。例えば、ユーザが図2の上から3番目のゴルフ場名「御田原ゴルフ倶楽部松田コース」を発話して、それを音声認識させる場合を考えてみる。すべてのユーザがこの長い言葉を一気に発話するとは限らない。中には、途中で一寸休んでから話すユーザもいる。例えば、ユーザが「御田原ゴルフ倶楽部」でいったん言いよどみ、その後「松田コース」と発話したと仮定する。もし言いよどんだ時間が短い時は、音声認識ソフトは「御田原ゴルフ倶楽部松田コース」という音データを一つの入力として扱う。そのため、正しく認識でき問題はない。
【0020】ところが、音声認識ソフトは、一般に発話開始から発話が無くなった時点で発話終了と判断する。言いよどみの時間が長いときは、言いよどんだ時点で発話が終了したと判断し、言いよどみ以降再開した発話データは捨てられる。すなわち「御田原ゴルフ倶楽部」という音データだけを入力として使うことになる。その結果、特に類似語が多数存在する場合は、誤認識を犯す確率が非常に高くなる。
【0021】以上の分析の結果、第1の実施の形態では、図2のゴルフ場認識辞書について以下に説明するようにする。上述の「御田原ゴルフ倶楽部松田コース」では、ほとんどの場合「御田原ゴルフ倶楽部」と「松田コース」の間で一寸休むと思われる。そこで「御田原ゴルフ倶楽部松田コース」に対して「御田原ゴルフ倶楽部」という短い認識語を追加する。付帯情報は「御田原ゴルフ倶楽部松田コース」と同じ座標情報3とする。このように、正規の認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。
【0022】図3は、図2のゴルフ場認識辞書に言い替え語を追加した場合の一例を示す図である。「厚本国際カントリー倶楽部」については「厚本国際」という言い替え語を、「御田急藤沢ゴルフクラブ」については「御田急藤沢」という言い替え語を、「御田原湯本カントリークラブ」については「御田原湯本」という言い替え語を、「大厚本カントリー倶楽部本コース」については「大厚本カントリー倶楽部」という言い替え語などを追加し同一の認識辞書に格納する。
【0023】例えば「大厚本カントリー倶楽部本コース」と発話したとき、言いよどみの結果「大厚本カントリー倶楽部」としか音が入力できなかったとしても、「大厚本カントリー倶楽部」という短い認識語を準備しているため、認識に成功させることができる。このように、長い言葉に関して、正規の認識語から区切りのよい所までの言い替え語を準備し、認識辞書に追加しておけば、途中でユーザが言いよどんだ時でも、確実に認識に成功させることができる。これは、認識辞書の容量が大きくなり、認識実行時間が長くなるというデメリットが生じるが、長い施設名称でも言いよどみによる誤認識を確実に低減することができるという大きなメリットが生じる。
【0024】なお、言い替え語は、所定の長さ以上の長い言葉だけを選択して準備するようにしもよい。また、言葉の長さにかかわらず経験的に言いよどみが起こりそうな言葉のみを選択して準備するようにしてもよい。さらに、正規の認識語に対して長さの異なる複数個の言い替え語を準備するようにしてもよい。
【0025】短い言い替え語を作成する場合の区切りの決め方は、前もって実験や経験により言いよどみが最も起こりそうなところを考察し決めればよい。また、長い言葉は一般に複数の短い言葉の集まりであるため、例えば、全体の読みのちょうど半分の位置に最も近い短い言葉の区切りの位置をその区切りとすることもできる。あるいは、無条件に先頭から数個目の短い言葉の区切りで決めることも考えられる。さらには、無条件に先頭から数音節のところで区切るようにしてもよい。
【0026】図4は、音声ユニット200において、音声認識を行う制御のフローチャートを示す図である。制御プログラムはROM210に格納され、CPU208がその制御プログラムを実行する。ナビゲーション装置100および音声ユニット200の電源オンにより本ルーチンはスタートする。
【0027】ステップS1では、発話スイッチ206が押されたかどうかを判断し、押されている場合はステップS2へ進む。押されていない場合は、本ルーチンを終了する。ユーザは発話スイッチ206を押した後、一定時間内に例えば図2に示されたゴルフ場名を発話する。ステップS2では、マイク201からの音声信号をデジタル音声データに変換する。ステップS3では、発話が終了したかどうかを判断する。発話の終了は、一定時間音声信号が途切れた場合を発話の終了と判断する。発話が終了したと判断した場合はステップS4に進み、発話がまだ終了していないと判断した場合はステップS2に戻る。
【0028】ステップS4では、ステップS2で取得したデジタル音声データと図3の認識辞書内の全認識語について相関値を算出し、ステップS5に進む。認識辞書は、図2の認識辞書に言い替え語が追加された図3の認識辞書を使用する。ステップS5では、算出された相関値のうち最も高い相関値が所定の値以上かどうかを判断する。所定の値以上であれば、その語が認識できたとしてステップS6に進む。ステップS6では、相関値の最も高かった認識語を音声によりエコーバックする。
【0029】さらに、ステップS6では該当ゴルフ場名(施設名称)が認識できたことをナビゲーション装置100に知らせた後、処理を終了する。ナビゲーション装置100に知らせるときは、付帯情報の文字情報および地図上の座標を知らせる。ナビゲーション装置100は、通信ライン211を介して送信されてきた該当ゴルフ場(施設)の地図上の座標データとCD−ROMドライブ108の地図情報等に基づき、該当施設近辺の道路地図を表示装置109に表示する。
【0030】一方、ステップS5において、最も高い相関値が所定の値未満であれば発話された言葉が認識できなかったとしてステップS7に進む。ステップS7では、「認識できません」と音声によりエコーバックし、処理を終了する。ナビゲーション装置100においても何も処理をしない。
【0031】以上のようにして、音声認識を行うとき言い替え語が追加された認識辞書を使用するようにしている。これにより、長い施設名などを発話するとき、途中で言いよどんでも、その長い施設名の音声認識に確実に成功することができる。
【0032】−第2の実施の形態−第2の実施の形態の車載用ナビゲーションシステムは、発話スイッチを押した後すぐに発話した場合でも確実に音声認識に成功させるようにしたものである。第2の実施の形態の車載用ナビゲーションシステムの構成は、図1の第1の実施の形態の車載用ナビゲーションシステムと同一であるので、その説明を省略する。
【0033】第1の実施の形態とは認識辞書について異なるため、以下、その認識辞書について説明する。図5は、5件の駅名に関する認識語を格納した駅名認識辞書を示す図である。各認識語には付帯情報がついている。認識語は、その施設名(駅名)に関する読みデータである。認識語はひらがなあるいはカタカナあるいはローマ字で指定されその文字コードが格納される。図5では、ひらがなの場合を示している。仮名1字で示される音を1音節という。付帯情報は、ナビゲーション装置に表示させる表示データに関する情報(図5の場合は駅名の表示用文字データ)、施設の地図上の座標に関する情報、ナビ操作コマンドに関する情報、エコーバックデータに関する情報などがある。図5では、代表して表示用文字データと座標情報を示している。
【0034】図5の駅名認識辞書の例で、発話スイッチ206を押した後すぐに発話をする場合に認識に失敗する確率が高いことについて分析をする。
【0035】音声認識ソフトは、一般的に、発話スイッチ206を押し、その後、ユーザが発話した音データと認識辞書内の全認識語との相関値を算出する。その結果、相関値が最大になった認識語を認識結果と判断する。音声認識ソフトは、発話スイッチ206が押された後マイク201を介した音声を受け付けるまで若干準備時間を要する。従って、ユーザが発話スイッチ206を押した後即座に発話したとき、最悪、発話した言葉の頭が若干抜ける場合がある。例えば「そうぶだいまえ」という駅名を発話スイッチ206を押した後即座に発話した場合、先頭語の「そ」の子音が抜け「おうぶだいまえ」と聞こえるように入力される場合がある。その結果、特に類似語が多数存在するときは、誤認識の確率が極めて高くなる。
【0036】以上の分析の結果、第2の実施の形態では、図5の駅名認識辞書について以下に説明するようにする。例えば、「そうぶだいまえ」という駅名の認識語を考えたとき、先頭の「そ」を取りこぼした場合を想定する。この場合、上述のように「おうぶだいまえ」と聞こえる場合がある。そこで、先頭の「そ」の代わりにその母音である「お」で言い替えた「おうぶだいまえ」という認識語を認識辞書に追加する。付帯情報は、正規の「そうぶだいまえ」と同じ付帯情報をつける。これにより、発話スイッチ206を押した後即座に「そうぶだいまえ」と発話し、最悪先頭の子音が取りこぼされても確実に音声認識に成功する。なお、正規の認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。
【0037】また、「おだきゅうさがみはら」という駅名の認識語を考え、先頭の「お」を取りこぼした場合を想定する。この場合「だきゅうさがみはら」と聞こえる場合がある。そこで、先頭の「お」を削除した「だきゅうさがみはら」という認識語の言い替え語を認識辞書に追加する。付帯情報は、正規の「おだきゅうさがみはら」と同じ付帯情報をつける。これにより、発話スイッチ206を押した後即座に「おだきゅうさがみはら」と発話し、最悪先頭の「お」が取りこぼされても確実に音声認識に成功する。
【0038】図6は、図5の駅名辞書に言い替え語を追加した場合の一例を示す図である。言い替え語を作成する場合の規則として、例えば、先頭の語をその母音で言い替えること、特にその先頭が子音である場合にその母音に言い替えること、先頭から所定数の語を削除した言葉で言い替えること、先頭の語1語のみを削除した言葉で言い替えること、先頭の語が母音である場合にのみその母音を削除した言葉で言い替えることなどが考えられる。また、発話スイッチ206を押した後即座に発話したときに、実験によりあるいは経験的に聞こえる言い替え語を追加するようにしてもよい。正規の認識語に対して複数個の言い替え語を準備するようにしてもよい。なお、ここで「先頭の語」という場合の「語」は、五十音の1語(1音節)をいうものとする。
【0039】第2の実施の形態の音声認識を行う制御のフローチャートは、使用する認識辞書を除き第1の実施の形態の図4と同じであるので、その説明を省略する。認識辞書は言い替え語が追加された図6の認識辞書を使用する。
【0040】以上のようにして、正規の認識語の先頭の語あるいは先頭からいくつかの語を削除したり母音に言い替えたりした言い替え語を認識辞書に追加する。これにより、ユーザが発話スイッチ206をオンした後すぐに発話しても、その言葉の音声認識に確実に成功することが可能となる。
【0041】−第3の実施の形態−第3の実施の形態の車載用ナビゲーションシステムは、例えば「通り」を「とうり」と発話しても「とおり」と発話しても「とーり」と発話しても、確実に音声認識に成功させるようにしたものである。第3の実施の形態の車載用ナビゲーションシステムの構成は、図1の第1の実施の形態の車載用ナビゲーションシステムと同一であるので、その説明を省略する。
【0042】第1の実施の形態とは認識辞書について異なるため、以下、その認識辞書について説明する。図7は、4件の駅名に関する認識語を格納した駅名認識辞書を示す図である。各認識語には付帯情報がついている。認識語は、その施設名(駅名)に関する読みデータである。認識語はひらがなあるいはカタカナあるいはローマ字で指定されその文字コードが格納される。図7では、カタカナの場合を示している。仮名1字で示される音を1音節という。付帯情報は、ナビゲーション装置に表示させる表示データに関する情報(図7の場合は駅名の表示用文字データ)、施設の地図上の座標に関する情報、ナビ操作コマンドに関する情報、エコーバックデータに関する情報などがある。図7では、代表して表示用文字データと情報番号を示している。
【0043】図7の駅名認識辞書の例で、例えば「明大前」を発話をする場合に認識に失敗する確率が高いことについて分析をする。「明大前」の漢字の読みは「メイダイマエ」であるので、「メイダイマエ」の認識語が準備されている。しかし、「明大前」を「メエダイマエ」あるいは「メーダイマエ」と発話する人も多い。そのような場合、「メイダイマエ」の認識語との相関値が低くなり、特に類似語が多数存在するときは、誤認識の確率が高くなる。
【0044】以上の分析の結果、第3の実施の形態では、図7の駅名認識辞書について以下に説明するようにする。例えば、上記の「明大前」という駅名の認識語を考えたとき、「メイダイマエ」と「メエダイマエ」の2つの認識語を準備する。「調布」という駅名の認識語については、「チョウフ」と「チョオフ」の2つの認識語を準備する。なお、正規の読みの認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。言い替え語の付帯情報は、それぞれ正規の認識語と同じものが指定される。
【0045】上記より、次のような法則が見いだされる。「エ」「ケ」「セ」「テ」「ネ」等の五十音のえ段の語(音節)の後に「イ」が並ぶ読みの言葉の場合、その「イ」を「エ」に置き換えたように発話する人が多い。また、「オ」「コ」「ソ」「ト」「ノ」等のお段の語(音節)の後に「ウ」が並ぶ読みの言葉の場合、その「ウ」を「オ」に置き換えたように発話する人が多い。
【0046】従って、この法則に従った認識語を追加するようにする。図8の駅名辞書は、図7の駅名辞書に対して上記の法則により認識語を追加したものである。これにより、「明大前」を、文字通りの読み「メイダイマエ」とは異なり、会話で一般に発話される「メエダイマエ」と発話しても、確実に「明大前」の駅名が認識できる。
【0047】なお、「エ」あるいは「オ」に置き換える代わりに、長音符号「ー」に置き換えるようにしてもよい。あるいは、「エ」または「オ」に置き換えた認識語と、長音符号「ー」に置き換えた認識語の両方を追加するようにしてもよい。
【0048】上記は、読みの指定をひらがなやカタカナで行う音声認識システムの場合である。しかし、ローマ字で指定する場合も、同様に考えればよい。例えば、「明大前」は、ローマ字では正規の認識語として「meidaimae」と指定する。「e」に続く「i」を「e」に置き換えて「meedaimae」という認識語を追加する。「調布」については、正規の認識語として「chouhu」を指定する。「o」に続く「u」を「o」に置き換えて「choohu」とする。
【0049】次に、「東名高速道路」という言葉について考える。この読みは「トウメイコウソクドウロ」であるため、上記の法則を適用すると、置き換えの対象となる部分は4箇所ある。この4箇所の組み合わせを考えると、新たに15個の認識語を追加する必要が生じる。このため、認識辞書の大きさが膨大になり膨大な容量のROM210が必要になる。この対策として、一つは、認識辞書をROM210に格納する代わりに、CD−ROMやDVD−ROMのような大容量の記録媒体を使用するようにすればよい。
【0050】他の一つの対策として次のような内容が考えられる。ROM210には正規の読みの認識語のみを格納した認識辞書を準備する。そして、音声認識ソフトが音声認識処理にあたり認識辞書を使用するときに、所定のプログラムを実行させることにより、正規の読みの認識語に基づく上記法則による言い替え語をRAM209上に生成するようにすればよい。このRAM209は作業メモリエリアであるので、他の認識辞書を使用するときは、前に作成した言い替え語がクリアされ、新たに他の認識辞書に基づく言い替え語がRAM209上に生成される。これにより、膨大な容量のROMの必要はなくなる。また、ROM210には漢字の読みそのままのデータのみを作成すればよいので、認識語の作成が容易である。漢字を仮名変換するようなプログラムを使用すれば、自動化あるいは半自動化で容易に正規の読みのみの認識辞書を作成することができる。
【0051】第3の実施の形態の音声認識を行う制御のフローチャートは、使用する認識辞書を除き第1の実施の形態の図4と同じであるので、その説明を省略する。認識辞書は言い替え語が追加された図8の認識辞書を使用する。
【0052】以上のようにして、正規の読みの認識語において母音が「エイ」と続く場合は「エエ」あるいは「エー」と置き換え、母音が「オウ」と続く場合は「オオ」あるいは「オー」と置き換える認識語を新たに追加する。これにより、実際の発話に近い認識語が準備されるため、音声認識に成功する確率が高くなる。
【0053】上記第3の実施の形態では、置き換え語の組み合わせが多く言い替え語が多数必要な場合に、音声認識処理を行うときに、所定のプログラムを実行することにより正規の読みの認識語に基づき言い替え語の認識語を生成する例を示した(「東名高速道路」の場合)。この内容は、言い替え語が多くない場合にも適用できる(例えば上述の「明大前」の場合)。さらに、第1の実施の形態(例えば上述の「御田原ゴルフ倶楽部松田コース」の場合)および第2の実施の形態(例えば上述の「そうぶだいまえ」の場合)において言い替え語を生成する場合にも適用できる。
【0054】上記第1〜3の実施の形態では、車載用ナビゲーションシステムについて説明をしたがこの内容に限定する必要はない。車載用に限らず携帯用のナビゲーション装置にも適用できる。さらには、ナビゲーション装置に限らず音声認識を行うすべての装置に適用できる。
【0055】上記第1〜3の実施の形態では、ナビゲーション装置100と音声ユニット200を分離した構成で説明をしたが、この内容に限定する必要はない。音声ユニットを内部に含んだ一つのナビゲーション装置として構成してもよい。また、上記制御プログラムや認識辞書などをCD−ROMなどの記録媒体で提供することも可能である。さらには、制御プログラムや認識辞書などをCD−ROMなどの記録媒体で提供し、パーソナルコンピュータやワークステーションなどのコンピュータ上で上記システムを実現することも可能である。
【0056】上記第1〜3の実施の形態では、音声ユニット200で施設名の検索に成功した場合、その内容をナビゲーション装置100に知らせ、ナビゲーション装置100では道案内等のナビゲーション処理の一つとしてその施設近辺の地図を表示する例で説明をしたが、この内容に限定する必要はない。ナビゲーション装置100では、音声ユニット200で検索に成功した結果に基づき、経路探索や経路誘導その他の各種のナビゲーション処理が考えられる。
【0057】
【発明の効果】本発明は、以上説明したように構成しているので、次のような効果を奏する。請求項1および5の発明は、音声認識対象の言葉の全体の読みのうち先頭から所定の長さの読みにのみ対応する短縮した認識語も備えるようにしているので、例えば、長い施設名を発話するとき、途中で言いよどんでも、その長い施設名の音声認識に確実に成功することができる。請求項2の発明は、音声認識対象の言葉の全体の読みが所定の長さ以上であるときにのみ、短縮した認識語を備えるので、認識辞書のメモリ容量の増加は必要最低限で済む。請求項3の発明は、上記の効果を、特に音声認識ナビゲーション装置において道案内等のナビゲーションを行うときに有効に発揮させることができる。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013