米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> カシオ計算機株式会社

発明の名称 音声再生装置および音声再生処理プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−41302(P2007−41302A)
公開日 平成19年2月15日(2007.2.15)
出願番号 特願2005−225527(P2005−225527)
出願日 平成17年8月3日(2005.8.3)
代理人 【識別番号】100058479
【弁理士】
【氏名又は名称】鈴江 武彦
発明者 中村 利久
要約 課題
例えば外国語のリピート学習に際して使用される音声再生装置において、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習可能にする。

解決手段
例えばインターネットN上のWebサイトからユーザ指定に応じてダウンロードされたMP3ファイルをデコードして出力再生する際に、このデコードされた再生音声データ(PCM音声データDPCM)を音声認識してテキスト化し、ピリオド「.」などがある一文の区切り位置を検出して再生一時停止させる。そして、この再生一時停止された再生音声の一文に対応してユーザがリピートし発声すると、マイク18から入力されたユーザ音声データ(Us)も音声認識してテキスト化し、ピリオド「.」などが認識された一文の区切り位置を検出して直ちに前記再生音声データの次の一文の再生を再開させる。
特許請求の範囲
【請求項1】
音声データを記憶する音声データ記憶手段と、
この音声データ記憶手段により記憶された音声データを再生する音声再生手段と、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段と、
前記音声データ記憶手段により記憶された音声データを、前記音声再生手段により再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記音声データ記憶手段により記憶された音声データの再生を再開させる再生再開制御手段と、
を備えたことを特徴とする音声再生装置。
【請求項2】
複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段と、
この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段と、
このデータダウンロード手段によりダウンロードされて取得される音声データを再生する音声再生手段と、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段と、
前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段と、
を備えたことを特徴とする音声再生装置。
【請求項3】
さらに、
前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶する再生音声文字列記憶手段と、
前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶手段により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列/入力音声文字列比較手段と、
この再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段と、
を備えたことを特徴とする請求項1または請求項2に記載の音声再生装置。
【請求項4】
さらに、
再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知する音声不一致報知手段を備えたことを特徴とする請求項3に記載の音声再生装置。
【請求項5】
音声再生機器のコンピュータを制御するための音声再生処理プログラムであって、
前記コンピュータを、
音声データをメモリに記憶させる音声データ記憶制御手段、
この音声データ記憶制御手段の制御によりメモリに記憶された音声データを再生させる音声再生制御手段、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段、
前記音声データ記憶制御手段によりメモリに記憶された音声データを、前記音声再生制御手段により再生させる際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生制御手段の制御により前記音声データ記憶制御手段によりメモリに記憶された音声データの再生を再開させる再生再開制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声再生処理プログラム。
【請求項6】
音声再生機器のコンピュータを制御するための音声再生処理プログラムであって、
前記コンピュータを、
ユーザ操作に応じて複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段、
この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段、
このデータダウンロード手段によりダウンロードされて取得される音声データを再生させる音声再生制御手段、
指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段、
前記音声再生制御手段の制御により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段、
この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段、
この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段、
このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段、
この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生制御手段の制御により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声再生処理プログラム。
【請求項7】
前記コンピュータをさらに、
前記音声再生制御手段の制御により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列をメモリに記憶させる再生音声文字列記憶制御手段、
前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶制御手段の制御により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列/入力音声文字列比較手段、
この再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生制御手段の制御により前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段、
として機能させるようにした請求項5または請求項6に記載の音声再生処理プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、例えば外国語の読みの学習に際して予め用意された外国語テキストの読み上げ音声を再生するための音声再生装置および音声再生処理プログラムに関する。
【背景技術】
【0002】
例えば外国語学習を行う場合に、予め用意された外国語テキストの読み上げ音声をピリオドやカンマなどで区切られる一文ずつ再生し、この一文再生毎に学習者であるユーザが同一文をリピートして発音する練習が行われている。
【0003】
従来、このような語学学習を行うための音声再生装置としては、予め教材として用意されたカセットテープやCDを再生するために通常の音響機器が使用されたり、あるいは当該教材であるカセットテープやCDに記録されたテキスト読み上げ音声の一文区切り位置にある特定の信号を検出して再生を一時停止する機能を備えた専用再生機器が使用されたりしている。
【0004】
前者、通常の音響機器を使用する場合は、CDなどの教材に記録されたテキスト読み上げ音声それ自体の一文区切り位置に学習ユーザがリピート発声するために必要な無音期間が設けられているが、この場合、当該ユーザリピートのための無音期間は予め定まった長さとなるので、ユーザの学習レベルによってはその無音期間が短過ぎたり長過ぎたりしてしまう。
【0005】
一方後者、専用再生機器を使用する場合、テキスト読み上げ音声の一文区切り位置毎に再生動作が自動停止されるので、ユーザによるリピート発声のための必要時間に制約を受けないが、次の文節の再生再開に際し一時停止を解除させるキー(ボタン)操作を行わなければならない。
【0006】
そして、前者後者何れの場合でも、このようなリピート練習のための専用の教材が必要になり、例えばラジオやインターネットから語学学習とは関係のない任意の音声データを取り込んでリピート練習することは、ユーザ自身で一時停止と再開操作を繰り返さないと実施することができない。
【0007】
そこで、音声を再生する際に、その音声信号の無音部分を検出して再生を停止し設定時間の経過後に再生再開することで、テキスト読み上げ音声の区切り位置での再生停止、再開によってリピート練習に利用可能な音声出力装置が考えられている(例えば、特許文献1参照。)。
【特許文献1】特開平06−274099号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
このような従来の音声出力装置では、音声信号の無音部分を検出しその部分を該音声の区切り位置として再生停止することができるが、単に音声の無音部分を検出して停止したのでは、対象音声の状況によって一文の区切り位置として相応しくない部分でも停止してしまう場合があり、如何なるメディアから取り込んだ如何なる音声データであっても、ピリオドあるいは句点などといった常に正しい一文区切り位置を検出して停止させることはできない。
【0009】
本発明は、このような課題に鑑みなされたもので、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習することが可能になる音声再生装置および音声再生処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
請求項1に記載の音声再生装置は、音声データを記憶する音声データ記憶手段と、この音声データ記憶手段により記憶された音声データを再生する音声再生手段と、指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を出力する認識文字列出力手段と、前記音声データ記憶手段により記憶された音声データを、前記音声再生手段により再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記音声データ記憶手段により記憶された音声データの再生を再開させる再生再開制御手段とを備えたことを特徴としている。
【0011】
請求項2に記載の音声再生装置は、複数種類の音声データの中から再生すべき音声データを指定する再生音声指定手段と、この再生音声指定手段により指定された音声データを順次ダウンロードして取得するデータダウンロード手段と、このデータダウンロード手段によりダウンロードされて取得される音声データを再生する音声再生手段と、指定対象となる音声を認識することにより、その音声に対応する単語及び区切り記号を含む一連の文字列を認識して出力する認識文字列出力手段と、前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、当該再生される音声を認識対象に指定することにより、前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する再生音声認識制御手段と、この再生音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させる再生停止制御手段と、この再生停止制御手段の制御により前記音声データの再生が一時停止された後に、ユーザ音声を入力するユーザ音声入力手段と、このユーザ音声入力手段により入力された音声を認識対象に指定することにより前記認識文字列出力手段により、その音声に対応する一連の文字列を出力させるように制御する入力音声認識制御手段と、この入力音声認識制御手段の制御により、前記認識文字列出力手段により一連の文字列が出力されていく際に、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させる再生再開制御手段とを備えたことを特徴としている。
【0012】
請求項3に記載の音声再生装置は、前記請求項1または請求項2に記載の音声再生装置において、さらに、前記音声再生手段により順次ダウンロードされて取得された音声データを再生する際に、前記再生音声認識制御手段の制御により、前記認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶する再生音声文字列記憶手段と、前記再生停止制御手段の制御により前記音声データの再生が一時停止された後に、前記入力音声認識制御手段の制御により、前記認識文字列出力手段により出力された入力音声に対応する一連の文字列と、前記再生音声文字列記憶手段により記憶された再生音声に対応する一連の文字列とを比較する再生音声文字列/入力音声文字列比較手段と、この再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させる繰り返し再生制御手段とを備えたことを特徴としている。
【0013】
請求項4に記載の音声再生装置は、前記請求項3に記載の音声再生装置において、さらに、再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知する音声不一致報知手段を備えたことを特徴としている。
【発明の効果】
【0014】
本発明の請求項1(請求項5)に記載の音声再生装置(音声再生処理プログラム)によれば、音声再生手段によって音声データ記憶手段により記憶された音声データを再生する際には、その再生される音声を認識対象に指定することにより、認識文字列出力手段により、その再生音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させるように制御する。そして、この再生停止の制御によって前記音声データの再生が一時停止された後に、ユーザ音声入力手段により入力された音声を認識対象に指定することにより、認識文字列出力手段により、その入力音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段によって前記音声データ記憶手段により記憶された音声データの再生を再開させるように制御するので、音声データ記憶手段により記憶された音声データがどのような種類の音声データであっても、正しい一文の区切り位置で再生一時停止させ、ユーザ発声によるリピート練習を行うことができ、しかもこのユーザリピート音声の正しい一文の区切り位置で音声データの再生を再開させることができる。
【0015】
本発明の請求項2(請求項6)に記載の音声再生装置(音声再生処理プログラム)によれば、音声再生手段により順次ダウンロードされて取得された音声データを再生する際には、その再生音声を認識対象に指定することにより、認識文字列出力手段により、その再生音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、音声データの再生を一時停止させるように制御する。そして、この再生停止の制御によって前記音声データの再生が一時停止された後に、ユーザ音声入力手段により入力された音声を認識対象に指定することにより、認識文字列出力手段により、その入力音声に対応する一連の文字列を出力させ、当該出力文字列中に区切り記号が検知された時点で、前記音声再生手段により前記ダウンロードされて取得される音声データの再生を再開させるように制御するので、例えばインターネット上のWebサイトや各種のCD−ROMから選択的に指定してダウンロードされた音声データがどのような種類・編集の音声データであっても、正しい一文の区切り位置で再生一時停止させ、ユーザ発声によるリピート練習を行うことができ、しかもこのユーザリピート音声の正しい一文の区切り位置でそのダウンロードされた音声データの再生を再開させることができる。
【0016】
本発明の請求項3(請求項7)に記載の音声再生装置(音声再生処理プログラム)によれば、前記請求項1または請求項2に記載の音声再生装置において、さらに、音声再生手段により順次ダウンロードされて取得された音声データを再生する際には、認識文字列出力手段により出力された再生音声に対応する一連の文字列を記憶し、また再生停止制御手段の制御により音声データの再生が一時停止された後に、認識文字列出力手段により出力された入力音声に対応する一連の文字列と前記音声再生に伴い記憶された再生音声に対応する一連の文字列とを比較する。そして、この再生音声の文字列と入力音声の文字列とが不一致である場合には、前記音声再生手段により前記再生停止制御手段の制御によって前記音声データの再生が一時停止されたところまでの当該音声データを繰り返し再生させるように制御するので、様々なメディア,種類の音声データを手本としたリピート練習を容易に行うことができるばかりでなく、リピートミスがあった場合には繰り返し元の音声データを再生してより効果的なリピート練習を行うことができる。
【0017】
本発明の請求項4に記載の音声再生装置によれば、前記請求項3に記載の音声再生装置において、さらに、再生音声文字列/入力音声文字列比較手段により比較された再生音声の文字列と入力音声の文字列とが不一致である場合には、再生音声と入力音声との不一致を報知するようにしたので、ユーザによるリピートミスを容易に知ることができ、繰り返し元の音声データを再生することによるリピート練習を円滑に行うことができる。
【0018】
よって本発明によれば、如何なるメディアから取り込んだ如何なる音声データであっても、常に正しい一文区切り位置を検出して再生を停止しまた再開し、容易にリピート練習することが可能になる音声再生装置および音声再生処理プログラムを提供できる。
【発明を実施するための最良の形態】
【0019】
以下図面により本発明の実施の形態について説明する。
【0020】
(第1実施形態)
図1は、本発明の実施形態に係る音声再生装置10の電子回路の構成を示すブロック図である。
【0021】
図2は、前記音声再生装置10の電子回路における主要部の機能を示すブロック図である。
【0022】
この音声再生装置10は、以下に説明する音声再生機能を備えたPDA(personal digital assistant)や携帯電話、電子辞書として構成されるか、音声再生専用の携帯機器として構成される。この音声再生装置10は、各種の記録媒体に記録されたプログラム、又は、伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)11が備えられる。
【0023】
CPU11は、ROM(フラッシュメモリ)12内に予め記憶された装置制御プログラム、あるいはメモリカードなどの外部記録媒体14からカードスロット15を介して前記ROM12に読み込まれた装置制御プログラム、あるいはCD−ROMなどの外部記憶媒体14からユーザPC(Personal Computer)40および通信部16を介してROM12に読み込まれた装置制御プログラム、あるいはインターネットN上のWebサーバ(この場合はプログラムサーバ)30から通信部16を介して前記ROM12に読み込まれた装置制御プログラム、あるいは同インターネットN上のWebサーバ(プログラムサーバ)30からユーザPC40および通信部16を介して前記ROM12に読み込まれた装置制御プログラムに応じて、RAM13を作業用メモリとし回路各部の動作を制御するもので、前記ROM12に記憶された装置制御プログラムは、キーやタッチパネルからなるキー入力部17からのユーザ操作に応じた入力信号、あるいは通信部16を介して接続されるインターネットN上の各Webサーバ30…やユーザPC40との通信信号に応じて起動される。
【0024】
前記CPU11には、前記ROM12、RAM13、カードスロット15、通信部16、キー入力部17が接続される他に、マイク18から入力されるユーザ音声Usの信号をデジタル音声データに変換して入力するA/D変換部19、ROM12に予めあるいは外部から取り込まれて記憶された音声圧縮(MP3)データMをデコードするためのMP3デコーダ20が接続され、このMP3デコーダ20を介してデコードされた再生音声データとしてのPCM音声データDPCMを記憶するPCMバッファ21、このPCMバッファ21に記憶されたPCM音声データDPCMをアナログ音声信号に変換するD/A変換部22、このD/A変換部22によりD/A変換されたアナログ音声信号を再生音声SPとして音声出力するアンプ23およびスピーカ24が順次接続される。さらに、CPU11には、LCD(Liquid Crystal Display)からなる表示部25などが接続される。
【0025】
なお、前記MP3デコーダ20を介してデコードされた再生音声データとしてのPCM音声データDPCMは、前記PCMバッファ21に出力される一方でCPU11にも出力され、音声認識処理されてテキストデータ化される。また、前記マイク18からA/D変換部19を介して入力されたユーザ音声Usのデジタル音声データも、前記CPU11において音声認識処理されてテキストデータ化される。そして、この音声認識処理では、認識された単語や熟語の文字列に応じてその文節も認識され、例えば英語の音声認識テキストであればカンマ「,」やピリオド「.」、日本語の音声認識テキストであれば句点「。」や読点「、」等の区切り記号もテキスト化処理される。
【0026】
RAM13には、音声認識テキストメモリ13aが用意され、この音声認識テキストメモリ13aには、前記CPU11において音声認識処理された再生音声データ(PCM音声データDPCM)に対応するテキストデータおよびユーザ音声Usに対応するテキストデータが記憶される。
【0027】
そして、前記MP3デコーダ20による音声圧縮(MP3)データMのデコード処理と、デコードされたPCM音声データDPCMのPCMバッファ21による記憶再生処理とは、CPU11での音声認識処理により得られた再生音声データ(PCM音声データDPCM)やユーザ音声データ(Us)にそれぞれ対応するテキストデータの内容に従ってスタート・ストップ・ポーズ制御(P1)される。
【0028】
なお同様に、前記MP3デコーダ20による音声圧縮(MP3)データMのデコード処理と、デコードされたPCM音声データDPCMのPCMバッファ21による記憶再生処理とは、キー入力部17からのマニュアルでのユーザ操作によってもスタート・ストップ・ポーズ制御(P2)される。
【0029】
ROM12には、当該音声再生装置10の全体の動作を司るシステムプログラムや通信部16を介してインターネットN上の各Webサーバ30…あるいはユーザPC40とデータ通信するための通信プログラムが記憶される他に、音声圧縮(MP3)データMをデコードしたPCM音声データDPCMとマイク入力されたユーザ音声データとを、そのそれぞれの音声認識テキスト化データの内容に従って切り替えて再生するための音声再生処理プログラムなどが記憶される。
【0030】
また、ROM12には、インターネットN上のWebサイト(30)やユーザPC40に装着されたCD−ROMからダウンロードされたり、あるいはメモリカード14から読み込まれたり、あるいは当該ROM12に予め書き込まれたりしてなる録音音声圧縮(MP3)データMが、例えばユーザにとっての聴取用音声データあるいは語学読み上げリピート学習のための手本となる音声データなどとして記憶される。
【0031】
次に、前記構成の音声再生装置10による第1実施形態の音声再生機能について説明する。
【0032】
図3は、前記音声再生装置10による第1実施形態の音声出力処理を示すフローチャートである。
【0033】
例えば英語の読み上げリピート学習を行う際に、お手本となる英語の音声情報を選択するために、ROM12に録音音声圧縮(MP3)データMとして既に記憶されている複数種類のMP3ファイル、または通信部16を介して接続されるインターネットN上のWebサーバ30が提供する複数種類のMP3ファイルの一覧選択画面を表示部25に表示させた状態で、ユーザ任意のMP3ファイルが指定されると(ステップS1)、キー入力部17において音声再生スタートキーの入力操作がなされたか否か判断される(ステップS2)。
【0034】
そして、キー入力部17において音声再生スタートキーの入力操作がなされたと判断されると(ステップS2(Yes))、前記ステップS1においてユーザ操作に応じて選択指定されたMP3ファイル(録音音声圧縮(MP3)データM)が、インターネットN上のWebサーバ30にて提供されているMP3ファイルであるか、またはROM12に既に記憶されているMP3ファイルであるかが判断される(ステップS3)。
【0035】
ここで、ユーザ操作に応じて選択指定されたMP3ファイルがROM12に既に記憶されているMP3ファイルであると判断された場合には(ステップS3(No))、当該指定されたMP3ファイルのROM12からの読み出しが開始される(ステップS4a)。
【0036】
一方、ユーザ操作に応じて選択指定されたMP3ファイルがインターネットN上のWebサーバ30にて提供されているMP3ファイルであると判断された場合には(ステップS3(Yes))、当該指定されたMP3ファイルの対応するWebサーバ30からのダウンロードによるROM12への読み込みが開始される(ステップS4b)。
【0037】
こうしてユーザ指定のMP3ファイルのROM12からの読み出し、またはWebサーバ30からのダウンロードによる読み込みが開始されると、このMP3ファイルのMP3デコーダ20によるデコード処理、および当該デコードされて生成された再生音声データ(PCM音声データDPCM)のPCMバッファ21への書き込み処理、そして当該PCMバッファ21からの再生音声データ(PCM音声データDPCM)の出力再生処理が開始される(ステップS5)。
【0038】
すると、前記ユーザ指定のMP3ファイルのデコードによる再生音声データ(PCM音声データDPCM)の生成処理とその出力再生処理とが順次実行されながら(ステップS6)、当該再生音声データ(PCM音声データDPCM)がデータエンド(終了)に到達したか否か判断されると共に(ステップS7)、同出力再生される再生音声データ(PCM音声データDPCM)が音声認識対象として設定され(ステップS8)、CPU11において音声認識テキスト化処理されてRAM13内の音声認識テキストメモリ13aに書き込まれる(ステップS9)。
【0039】
すると、前記音声認識テキスト化処理されて音声認識テキストメモリ13aに書き込まれた再生音声データについて、センテンス(文節)の区切り位置が例えばピリオド「.」や句点「。」を検索することで検出処理され(ステップS10)、当該再生音声データの一文の区切りが検出されたか否か判断される(ステップS11)。
【0040】
ここで、前記再生音声データの一文の区切り位置が検出されないと判断される状態では(ステップS11(No))、当該再生音声データ(PCM音声データDPCM)の生成処理とその出力再生処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に継続して実行される(ステップS11→S6〜S10)。
【0041】
そして、ステップS11において、前記出力再生中の再生音声データについて、その音声認識されたテキストデータに基づき、一文の区切り位置が検出されたと判断されると、当該出力再生中のMP3ファイルのデコードによる再生音声データ(PCM音声データDPCM)の生成処理とその出力再生処理とが一時停止され(ステップS12)、音声認識対象がユーザ入力音声(Us)の側に切り替え設定される(ステップS13)。
【0042】
この際、前記ユーザ指定のMP3ファイルの出力再生処理では、その再生音声データを音声認識テキスト化して一文の区切り位置を検出するので、例えばピリオド「.」の有る正しい一文の区切り位置で区切られてその出力再生処理が一時停止される。
【0043】
ここで、ユーザが前記出力再生された再生音声データの一文についてリピートして発声するのに伴い、マイク18からA/D変換部19を介して入力されたユーザ音声データがCPU11に取り込まれると(ステップS14)、当該ユーザ音声データは順次音声認識テキスト化処理され、RAM13内の音声認識テキストメモリ13aに書き込まれる(ステップS15)。
【0044】
すると、前記音声認識テキスト化処理されて音声認識テキストメモリ13aに書き込まれたユーザ音声データについて、前記指定のMP3ファイル出力再生時と同様に、センテンス(文節)の区切り位置が例えばピリオド「.」や句点「。」を検索することで検出処理され(ステップS16)、当該ユーザ音声データの一文の区切りが検出されたか否か判断される(ステップS17)。
【0045】
ここで、前記ユーザ音声データの一文の区切り位置が検出されないと判断される状態では(ステップS17(No))、当該ユーザ音声データ(Us)の取り込み処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に継続して実行される(ステップS17→S14〜S16)。
【0046】
そして、ステップS17において、前記ユーザ音声データの音声認識されたテキストデータに基づき、一文の区切り位置が検出されたと判断されると、音声認識対象が前記指定のMP3ファイルの再生音声データ(PCM音声データDPCM)の側に切り替え設定され(ステップS18)、再び当該再生音声データ(PCM音声データDPCM)の次の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化処理、およびその一文区切り位置検出処理が前記同様に再開され実行される(ステップS6〜S10)。
【0047】
この際、前記ユーザ音声データを音声認識テキスト化して一文の区切り位置を検出し、直ちに指定のMP3ファイルの再生音声データの生成および出力再生処理を再開させるので、ユーザによるリピート発声の正しい区切り位置を検出して素早く再生音声データの続きの出力再生処理が再開される。
【0048】
これにより、インターネットN上の各種WebサイトやCD−ROMなどの様々なメディアを対象にしてユーザ任意に指定されたMP3ファイルの再生音声データであっても、例えばピリオド「.」や句点「。」の有る正しい一文の区切り位置で区切って再生を一時停止させた後、これをリピートするユーザ発声音声の一文の区切り位置を正しく検出して素早く前記再生音声データの次の一文の再生を再開させることができ、例えば語学の読み上げ学習に際し手本となる音声ファイルを予め編集作成された教材などから入手する必要なく、あらゆるメディアを対象に入手した所望の音声データを手本にして有効且つ効果的に利用することができる。
【0049】
なお、前記ステップS5,S6におけるユーザ指定のMP3ファイルのデコード処理は、MP3デコーダ20を用いて行うのではなく、CPU11において直接デコード処理する構成としてもよい。
【0050】
図4は、前記音声再生装置10においてユーザ指定された再生音声データの出力再生状態を示す図であり、同図(A)は再生音声データを単純に連続再生した状態を示す図、同図(B)は再生音声データを前記音声出力処理に従い再生一時停止・再生再開して再生した状態を示す図である。
【0051】
すなわち、図4(A)に示すように、ユーザ指定された英語の再生音声データを連続再生した場合には、一文毎の正規の区切り位置であるピリオド「.」の位置に対応する各タイミングt1,t3,t4において音声の無音期間が生じているものの、その読み上げ音声の内容的強調点や個人差に応じて一文「This is my girl friend, Lisa.」の途中である「my」と「girl」との間のタイミングt2においても音声の無音期間が生じている。このため、従来の音声出力装置のように、音声信号の無音部分を検出して再生を一時停止させたのでは、一文の途中である正しい区切り位置ではないタイミングt2においても再生の一時停止がなされてしまい、正しいリピート学習を行うことができない。
【0052】
これに対し、図4(B)に示すように、本実施形態の音声再生装置10における音声出力処理に従い出力再生した場合には、その再生音声データを文字認識テキスト化して例えばピリオド「.」のある正しい一文の区切り位置t1,t3,t4でのみ再生一時停止させ、また再生再開させることができるので、無音部分ではあるが一文の途中である正しい区切り位置ではないタイミングt2において再生一時停止とその再開が実施されることはなく、正しく効果的なリピート学習を行うことができる。
【0053】
したがって、前記構成の音声再生装置10による第1実施形態の音声再生機能によれば、例えばインターネットN上のWebサイトからユーザ指定に応じてダウンロードされたMP3ファイルをデコードして出力再生する際に、このデコードされた再生音声データ(PCM音声データDPCM)を音声認識してテキスト化し、ピリオド「.」などがある一文の区切り位置を検出して再生一時停止させる。そして、この再生一時停止された再生音声の一文に対応してユーザがリピートし発声すると、マイク18から入力されたユーザ音声データ(Us)も音声認識してテキスト化し、ピリオド「.」などが認識された一文の区切り位置を検出して直ちに前記再生音声データの次の一文の再生を再開させるので、ユーザ任意に選択指定した外部からの再生音声データとこれをリピートして発声するユーザ音声データとを正しい一文の区切り位置で区切りながら切り替えて適切にリピート練習することができる。
【0054】
なお、前記音声再生装置10による第1実施形態の音声再生機能では、ユーザ任意のMP3ファイルをデコードして出力再生する際に、その再生音声データを音声認識テキスト化して正しい一文の区切り位置を検出し再生一時停止すると共に、ユーザリピートによるユーザ音声データも音声認識テキスト化して正しい一文の区切り位置を検出し、素早く前記再生音声データの続きの再生を再開させるものであるが、次の第2実施形態の音声再生機能にて説明するように、再生音声データの音声認識されたテキストデータをその一文の区切り毎に保存すると共に、これをリピート発声した際のユーザ音声データの音声認識に伴うテキストデータを前記再生音声データの保存されたテキストデータと比較し、その近似度が一定以上ない場合にはユーザによるリピート音声の入力ミスを表示して、繰り返し同じ一文部分の再生音声データの再生を再開する構成としてもよい。
【0055】
(第2実施形態)
図5は、前記音声再生装置10による第2実施形態の音声出力処理を示すフローチャートである。
【0056】
この図5で示す第2実施形態の音声出力処理において、前記図3で示した第1実施形態の音声出力処理と同一の処理ステップについては同一のステップ符号を付してその説明を省略する。
【0057】
すなわち、この第2実施形態の音声出力処理において、前記第1実施形態の音声出力処理と異なる処理は、まずステップS8,S9において、再生音声データが音声認識処理されてテキスト化されると、当該テキスト化された再生音声データの文字情報がRAM13に記憶され保存される(ステップS9a)。
【0058】
次に、前記再生音声データの一文の区切り位置が検出されてその再生が一時停止された(ステップS10〜S12)後のステップS13〜S15において、ユーザのリピート発声に伴い入力されたユーザ音声データが音声認識処理されてテキスト化されると、当該テキスト化されたユーザ音声データの文字情報もRAM13に記憶され保存される(ステップS15a)。
【0059】
すると、このステップS15aにおいて音声認識処理されたユーザ音声データの文字情報が記憶保存される都度、これに対応した前記再生音声データの文字情報がRAM13から読み出されて比較され(ステップS15b)、その類似度(%)が一定以上あるか否か判断される(ステップS16a)。
【0060】
ここで、現在リピート発声中である入力されたユーザ音声データの音声認識保存された文字情報と、これに対応する部分の前記再生音声データの音声認識保存された文字情報との比較近似度が、一定%未満で低いと判断された場合には(ステップS16a(No))、現在のリピート発声に伴うユーザ音声の入力ミス(リピートミス)であることが表示部25に表示されてユーザに知らされ(ステップA16b)、前記ユーザ指定されて再生され現在一時停止されているMP3ファイルの出力開始位置が、今回区切り位置検出された一文の先頭の位置、つまり前回の区切り検出位置まで戻される(ステップS16c)。
【0061】
すると、前記再生音声データ(PCM音声データDPCM)の今回の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化保存処理、およびその一文区切り位置検出処理が繰り返し再開され実行される(ステップS6〜S10)。
【0062】
一方、前記ステップS16aにおいて、現在リピート発声中である入力されたユーザ音声データの音声認識保存された文字情報と、これに対応する部分の前記再生音声データの音声認識保存された文字情報との比較近似度が、一定%以上であると判断された場合には(ステップS16a(Yes))、当該比較判断された再生音声データの文字情報がその一文の最後の文字部分であるか、つまり一文区切り位置までのユーザリピートの発声が終了したか否か判断される(ステップS17a)。
【0063】
ここで、前記比較近似度判断された再生音声データの文字情報がその一文の最後の文字部分まで到達していない、つまり一文区切り位置までのユーザリピートの発声が終了していないと判断される状態では(ステップS17a(No))、当該ユーザ音声データ(Us)の取り込み処理、およびその音声認識テキスト化保存処理、および対応する再生音声データの文字情報との比較近似度判断処理が前記同様に継続して実行される(ステップS17a→S14〜S16a)。
【0064】
そして、ステップS17aにおいて、前記比較近似度判断された再生音声データの文字情報がその一文の最後の文字部分まで到達した、つまり一文区切り位置までのユーザリピートの発声が終了したと判断された場合には(ステップS17a(Yes))、音声認識対象が前記指定のMP3ファイルの再生音声データ(PCM音声データDPCM)の側に切り替え設定され(ステップS18)、再び当該再生音声データ(PCM音声データDPCM)の次の一文先頭位置からの生成処理とその出力再生処理、およびその音声認識テキスト化保存処理、およびその一文区切り位置検出処理が前記同様に再開され実行される(ステップS6〜S10)。
【0065】
したがって、前記構成の音声再生装置10による第2実施形態の音声再生機能によれば、再生音声データの音声認識されたテキストデータをその一文の区切り毎に保存すると共に、これをリピート発声した際のユーザ音声データの音声認識に伴うテキストデータを前記再生音声データの保存されたテキストデータと比較し、その近似度が一定以上ない場合にはユーザによるリピート音声の入力ミスを表示して、繰り返し同じ一文部分の再生音声データの再生を再開するようにしたので、前記第1実施形態の音声再生機能と同様に、ユーザ任意に選択指定した外部からの再生音声データとこれをリピートして発声するユーザ音声データとを正しい一文の区切り位置で区切りながら切り替えて適切にリピート練習することができるばかりでなく、さらに、リピートミスをユーザに報知して繰り返しリピート発声させ、より効果的なリピート学習を行うことができる。
【0066】
なお、前記各実施形態において記載した音声再生装置10による各処理の手法、すなわち、図3のフローチャートに示す第1実施形態の音声出力処理、図5のフローチャートに示す第2実施形態の音声出力処理等の各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記憶媒体(14)に格納して配布することができる。そして、音声再生機能を有する種々のコンピュータ端末は、この外部記憶媒体(14)に記憶されたプログラムを本体メモリ(12)に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明したリピート練習のために最適な音声再生機能を実現し、前述した手法による同様の処理を実行することができる。
【0067】
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(インターネット)N上を伝送させることができ、この通信ネットワーク(インターネット)Nに接続されたコンピュータ端末(プログラムサーバ)30から前記のプログラムデータを取り込み、前述したリピート練習のために最適な音声再生機能を実現することもできる。
【0068】
なお、本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
【図面の簡単な説明】
【0069】
【図1】本発明の実施形態に係る音声再生装置10の電子回路の構成を示すブロック図。
【図2】前記音声再生装置10の電子回路における主要部の機能を示すブロック図。
【図3】前記音声再生装置10による第1実施形態の音声出力処理を示すフローチャート。
【図4】前記音声再生装置10においてユーザ指定された再生音声データの出力再生状態を示す図であり、同図(A)は再生音声データを単純に連続再生した状態を示す図、同図(B)は再生音声データを前記音声出力処理に従い再生一時停止・再生再開して再生した状態を示す図。
【図5】前記音声再生装置10による第2実施形態の音声出力処理を示すフローチャート。
【符号の説明】
【0070】
10 …音声再生装置
11 …CPU
12 …ROM
13 …RAM
13a…音声認識テキストメモリ
14 …メモリカード(外部記録媒体)
15 …カードスロット
16 …通信部
17 …キー入力部
18 …マイク
19 …A/D変換部
20 …MP3デコーダ
21 …PCMバッファ
22 …D/A変換部
23 …アンプ
24 …スピーカ
25 …表示部
30 …Webサーバ
40 …ユーザPC
M …録音音声圧縮データ(MP3)
Us…ユーザ音声
SP…再生音声
PCM…再生音声(PCM音声)データ
P1,P2…スタート・ストップ・ポーズ制御信号




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013