米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> カシオ計算機株式会社

発明の名称 画像処理装置および画像処理のプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−225952(P2007−225952A)
公開日 平成19年9月6日(2007.9.6)
出願番号 特願2006−47802(P2006−47802)
出願日 平成18年2月24日(2006.2.24)
代理人 【識別番号】100090619
【弁理士】
【氏名又は名称】長南 満輝男
発明者 石井 克典
要約 課題
入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換する。

解決手段
制御部1は、webページ取得部10によって、ネットワークから得られるwebページに含まれている画像情報をHTML解析部11および画像データ解析部12によって解析し、画像情報から抽出した文字列をキーワードリスト保存部13に登録する。そして、音声入力部5から入力された音声がキーワードリスト保存部13に登録されているいずれかの文字列と一致するか否かを音声認識部6によって判断して、一致すると判断した場合には、文字描画部7によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部8によって合成して新たな画像情報を生成する。
特許請求の範囲
【請求項1】
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶する情報抽出手段と、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行う音声認識手段と、
前記音声認識手段によって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を生成する画像生成手段と、
を備えた画像処理装置。
【請求項2】
前記情報抽出手段は、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記情報抽出手段は、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記情報抽出手段は、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項1に記載の画像処理装置。
【請求項5】
前記情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項4に記載の画像処理装置。
【請求項6】
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップAと、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップBと、
前記ステップBによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップCと、
をコンピュータに実行させる画像処理のプログラム。
【請求項7】
前記ステップAは、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項6に記載の画像処理のプログラム。
【請求項8】
前記ステップAは、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項7に記載の画像処理のプログラム。
【請求項9】
前記ステップAは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項6に記載の画像処理のプログラム。
【請求項10】
前記ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項9に記載の画像処理のプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、画像処理装置および画像処理のプログラムに関し、特に、音声認識に利用するための画像を処理する画像処理装置および画像処理のプログラムに関するものである。
【背景技術】
【0002】
音声情報を文字情報に変換して表示する技術としていくつか提案がなされている。
ある提案によるスーパーインポーズシステムにおいては、マイクから入力された1つの言語(例えば、英語)の音声を音声処理部で認識して、他の言語(例えば、日本語)の文字に変換する文字変換部によって変換された文字を、ビデオカメラで撮影した画像に重畳する構成が記載されている。(特許文献1参照)
また、別の提案による音声認識装置および音声認識プログラムにおいては、入力音声をスペクトル分析して音響特徴量を出力する音声認識によって、間投詞、間投助詞などを不要語として不要語区間を識別し、不要語以外とは異なる態様で表示する構成が記載されている。さらに、表示された文字列の中で、不要語と思われる文字列を不要語候補として使用者が指定できる構成が記載されている。(特許文献2参照)
【特許文献1】特開2005−175988号公報
【特許文献2】特開2005−164656号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記特許文献1のように、不特定多数の膨大な文字群の中から入力された音声に対応する文字を認識することは極めて困難であり、音声認識率は低い。また、音声認識の具体的な方法については記載されていないが、おそらくは特許文献2のように、入力音声をアナログからデジタルに変換し、スペクトル分析して音響特徴量を出力する方法であると考えられる。しかし、特許文献2に記載された「Baum-Weltch」のアルゴリズムなどで予め学習された音素HMMを登録した辞書に基づく音声認識についても、音声認識率は高くない。このため、特許文献2においても、不要語と予測された文字列を不要語以外の文字列とは異なる態様で表示し、使用者に最終的な判断を仰いでいる。さらに、使用者の操作によって不要語と思われる文字列を不要語候補として予め指定する必要がある。
本発明は、このような従来の課題を解決するためのものであり、入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換することを目的とする。
【課題を解決するための手段】
【0004】
請求項1に記載の画像処理装置は、ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段(実施形態においては、図1のキーワードリスト保存部13に相当する)に記憶する情報抽出手段(実施形態においては、図1の制御部1、HTML解析部11、および画像データ解析部12に相当する)と、画像情報とともに入力された音声情報が記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行う音声認識手段(実施形態においては、図1の音声認識部6に相当する)と、音声認識手段によって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を生成する画像生成手段(実施形態においては、図1の文字合成部8に相当する)と、を備えた構成になっている。
【0005】
請求項1の画像処理装置において、請求項2に記載したように、情報抽出手段は、ネットワークから得られる情報を表すためのページ記述言語の符号(実施形態においては、HTMLのタグに相当する)によって解析した画像情報の中の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項3に記載したように、情報抽出手段は、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。
【0006】
請求項1の画像処理装置において、請求項4に記載したように、情報抽出手段は、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項5に記載したように、情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。
【0007】
請求項6に記載の画像処理のプログラムは、ネットワークから得られる情報(実施形態においては、webページに相当する)に含まれている画像情報から抽出した文字情報を記憶手段(実施形態においては、図1のキーワードリスト保存部13に相当する)に記憶するステップA(実施形態においては、図1の制御部1、HTML解析部11、および画像データ解析部12の処理に相当する)と、画像情報とともに入力された音声情報が記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップB(実施形態においては、図1の音声認識部6の処理に相当する)と、ステップBによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップC(実施形態においては、図1の文字合成部8の処理に相当する)と、をコンピュータに実行させる構成になっている。
【0008】
請求項6の画像処理のプログラムにおいて、請求項7に記載したように、ステップAは、ネットワークから得られる情報を表すためのページ記述言語の符号(実施形態においては、HTMLのタグに相当する)によって解析した画像情報の中の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項8に記載したように、ステップAは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。
【0009】
請求項6の画像処理のプログラムにおいて、請求項9に記載したように、ステップAは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項10に記載したように、ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。
【発明の効果】
【0010】
本発明の画像処理装置および画像処理のプログラムによれば、入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換できるという効果が得られる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の画像処理装置の実施形態について、図1ないし図6を参照して説明する。
図1は、実施形態の画像処理装置のシステム構成を示す概略ブロック図である。図1において、制御部1は、CPU、プログラムROM、ワークRAMなど(図示せず)を有し、プログラムROMに予め格納されている画像処理のプログラムを実行し、処理する種々のデータをワークRAMに一時的に記憶して、システムバス2に接続されている下記の各部との間にデータおよびコマンドを授受しながら、この画像処理装置を制御する。
【0012】
システムバス2には、映像入力部3、表示部4、音声入力部5、音声認識部6、文字描画部7、文字合成部8、記録部9、webページ取得部10、HTML解析部11、画像データ解析部12、およびキーワードリスト保存部13が接続されている。
映像入力部3は、外部からの映像情報、例えば、衛星デジタルテレビ放送、地上波デジタル放送、ケーブルテレビ放送などから入力される映像情報を取り込んで、1画面の画像情報に展開して出力する。表示部4は、映像入力部3から出力された画像情報、又は、後述する文字合成部8によって合成された画像情報を表示する。音声入力部5は、上記映像情報と共に外部から入力される音声情報を取り込む。音声認識部6は、音声入力部5から入力された音声情報に対する音声認識処理を行って、その音声情報を文字情報に変換して出力する。文字描画部7は、音声認識部6から出力された文字情報に基づいて、ビットマップの文字画像を生成して出力する。文字合成部8は、文字描画部7から出力された文字画像と、映像入力部3から出力された画像情報とを合成して、表示部4に表示させる。記録部9は、ハードディスク装置やDVD装置などで構成され、文字合成部8で合成された画像情報を記録する。
【0013】
webページ取得部10は、インターネットなどのネットワークに接続する通信機能を有し、ネットワークからwebページを取得する。例えば、携帯電話装置などの宣伝のwebページを取得する。HTML解析部11は、webページ取得部10によって取得されたwebページのページ記述言語であるHTML(Hyper Text Markup Language)を解析して、文字情報の解析データを出力する。画像データ解析部12は、webページ取得部10によって取得されたwebページの画像情報を解析して、文字情報の解析データを出力する。キーワードリスト保存部13は、HTML解析部11、画像データ解析部12から出力されたキーワードをデータベースとして保存する。
【0014】
次に、図1の画像処理装置の動作について、制御部1によって実行される画像処理のプログラムのフローチャートに基づいて説明する。
図2は、キーワード自動挿入開始のフローチャートである。まず、webページ取得部10によって、商品の宣伝をしているwebページの取得を行う(ステップS201)。ここでは、携帯電話装置の宣伝をしている静止画のwebページの取得を行うものとする。次に、取得したwebページを解析して、文字の色や大きさ情報を持つキーワードリストを作成する(ステップS202)。
【0015】
図3は、ステップS202におけるキーワードリスト作成のフローチャートである。最初に、HTML解析部11によって、webページのHTMLのタグ「<」および「>」を解析して、タグに挟まれた文字の色、大きさ、キーワードをキーワードリスト保存部13に登録する(ステップS301)。
図4は、ステップS301におけるHTMLタグ解析処理の詳細な動作を示すフローチャートである。webページの中に、評価を行っていないタグ付けされた文字列があるか否かを判別し(ステップS401)、評価を行っていない文字列がある場合には、まだ評価を行っていないタグ付けされた文字列を取り出す(ステップS402)。webページを表すページ記述言語であるHTMLでは、例えば、ページのタイトルは、2つのタグ<TITLE>および</TITLE>の間に存在する。HTMLの情報には文字の大きさや文字色のデータも含まれている。次に、取り出した文字列は一定の大きさ以上であるか否かを判別する(ステップS403)。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさと共に、キーワードリスト保存部13に登録する(ステップS404)。そして、ステップS401に移行し、評価を行っていないタグ付けされた文字列がある場合には、ステップS402ないしS404の処理を繰り返す。評価を行っていないタグ付けされた文字列が残っていない場合には、図3のフローチャートに戻る。
【0016】
図3のステップS301の後は、画像データ解析部12によって、webページの画像データを解析し、文字の色、大きさ、キーワードをキーワードリスト保存部13に登録する(ステップS302)。なお、画像データを解析は、HTML解析でキーワードを抽出できなかった場合に実行してもよく、HTML解析でキーワードを抽出できた場合でもさらに実行してもよい。
図5は、ステップS302における画像データ解析処理の詳細な動作を示すフローチャートである。webページの中に、評価を行っていない画像データがあるか否かを判別し(ステップS501)、評価を行っていない画像データがある場合には、まだ評価を行っていない画像データを取り出す(ステップS502)。そして、取り出した画像データを文字認識する(ステップS503)。なお、画像データ解析のためには、新たに解析ソフトウェアを開発してもよいが、インターネットから無料又は有料で取得できる形態素解析ソフトウェアなどを用いてもよい。次に、文字認識によって画像データから文字列を抽出できたか否かを判別し(ステップS504)、抽出できたときは、取り出した文字列は一定の大きさ以上であるか否かを判別する(ステップS505)。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさ共に、キーワードリスト保存部13に登録する(ステップS506)。そして、ステップS501に移行し、評価を行っていない画像データがある場合には、ステップS502ないしS506の処理を繰り返す。評価を行っていない画像データが残っていない場合には、図2のフローチャートに戻る。
【0017】
図2のステップS202の解析によって得られた文字色、文字の大きさとともに、キーワードリスト保存部13に登録した後は、入力音声の音声認識を開始する(ステップS203)。そして、キーワードリスト保存部13に登録してリストに設定されたキーワードが話されたか否かを判別し(ステップS204)、設定されたキーワードが話された場合には、商品紹介映像に文字を入れる。文字の色や大きさは、解析データを使用する(ステップS205)。この後はステップS204に移行して、設定されたキーワードが話されたか否かの判別処理を繰り返し、設定されたキーワードが話された場合には、ステップS205において商品紹介映像に文字を入れる処理を行う。ステップS204において、設定されたキーワードが話されない場合には、映像が終了したか否かを判別する(ステップS206)。映像が終了していない場合には、ステップS204およびステップS205のループ処理を繰り返す。映像が終了したときは、このフローチャートを終了する。
【0018】
図6は、キーワードリスト保存部13に登録されたキーワードリストを示している。図6に示すように、携帯電話装置の宣伝の文字列が文字の大きさおよび文字の色のデータと共に登録されている。HTMLでは、文字の大きさは、「font−size」によって「12pt」、「36pt」のように表される。また、文字の色は、#で始まる6桁のカラーコード、例えば、赤は「FF0000」、青は「#0000FF」、緑は「#008000」のように表され、又は、直接に色を表す文字データとして、「color:red」、「color:blue」、「color:green」として示される。強調された文字列ほど文字が大きく、目立つ文字の色になっている。
【0019】
以上のように、この実施形態によれば、制御部1は、webページ取得部10によって、ネットワークから得られるwebページに含まれている画像情報をHTML解析部11および画像データ解析部12によって解析し、画像情報から抽出した文字列をキーワードリスト保存部13に登録する。そして、音声入力部5から入力された音声がキーワードリスト保存部13に登録されているいずれかの文字列と一致するか否かを音声認識部6によって判断して、一致すると判断した場合には、文字描画部7によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部8によって合成して新たな画像情報を生成する。
したがって、入力される音声を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字列に変換できる。そして、映像と文字画像とを合成した合成画像は、表示部4で表示できるとともに、記録部9に記録することができる。新たに編集した合成画像は、商品の物流システムの販売のためのホームページの作成に利用することや、チラシとして印刷することができる。
【0020】
なお、上記実施形態においては、制御部1のプログラムROMにあらかじめ記憶された画像処理のプログラムを実行する装置の発明について説明したが、フレキシブルディスク(FD)、CD、メモリカードなどの外部記憶媒体に記録されている処理のプログラムをハードディスクやフラッシュROMなどの書き込み可能な不揮発性メモリにインストールするか、又は、インターネットなどのネットワークからダウンロードした処理のプログラムを不揮発性メモリにインストールして、そのプログラムを制御部1が実行することも可能である。この場合には、プログラムの発明やそのプログラムを記録した記録媒体の発明を実現できる。
【0021】
すなわち、本発明による画像処理のプログラムは、
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップAと、画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップBと、前記ステップBによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップCと、をコンピュータに実行させる。
【0022】
前記ステップAは、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする。
さらにこの場合において、ステップAは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする。
【0023】
前記ステップAは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする。
さらにこの場合において、ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする。
【図面の簡単な説明】
【0024】
【図1】本発明の実施形態における画像処理装置のシステム構成を示す概略ブロック図。
【図2】図1の制御によって実行されるキーワード自動挿入開始のフローチャート。
【図3】図2におけるキーワード作成処理のフローチャート。
【図4】図3におけるHTMLタグ解析処理のフローチャート。
【図5】図3における画像データ解析処理のフローチャート。
【図6】図1のキーワードリスト保存部に登録された文字列リストの例を示す図。
【符号の説明】
【0025】
1 制御部
3 映像入力部
4 表示部
5 音声入力部
6 音声認識部
7 文字描画部
8 文字合成部
9 記録部
10 webページ取得部
11 HTML解析部
12 画像データ解析部
13 キーワードリスト保存部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013