米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> 日本電気株式会社

発明の名称 モデリング装置、モデリング方法、プログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−187880(P2007−187880A)
公開日 平成19年7月26日(2007.7.26)
出願番号 特願2006−5963(P2006−5963)
出願日 平成18年1月13日(2006.1.13)
代理人 【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
発明者 及川 博志
要約 課題
議事録作成時に、様々な条件で発言音声を抽出して効率良く議事録を作成する。

解決手段
本発明のモデリング装置は、音声入力部1、音線変換部2、発言者認識部3、発言者DB4、意味認識部5、意味DB6、時計部7、座標化処理部8、および関数演算部9からなる。音声入力部1は、発言音声が入力され、音声変換部2は、発言音声をデジタル音声信号に変換する。発言者認識部3は、発言者DB4内の音声特徴のデータパターン等を用いて、発言音声の発言者を認識する。意味認識部5は、発言音声の意味を、意味DB6内の意味の集合体を検索することで認識する。座標化処理部8は、発言者認識部3で認識された発言者、意味認識部5で認識された意味、およびその発言者がその意味の発言をした時点の時刻をそれぞれ座標数値化して3次元座標上の点に表す。関数演算部9は、3次元座標上の各点同士の相関を表す相関関数を演算する。
特許請求の範囲
【請求項1】
発言音声をモデリングするモデリング装置であって、
発言音声が入力される音声入力部と、
前記音声入力部に入力された発言音声の発言者を認識する発言者認識部と、
前記音声入力部に入力された発言音声の意味を認識する意味認識部と、
前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表す座標化処理部と、
前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算する関数演算部とを有するモデリング装置。
【請求項2】
発言音声をモデリングするモデリング装置によるモデリング方法であって、
音声入力部が、発言音声を入力するステップと、
発言者認識部が、前記音声入力部に入力された発言音声の発言者を認識するステップと、
意味認識部が、前記音声入力部に入力された発言音声の意味を認識するステップと、
座標化処理部が、前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表すステップと、
関数演算部が、前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算するステップとを有するモデリング方法。
【請求項3】
発言音声をモデリングするモデリング装置に、
音声入力部が、発言音声を入力するステップと、
発言者認識部が、前記音声入力部に入力された発言音声の発言者を認識するステップと、
意味認識部が、前記音声入力部に入力された発言音声の意味を認識するステップと、
座標化処理部が、前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表すステップと、
関数演算部が、前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算するステップとを実行させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、会議等の議事録を作成するために会議等で発言された発言音声をモデリングするモデリング装置、モデリング方法、プログラムに関する。
【背景技術】
【0002】
従来より、会議等の議事録を作成するために会議等で発言された発言音声をモデリングするモデリング装置が多数開示されている(例えば、特許文献1,2,3参照)。
【0003】
従来のモデリング装置においては、発言音声をマイクロフォン等から入力し、入力された発言音声を音声認識技術の利用により文字データに変換することが主流であった。そのため、議事録作成時には、発言音声が変換された文字データを用いて、議事録を作成していた。
【特許文献1】特開2000−352995号公報
【特許文献2】特開2001−325250号公報
【特許文献3】特開2004−020739号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した従来のモデリング装置においては、会議等で発言された発言音声を文字データに変換する構成であるため、議事録作成時に、特定の発言者の発言音声のみを抽出する等、様々な条件で発言音声を抽出して効率良く議事録を作成することが困難であった。
【0005】
そこで、本発明の目的は、議事録作成時に、様々な条件で発言音声を抽出して効率良く議事録を作成することができるモデリング装置、モデリング方法、プログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために本発明のモデリング装置は、
発言音声が入力される音声入力部と、
前記音声入力部に入力された発言音声の発言者を認識する発言者認識部と、
前記音声入力部に入力された発言音声の意味を認識する意味認識部と、
前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表す座標化処理部と、
前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算する関数演算部とを有することを特徴とする。
【0007】
また、上記目的を達成するために本発明のモデリング方法は、
音声入力部が、発言音声を入力するステップと、
発言者認識部が、前記音声入力部に入力された発言音声の発言者を認識するステップと、
意味認識部が、前記音声入力部に入力された発言音声の意味を認識するステップと、
座標化処理部が、前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表すステップと、
関数演算部が、前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算するステップとを有することを特徴とする。
【0008】
また、上記目的を達成するために本発明のプログラムは、
モデリング装置に、
音声入力部が、発言音声を入力するステップと、
発言者認識部が、前記音声入力部に入力された発言音声の発言者を認識するステップと、
意味認識部が、前記音声入力部に入力された発言音声の意味を認識するステップと、
座標化処理部が、前記発言者認識部にて認識された発言者、前記意味認識部にて認識された意味、および該発言者が該意味の発言をした時点の時刻をそれぞれ座標数値化して座標上の点に表すステップと、
関数演算部が、前記座標化処理部により座標上に表された各点同士の相関を表す相関関数を演算するステップとを実行させることを特徴とする。
【発明の効果】
【0009】
本発明によれば、発言音声の発言者、意味、および時刻をそれぞれ座標数値化して座標上の点に表すとともに、その発言が行われている会議等の流れ自体を座標上の各点同士の相関を表す相関関数によってモデリングする構成である。
【0010】
そのため、議事録作成時に、発言者、意味、または時刻のいずれか1つ以上と相関関数とを用いた条件によって所望の発言音声を抽出することができ、それにより、効率良く議事録を作成することができるという効果が得られる。
【発明を実施するための最良の形態】
【0011】
以下に、本発明を実施するための最良の形態について図面を参照して説明する。
【0012】
図1を参照すると、本発明の一実施形態によるモデリング装置は、音声入力部1、音線変換部2、発言者認識部3、発言者DB(データベース)4、意味認識部5、意味DB6、時計部7、座標化処理部8、および関数演算部9から構成されている。
【0013】
音声入力部1は、会議等で発言された発言音声が入力されるマイクロフォン等であり、音声変換部2は、音声入力部1に入力された発言音声をデジタル音声信号に変換する。
【0014】
発言者DB4には、発言者個々の音声特徴のデータパターンが格納されている。
【0015】
発言者認識部3は、音声変換部2にてデジタル音声信号に変換された発言音声の発言者を認識する。例えば、発言者が既知の人物であれば、発言者DB4に格納されている音声特徴のデータパターンに基づき発言者を認識する。一方、発言者が未知の人物であれば、音声特徴が同一の人物の発言に“人物A”のように任意のインデックスを付与する。この結果、発言者は、座標化処理部8において座標数値化することができ、発言者(p)の軸上で表現できるようになる。なお、未知の人物の音声特徴のデータパターンは、会議が終了した後などの任意のタイミングで発言者DB4に格納する。
【0016】
意味DB6には、各種の単語や文などの意味の集合体が格納されている。なお、意味DB6は、多言語に対応するため、複数の言語ごとに意味の集合体を格納しても良い。
【0017】
意味認識部5は、音声変換部2にてデジタル音声信号に変換された発言音声の意味を、意味DB6に格納されている意味の集合体を検索することで認識する。この結果、発言音声の意味は、座標化処理部8において座標数値化することができ、意味(m)の軸上で表現できるようになる。
【0018】
座標化処理部8は、発言者認識部3で認識された発言者、意味認識部5で認識された意味、およびその発言者がその意味の発言をした時点の時計部7の時刻を内部のメモリ(不図示)に記録すると同時に、発言者、意味、および時刻をそれぞれ座標数値化して、発言者(p)、意味(m)、および時刻(t)の3次元座標上の点φn(tn,pn,mn)として表す。
【0019】
しかし、これだけでは、発言音声の発言者、意味、および時刻を3次元座標上にマッピングしているに過ぎない。
【0020】
そこで、本実施形態では、関数演算部9が、3次元座標上の各点同士の相関を表す相関関数Gを演算し、内部のメモリ(不図示)に記録する。これにより、会議等におけるすべての発言音声の関連性、発言音声の分岐、論理の正逆を含めた形で会議等における発言音声のモデリングが可能になる。
【0021】
以下、本発明の特徴部分となる座標化処理部8および関数演算部9の動作について、図2を用いて詳細に説明する。
【0022】
図2を参照すると、座標化処理部8は、1回の会議等の始状態から終状態までの間に発言された発言音声の発言者、意味、および時刻のすべての組み合わせを、3次元座標上の点φn(tn,pn,mn)として表すことが可能となる。
【0023】
また、関数演算部9は、3次元座標上の各点の相関を表す相関関数Gを演算することが可能である。これにより、会議等の始状態から終状態までは、その間の中間状態を連続で表現した行列関数として表すことができる。
【0024】
例えば、関数演算部9は、会議等の始状態時の座標上の点をφ0とし、終状態時の座標上の点をφ4とした場合、始状態から終状態までの行列関数を次の数式1で演算することができる。
【0025】
【数1】


ここで、会議等の始状態から終状態までの間において、ある時刻t1からt2までの間に発言された発言音声を抽出する場合は、行列インデックスがt1<t<t2の間のtについて相関関数Gのサンメンションをとることで抽出する。具体的には、関数演算部9に次の数式2を演算させることで抽出することができる。
【0026】
【数2】


また、会議等の始状態から終状態までの間において、発言者ps(特定の人物)の発言をすべて抽出する場合は、<ps|G|ps>の行列関数の対角要素についてt,mでサンメンションをとることで抽出する。具体的には、関数演算部9に次の数式3を演算させることで抽出することができる。
【0027】
【数3】


また、会議等の始状態から終状態までの間において、発言者ps(特定の人物)と発言者pt(特定の人物)との間の発言をすべて抽出する場合は、関数演算部9に次の数式4を演算させることで抽出することができる。
【0028】
【数4】


そのため、例えば、会議等において、マネージャ以上の発言音声のみを抽出したり、製品の価格に関する発言音声のみを抽出したり、午後3時から午後4時の間の事業部長の発言音声のみを抽出したりすることが可能となる。
【0029】
上述したように本実施形態においては、会議等で発言された発言音声の発言者、意味、および時刻をそれぞれ座標数値化して3次元座標上の点で表すとともに、会議等の流れ自体は3次元座標上の各点同士の相関を表す相関関数によってモデリングしている。
【0030】
そのため、議事録作成時に、発言者、意味、または時刻のいずれか1つ以上と相関関数とを用いた条件によって所望の発言音声を抽出することができ、それにより、効率良く議事録を作成することができるようになる。
【0031】
なお、発言音声の発言者、意味、および時刻の行列要素から発言音声の文字列への変換は、発言者DB4および意味DB6を利用することで可能となる。
【0032】
また、本実施形態においては、3次元座標でモデリングを行ったが、次元を増やしていくことで、さらに様々な人物の振る舞いをモデリングすることが可能となる。
【0033】
なお、本発明においては、モデリング装置の内部に、上記で説明した処理を実行するためのプログラムを記録した記録媒体を設けてもよい。この記録媒体は磁気ディスク、半導体メモリまたはその他の記録媒体であってもよい。このプログラムは、記録媒体からモデリング装置に読み出され、モデリング装置の動作を制御する。具体的には、モデリング装置の不図示のCPU(Central Processing Unit)が、記録媒体から読み出したプログラムの制御のもとでモデリング装置内のハードウェア資源に特定の処理を行うよう指示することにより上記の処理が実現される。
【図面の簡単な説明】
【0034】
【図1】本発明の一実施形態によるモデリング装置の構成を示す図である。
【図2】図1に示した座標化処理部および関数演算部の動作を説明する図である。
【符号の説明】
【0035】
1 音声入力部
2 音線変換部
3 発言者認識部
4 発言者DB
5 意味認識部
6 意味DB
7 時計部
8 座標化処理部
9 関数演算部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013