米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> カシオ計算機株式会社

発明の名称 音声制御装置および音声制御方法
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−140225(P2007−140225A)
公開日 平成19年6月7日(2007.6.7)
出願番号 特願2005−335224(P2005−335224)
出願日 平成17年11月21日(2005.11.21)
代理人 【識別番号】100090619
【弁理士】
【氏名又は名称】長南 満輝男
発明者 出嶌 達也
要約 課題
歌唱者の口の動きと歌声の音色との相関性を利用して、実際よりも歌唱力を高めることができるようにする。

解決手段
カラオケシステムは、マイクロフォン1に収容されて入力される音声に応じて音声信号を出力するマイク部5と、マイクロフォン1に収容されて歌唱者の口の映像を撮像して画像信号を出力するカメラ部6とを備えている。CPU10は、マイク部5から出力された音声信号とカメラ部6によって出力された画像信号との相関性を検出して、その相関性のデータに応じてDSP部に制御信号を与えて、マイク部5から出力される音声信号に対してエフェクト処理を施す。
特許請求の範囲
【請求項1】
マイクロフォンに収容され、入力される音声に応じて音声信号を出力する信号発生手段と、
前記マイクロフォンに収容され、歌唱者の口の映像を撮像して画像信号を出力する撮像手段と、
前記信号発生手段から出力された音声信号と前記撮像手段によって出力された画像信号との相関性を検出する相関性検出手段と、
前記相関性検出手段によって検出された相関性のデータに応じて前記信号発生手段から出力される音声信号に対してエフェクト処理を施す信号処理手段と、
を備えた音声制御装置。
【請求項2】
前記相関性検出手段は、前記撮像手段から出力された画像信号と前記信号発生手段から出力される音声信号との差分関係を検出する差分検出手段を備え、前記信号処理手段は、前記差分検出手段によって検出された差分関係のデータに基づいて前記信号発生手段から出力される音声信号に対してエフェクト処理を施すことを特徴とする請求項1に記載の音声制御装置。
を備えた音声制御装置。
【請求項3】
前記信号処理手段は、前記マイクロフォン内に収容されていることを特徴とする請求項1又は2に記載の音声制御装置。
【請求項4】
前記信号処理手段は、リバーブ処理のフィードバック成分を制御することを特徴とする請求項1又は2に記載の音声制御装置。
【請求項5】
前記信号処理手段は、リバーブ処理のフィードバック時間を制御することを特徴とする請求項1又は2に記載の音声制御装置。
【請求項6】
前記信号処理手段は、遅延処理のフィードバック成分を制御することを特徴とする請求項1又は2に記載の音声制御装置。
【請求項7】
前記信号処理手段は、遅延処理のフィードバック時間を制御することを特徴とする請求項1又は2に記載の音声制御装置。
【請求項8】
入力される音声に応じてマイクロフォンから出力される音声信号を検出するステップAと、
前記マイクロフォンに収容されて歌唱者の口の映像を撮像する撮像手段から出力される画像信号を検出するステップBと、
前記ステップAによって検出された音声信号と前記ステップBによって検出された画像信号との相関性を検出するステップCと、
前記ステップCによって検出された相関性のデータに応じて前記マイクロフォンから出力される音声信号に対してエフェクト処理を施すステップDと、
を実行する音声制御方法。
【請求項9】
前記ステップCは、前記ステップAによって検出された音声信号と前記ステップBによって出力された画像信号との差分関係を検出するステップEを有し、前記ステップDは、前記ステップEによって検出された差分関係のデータに基づいて前記マイクロフォンから出力される音声信号に対してエフェクト処理を施すことを特徴とする請求項8に記載の音声制御方法。
【請求項10】
前記ステップDは、前記マイクロフォン内に収容されている信号処理手段によってエフェクト処理を行うことを特徴とする請求項8又は9に記載の音声制御方法。
【請求項11】
前記ステップDは、リバーブ処理のフィードバック成分を制御することを特徴とする請求項8又は9に記載の音声制御方法。
【請求項12】
前記ステップDは、リバーブ処理のフィードバック時間を制御することを特徴とする請求項8又は9に記載の音声制御方法。
【請求項13】
前記ステップDは、遅延処理のフィードバック成分を制御することを特徴とする請求項8又は9に記載の音声制御方法。
【請求項14】
前記ステップDは、遅延処理のフィードバック時間を制御することを特徴とする請求項8又は9に記載の音声制御方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声制御装置および音声制御方法に関し、特に、マイクロフォンから出力される音声信号に対してエフェクト処理を施す音声制御装置および音声制御方法に関するものである。
【背景技術】
【0002】
近年、電子楽器とエフェクタなどの装置とを組み合わせて、電子楽器から発生する楽音に対してエコーやリバーブの効果を付加するシステムが広く普及してきている。さらに、電子楽器とビデオカメラとを組み合わせて、電子楽器から発生する楽音に対して様々なバリエーションを持たせる提案もなされている。例えば、演奏者の表情に基づいて、演奏される音楽に表現効果を付与する音楽演奏装置の提案がある。この提案においては、演奏者の顔画像を撮影するための撮影手段からの画像データに基づいて、顔画像の注目部分、例えば、演奏者の口の形状から抽出された形状パラメータに応じて、音データに対する表現効果を制御するための制御信号を生成する。具体的には、演奏者の口の開口部の縦方向の開き度合いに応じて制御信号を生成し、その制御信号に応じて、音が通過するローパスフィルタの遮断周波数を変化させる。例えば、口を大きく開けると、ローパスフィルタの遮断周波数を大きくし、口を閉じるにしたがってローパスフィルタの遮断周波数を小さくする。あるいは、演奏者の口の開口部の幅に応じて制御信号を生成し、その制御信号に応じて、音が通過するアンプの非直線性を制御する。例えば、口の幅が広がると、アンプの非直線性を変化させて、音の振幅をクリップすることでひずみを与える。演奏する楽器としては、実施形態に記載されているエレキギターのほかに、ピアノやシンセサイザなどが想定されている。さらには、演奏者だけでなくDJ(ディスクジョッカー)の顔の表情によっても音データに対する表現効果を制御することが記載されている。(特許文献1参照)
【特許文献1】特開平2002−140066号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記特許文献のように、演奏者の表情に基づいて、演奏される音楽に表現効果を制御することは、却って音楽性を喪失又は破壊するおそれがある。なぜなら、演奏者の表情と発生する楽音と間に相関性があるとは考えられないからである。例えば、演奏者が笑いながら明るい音色で演奏している場合でも、口の幅が広がった画像によって、音にひずみを与えて荒々しい音色にすると、演奏者の意図とは逆の効果になってしまう。また、演奏者の中には、静かでメランコリックな曲を演奏していても、メロディにひたって口を大きく開ける場合もある。このような場合に、その口の動きに応じて音にひずみを与えて荒々しい音色にすると、演奏を台無しにすることになる。
【0004】
演奏者の口の表情と発生する楽音と間に相関性があるのは、歌唱する場合だけである。口を頻繁にぱくぱく大きく開けて「…は夜露に濡れて……」と静かに歌う人はいないし、逆に口を開けずに「…来たぜ函館……」と歯切れよく大きな声で歌う人もいない。すなわち、歌唱者の口の動きと歌声の音色と間には高い相関性があり、この相関性を利用すれば、歌唱力を高めることが期待できる。
例えば、広く普及しているカラオケは、歌唱力を競い合うというより、会社などの団体における親睦、宴会、接待などのイベントとして利用されている。しかし、歌唱力に自身のない人にとっては皆の前で歌うことは恥ずかしく、苦痛を伴うことになる。したがって、実際よりも高い歌唱力で歌うことができれば、羞恥心や苦痛を和らげることができる上、聴いている回りの人にとっても雰囲気がよくなる。
本発明は、このような従来の課題を解決するためのものであり、歌唱者の口の動きと歌声の音色との相関性を利用して、実際よりも歌唱力を高めることができるようにすることを目的とする。
【課題を解決するための手段】
【0005】
請求項1に記載の音声制御装置は、マイクロフォンに収容され、入力される音声に応じて音声信号を出力する信号発生手段(実施形態においては、図2、図3のマイク部5に相当する)と、マイクロフォンに収容され、歌唱者の口の映像を撮像して画像信号を出力する撮像手段(実施形態においては、図2、図3のカメラ部6に相当する)と、信号発生手段から出力された音声信号と前記撮像手段によって出力された画像信号との相関性を検出する相関性検出手段(実施形態においては、図3のCPU1に相当する)と、相関性検出手段によって検出された相関性のデータに応じて信号発生手段から出力される音声信号に対してエフェクト処理を施す信号処理手段(実施形態においては、図3のCPU10およびDSP制御部18に相当する)と、を備えた構成になっている。
【0006】
請求項1の音声制御装置において、請求項2に記載したように、相関性検出手段は、撮像手段から出力された画像信号と信号発生手段から出力される音声信号との差分関係を検出する差分検出手段(実施形態においては、図3のCPU10に相当する)を備え、信号処理手段は、差分検出手段によって検出された差分関係のデータに基づいて信号発生手段から出力される音声信号に対してエフェクト処理を施すような構成にしてもよい。
【0007】
請求項1又は2の音声制御装置において、請求項3に記載したように、信号処理手段は、マイクロフォン内に収容されているような構成にしてもよい。
請求項1又は2の音声制御装置において、請求項4に記載したように、信号処理手段は、リバーブ処理のフィードバック成分を制御するような構成にしてもよい。
請求項1又は2の音声制御装置において、請求項5に記載したように、信号処理手段は、リバーブ処理のフィードバック時間を制御するような構成にしてもよい。
請求項1又は2の音声制御装置において、請求項6に記載したように、信号処理手段は、遅延処理のフィードバック成分を制御するような構成にしてもよい。
請求項1又は2の音声制御装置において、請求項7に記載したように、信号処理手段は、遅延処理のフィードバック時間を制御するような構成にしてもよい。
【0008】
請求項8に記載の音声制御方法は、入力される音声に応じてマイクロフォンから出力される音声信号を検出するステップAと、マイクロフォンに収容されて歌唱者の口の映像を撮像する撮像手段(実施形態においては、図2、図3のカメラ部6に相当する)から出力される画像信号を検出するステップBと、ステップAによって検出された音声信号と前記ステップBによって検出された画像信号との相関性を検出するステップCと、ステップCによって検出された相関性のデータに応じてマイクロフォンから出力される音声信号に対してエフェクト処理を施すステップDと、を実行する構成になっている。
ステップAないしステップDは、実施形態においては、図3のCPU10の処理に相当する。
【0009】
請求項8の音声制御方法において、請求項9に記載したように、ステップCは、ステップAによって検出された音声信号とステップBによって出力された画像信号との差分関係を検出するステップEを有し、ステップDは、ステップEによって検出された差分関係のデータに基づいてマイクロフォンから出力される音声信号に対してエフェクト処理を施すような構成にしてもよい。
【0010】
請求項8又は請求項9の音声制御方法において、請求項10に記載したように、ステップDは、マイクロフォン内に収容されている信号処理手段によってエフェクト処理を行うような構成にしてもよい。
請求項8又は請求項9の音声制御方法において、請求項11に記載したように、ステップDは、リバーブ処理のフィードバック成分を制御するような構成にしてもよい。
請求項8又は請求項9の音声制御方法において、請求項12に記載したように、ステップDは、リバーブ処理のフィードバック時間を制御するような構成にしてもよい。
請求項8又は請求項9の音声制御方法において、請求項13に記載したように、ステップDは、遅延処理のフィードバック成分を制御するような構成にしてもよい。
請求項8又は請求項9の音声制御方法において、請求項14に記載したように、ステップDは、遅延処理のフィードバック時間を制御するような構成にしてもよい。
【発明の効果】
【0011】
本発明の音声制御装置および音声制御方法によれば、歌唱者の口の動きと歌声の音色との相関性を利用して、実際よりも歌唱力を高めることができるという効果が得られる。
【発明を実施するための最良の形態】
【0012】
以下、本発明による音声制御装置およびその音声制御方法の第1実施形態および第2実施形態について、図を参照して詳細に説明する。
図1は、各実施形態に共通するカラオケ用のマイクロフォン1の外観図であり、メッシュ状又は多数の孔が形成されたマイクカバー2が取り付けられている。図2は、マイクロフォン1の内部の構造を示す図である。マイクカバー2にはポリカーボネイトやアクリルなどの樹脂からなる透明保護カバー3が接着やその他の方法で設けられている。また、マイクカバー2の奥のマイクロフォン1の内部には基板4が取り付けられている。その基板4には、マイクカバー2を通して入力される音声を電気信号に変換して音声信号を出力するマイク部5、透明保護カバー3を通して見える歌唱者の口の映像を撮像するカメラ部6が搭載されている。図には示していないが、マイク部5には音声信号を増幅する増幅回路などが含まれている。また、カメラ部6には、CCDやCMOSなどの撮像素子、駆動回路、増幅回路、A/D変換回路などが含まれている。マイク部5からのアナログの音声信号はリード線7によってマイクロフォン1から出力され、カメラ部6からのデジタルの画像信号はリード線8によってマイクロフォン1から出力される。
【0013】
図3は、本発明による音声制御装置を用いた第1実施形態におけるカラオケシステムの構成を示すブロック図である。図3において、CPU10は、システムバス11を介して、プログラムROM12、ワークRAM13、操作スイッチ14、表示部15、音源16、曲データROM17、DSP(Digital Signal Processor)部18、および図2に示したカメラ部6に接続されている。CPU10は、システムバス11を介して接続された上記各部との間でデータやコマンドを授受してカラオケシステム全体を制御する。
【0014】
プログラムROM12は、CPU10によって実行される音声制御処理のプログラムや初期データなどをあらかじめ格納している。また、一般的な口の形状のパターンを記憶している。ワークRAM13は、CPU10によって処理されるデータを一時的に記憶するワークエリアであり、各種のレジスタ、フラグが設けられている。スイッチ部14は、曲選択キー、曲スタートキー、曲停止キーなどのスイッチ群で構成され、操作に応じたコマンドやデータをCPU10に入力する。表示部15は、カラオケ曲のリストや歌詞などを表示する。音源16は、PCM波形データなどを記憶する波形ROMを内蔵しており、CPU10の発音コマンドに応じて、デジタルの楽音信号を生成する。曲データROM17は、カラオケの伴奏曲の楽音データおよび歌詞データを記憶している。
【0015】
一方、A/D変換回路20は、図2に示したマイク部5からの音声信号を入力して、その音声信号をアナログからデジタルに変換してDSP部18に入力する。音源16は、CPU10によって曲データROM17から読み出されて入力されたカラオケの伴奏曲に応じて、内部の波形ROMから読み出した波形データに基づいて伴奏曲の楽音信号を生成してDSP部18に入力する。DSP部18は、CPU10からの係数に基づいて、A/D変換回路20を介してマイク部5から入力される音声信号に対する信号処理を行って、その音声信号と伴奏曲の楽音信号とを合成してD/A変換回路21に入力する。D/A変換回路21は、DSP部18から入力された合成信号をデジタルからアナログに変換し、パワーアンプ22に入力してスピーカ23から発音させる。
【0016】
図4は、第1実施形態におけるDSP部18の内部構成を示すブロック図である。図4において、エフェクタ181は、マイク部5から入力された音声信号に対して、CPU10から入力された係数に基づいて信号処理を施して、信号合成部182に入力する。信号合成部182は、エフェクタ181から入力された音声信号と、図3の音源16から入力された伴奏曲の楽音信号とを合成して、図3のD/A変換回路21に入力する。エフェクタ181は、遅延部183および帰還部184で構成されている。遅延部183はマイク部5から入力された音声信号に対して、CPU10から入力される遅延係数に応じた遅延処理を施して出力する。帰還部184は、CPU10から入力されるフィードバック係数に応じて、遅延処理された音声信号を遅延部183の入力側にフィードバックする。この場合のエフェクト処理は、最もポピュラーなプレートタイプのリバーブであり、リバーブタイムは標準的に使用される4秒である。また、プリディレイは、自然な感じを演出する10msに固定されている。
【0017】
次に、第1実施形態の音声制御処理方法について、図5ないし図9に示すCPU10のフローチャートおよびその他の図に基づいて説明する。
図5は、各実施形態に共通するCPU10のメインルーチンのフローチャートである。まず、所定のイニシャライズ(ステップSA1)の後、曲選択の操作に応じて曲選択処理を行い(ステップSA2)、曲スタートキーがオンされたか否かを判別する(ステップSA3)。曲スタートキーがオンされたときは、タイマーをスタートして(ステップSA4)、口の開閉の回数を表す変数Nを0にセットする(ステップSA5)。次に、選択された曲データを曲データROM17から読み出し(ステップSA6)、音源16に送付する(ステップSA7)。次に、カメラ部6からの画像信号に基づいて画像認識処理を実行し(ステップSA8)、DSP制御処理を実行する(ステップSA9)。この後は、曲が終了したか又はスイッチ部14の停止キーがオンされたか否かを判別し(ステップSA10)、曲の終了でなく、且つ停止キーがオンでない場合には、ステップSA6に移行して曲データの読み出しを繰り返す。ステップSA10において、曲の終了又は停止キーがオンの場合は、ステップSA2に移行して、スイッチ部14の操作に応じて次ぎの曲選択を行う。
【0018】
図6および図7は、メインルーチンにおける画像認識処理のフローチャートである。図6において、曲の開始時刻であるか否か、すなわち、メインルーチンのイニシャライズ(ステップSA1)がされた直後であるか否かを判別し(ステップSB1)、イニシャライズの直後である場合には、最初の口認識処理を実行する(ステップSB2)。図8は、その口認識処理のフローチャートである。カメラ部6から画像を取り込み(ステップSC1)、白黒画像に変換する(ステップSC2)。次に、プログラムROM12に予め記憶されている口の形状のパターンとマッチングをとり(ステップSC3)、歌唱者の口を認識したか否かを判別する(ステップSC4)。認識できない場合には、ステップSC1において、再びカメラ部6からの画像の取り込みを行う。ステップSC4において歌唱者の口を認識したときは、口の両端と上下の4個のポイントの座標a1〜a4をワークRAM13のレジスタ(a1〜a4)に記憶する(ステップSC5)。図10は、口の両端の座標a1、a2および口の上下の座標a3、a4を示す図である。この座標a1〜a4によって口の開け度合いを検出することができる。
【0019】
図8のステップSC5において座標a1〜a4を記憶した後は、図6のフローチャートに戻って、ステップSB3に移行する。ステップSB3においては、記憶した座標a1〜a4をレジスタFa1〜Fa4に記憶(コピー)する。次に、a1〜a4に基づき口の大きさDを演算する(ステップSB4)。すなわち、図10において、口の両端の幅(a2−a1)および口の上下の間隔(a4−a3)に基づいて口の大きさDを演算する。さらに、その演算したDをレジスタFD、FFDにストアする(ステップSB5)。すなわち、イニシャライズの後は、D、FD、およびFFDの初期データは同じである。
【0020】
このように、メインルーチンのイニシャライズの後は、上記ステップSB2ないしステップSB5を実行して、演算したDをFD、FFDにストアするが、その後は、ステップSB1において曲の開始時刻(最初の口認識)でないと判別されて、ステップSB1のNOからステップSB6に移行して、図8に示した2度目以降の口認識処理を実行する。この口認識処理によって、新たに口の両端の座標a1、a2および口の上下の座標a3、a4がワークRAM13に記憶される。したがって、前回の口の両端の座標および口の上下の座標がFa1〜Fa4に記憶され、今回の口の両端の座標および口の上下の座標がa1〜a4に記憶されることになる。次に、a1〜a4とFa1〜Fa4との差分、すなわち、水平方向のx座標および垂直方向のy座標の差分を下記のように求める(ステップSB7)。
Δx1=x1−xF1、Δy1=y1−yF1
Δx2=x2−xF2、Δy2=y2−yF2
Δx3=x3−xF3、Δy3=y3−yF3
Δx4=x4−xF4、Δy4=y4−yF4
そして、a1〜a4をFa1〜Fa4にストアする(ステップSB8)。
【0021】
次に、求めた差分に基づき同一方向移動成分を算出する(ステップSB9)。同一方向移動成分は、口の両端の2個のポイントの中心のx座標および口の上下の2個のポイントの中心のy座標の移動の有無で判断できる。したがって、下記の演算によって同一方向移動成分Δx、Δyを算出する。
Δx=(Δx1+Δx2)/2−(ΔFx1+ΔFx2)/2
Δy=(Δy1+Δy2)/2−(ΔFy1+ΔFy2)/2
次に、a1〜a4により同一方向の移動成分(Δx、Δy)を下記のように減算する(ステップSB10)。
Δx1’=Δx1−Δx、Δy1’=Δy1−Δy
Δx2’=Δx2−Δx、Δy2’=Δy2−Δy
Δx3’=Δx3−Δx、Δy3’=Δy3−Δy
Δx4’=Δx4−Δx、Δy4’=Δy4−Δy
なお、口とマイクロフォンとの距離によって画像が拡大又は縮小されるので、4個のポイントの座標が変化する。この場合を考慮して、口認識の後に図10の点線の面積すなわち口の面積を算出して座標データを正規化する。一般の画像処理の技法において、このような正規化については公知であるので、その演算処理の詳細な説明は省略する。
【0022】
次に、a1〜a4により口の大きさDを演算する(ステップSB11)。そして、Dが所定値より大きいか否かを判別する(ステップSB12)。所定値とは、口の開け方が歌っていない場合の上限の値である。したがって、Dが所定値よりも大きい場合には、歌っている状態であると判断する。この場合には、前回の口の大きさFDが前々回の口の大きさFFD以上であるか否かを判別し(ステップSB13)、FDがFFD以上である場合には、FDが今回の口の大きさよりも大きいか否かを判別する(ステップSB14)。例えば、図11に示すように、(A)の状態の口の大きさFFDが、(B)の状態で大きいFDに変化し、(C)の状態で再び小さいDに変化した場合には、FFDからDに推移する過程において、FDの大きさが極大値であることを示している。すなわち、口が大きくなって再び小さくなったことを示している。この場合には、口の開閉数を表す変数Nの値をインクリメントする(ステップSB15)。
【0023】
Nの値をインクリメントした後、又は、ステップSB14においてFDがD以下である場合、ステップSB13においてFDがFFDよりも小さい場合、すなわち、FDの大きさが極大値でなく、口が開閉されなかった場合、若しくはステップSB12においてDの大きさが所定値以下である場合には、FDの値をFFDにストアし(ステップSB16)、Dの値をFDにストアする(ステップSB17)。そして、図5のメインルーチンに戻る。
【0024】
なお、ステップSB7からステップSB11の演算処理の代わり、又は、これらの演算処理と併せて、図11に示す口の左右の幅FFH、FH、Hと、口の上下の距離FFV、FV、Vのそれぞれの比であるFFV/FFH、FV/FH、V/Hを演算して、口の開閉を判別し、又は、口の平行移動の場合および口とマイクロフォンとの距離によって画像が拡大又は縮小した場合の補正処理を行う構成にしてもよい。
【0025】
図9は、メインルーチンのステップSA9における第1実施形態のDSP制御処理のフローチャートである。タイマーがエフェクト処理のインターバルである一定時間をカウントしたか否かを判別し(ステップSD1)、一定時間をカウントしていない場合にはメインルーチンに戻るが、一定時間をカウントしたときは、Nの値に基づいてsend係数を生成する(ステップSD2)。send係数とは、図4のDSP部18の帰還部184におけるフィードバック成分(量など)を決定するパラメータである。さらに、Nの値に基づいてtime係数を生成する(ステップSD3)。time係数とは、DSP部18の遅延部183における遅延時間を決定するパラメータである。次に、生成したsend係数およびtime係数をDSP部18に供給する(ステップSD4)。この後は、Nの値に初期値の0をストアし(ステップSD5)、タイマーをクリアして再びスタートさせる(ステップSD6)。そして、図5のメインルーチンに戻る。
【0026】
図12は、口の開閉数Nに対するDSP部18に対する係数Cdspの特性を示す図である。係数Cdspには、DSP部18の遅延部183に対する遅延係数Cdsp(delay time)および帰還係数Cdsp(send)がある。図12に示すように、Nの値が小さいほど、すなわち、口の開閉頻度が低いほど、どちらの係数も大きくなる。この結果、口をあまり動かさずにムードのある曲を歌っている場合には、リバーブやエコーを深くして発音するので、実際よりも歌唱力を向上することができる。逆に、口を頻繁に開けて歯切れよく歌っている人の場合には、元々歌唱力のある人が多いので、リバーブやエコーをカットしてそのまま音声信号を出力することで、歌唱力を活かした発音を行う。
【0027】
例えば、プレートタイプのリバーブにおいて、リバーブタイムを4秒、プリディレイタイムを10msとした場合に、口の開閉頻度が高くNの値が大きいときはリバーブをかけない。一方、口の開閉頻度が中程度のNの値の場合には、send量(変化量)を−10dBとし、口の開閉頻度が低くNの値が小さいときは、send量を−3dBにして、口の開閉頻度が低くなるに従ってリバーブを次第に深くする。
あるいは、口の開閉頻度にかかわらずsend量を一定の−5dBにした状態で、口の開閉頻度が多いときはリバーブタイムを0.5秒、開閉頻度が中程度のときはリバーブタイムを2.8秒、開閉頻度が高いときはリバーブタイムを4.8秒として、開閉頻度が低くなるほどリバーブを次第に深くする。
あるいは、ディレイタイムを150msに固定した状態で、口の開閉頻度が高いときはリバーブをかけず、口の開閉頻度が中程度のNの値の場合には、send量を−10dBとし、口の開閉頻度が低くNの値が小さいときは、send量を−3dBにしてリバーブを次第に深くする。
あるいは、send量を−5dBに固定した状態で、口の開閉頻度が高いときはディレイタイムを5msとし、口の開閉頻度が中程度のときはディレイタイムを50msとし、口の開閉頻度が低いときはディレイタイムを500msにして、リバーブを次第に深くする。
また、図11(B)のように口が開く極大値から次の極大値までの間隔の平均、すなわち、歌うテンポに応じてディレイタイムを設定する構成にして、音楽業界用語では「プレートタイム」と称するディレイタイムを実現する構成にしてもよい。
【0028】
このように、第1実施形態のカラオケシステムは、マイクロフォン1に収容されて、入力される音声に応じて音声信号を出力するマイク部5と、マイクロフォン1に収容されて歌唱者の口の映像を撮像して画像信号を出力するカメラ部6とを備えている。CPU10は、マイク部5から出力された音声信号とカメラ部6によって出力された画像信号との差分関係を検出して、その差分関係のデータに応じてDSP部18に制御信号を与えて、マイク部5から出力される音声信号に対してエフェクト処理を施す。
したがって、歌唱者の口の動きと歌声の音色との相関性を利用して、実際よりも歌唱力を高めることができる。
【0029】
次に、本発明の第2実施形態について説明する。
図13は、本発明による音声制御装置を用いた第2実施形態におけるカラオケシステムの構成を示すブロック図である。図13において、CPU10は、システムバス11を介して、プログラムROM12、ワークRAM13、スイッチ部14、表示部15、音源16、曲データROM17、A/D変換回路20、および図2に示したカメラ部6に接続されている。CPU10は、システムバス11を介して接続された上記各部との間でデータやコマンドを授受してカラオケシステム全体を制御する。また、図2に示したマイク部5は音声信号をA/D変換回路20に入力する。A/D変換回路20は、その音声信号をアナログからデジタルに変換してDSP部18に入力する。DSP部18の内部構成については、図4に示した第1実施形態と同じである。
このように、第2実施形態におけるカラオケシステムは、第1実施形態の構成とほとんど同じであるが、第2実施形態においては、A/D変換回路20の出力がシステムバス11に接続されている。CPU10は、以下に記載するように、A/D変換回路20から得られる音声信号を取り込んでDSP部18を制御する。
【0030】
図14は、第2実施形態におけるCPU10のメインルーチンのフローチャートである。まず、所定のイニシャライズ(ステップSG1)の後、曲選択の操作に応じて曲選択処理を行い(ステップSG2)、曲スタートキーがオンされたか否かを判別する(ステップSG3)。曲スタートキーがオンされたときは、タイマーをスタートする(ステップSG4)。次に、音声信号のエンベロープの前々回の値をストアするレジスタFFE、および前回の値をストアするレジスタFEをともに0にクリアする(ステップSG5)。さらに、口の開閉の回数を表す変数Nおよび音声信号のエンベロープの山(極大値)の数を表すMをともに0にセットする(ステップSG6)。次に、選択された曲データを曲データROM17から読み出し(ステップSG7)、音源16に送付する(ステップSG8)。次に、カメラ部6からの画像信号に基づいて画像認識処理を実行し(ステップSG9)、A/D変換回路20を介してマイク部5から得られる音声信号に基づいてマイク入力制御処理を実行し(ステップSG10)、DSP制御処理を実行する(ステップSA11)。この後は、曲が終了したか又は停止キーがオンされたか否かを判別し(ステップSA12)、曲の終了でなく、且つ停止キーがオンでない場合には、ステップSG7に移行して曲データの読み出しを繰り返す。ステップSG12において、曲の終了又は停止キーがオンの場合は、ステップSG2に移行して、スイッチ部14の操作に応じて次の曲選択を行う。
なお、このメインルーチンにおいて、ステップSG9の画像処理、およびその画像処理における口認識処理は、図6、図7に示した第1実施形態の画像処理、および図8に示した第1実施形態の口認識処理と同じである。
【0031】
図15は、ステップSG10のマイク入力制御処理のフローチャートである。A/D変換回路20から出力される音声信号のエンベロープを抽出し(ステップSH1)、そのエンベロープ値をレジスタEにストアする(ステップSH2)。そして、Eにストアしたエンベロープ値が所定値より大きいか否かを判別する(ステップSH3)。所定値とは、歌唱者がマイクロフォン1に向かって歌っていないと判断される上限値である。Eのエンベロープ値が所定値より大きい場合、すなわち、歌唱者がマイクロフォン1に向かって歌っていると判断した場合には、FEにストアされている前回のエンベロープ値がFFEにストアされている前々回のエンベロープ値以上であるか否かを判別する(ステップSH4)。FEの値がFFEの値以上である場合には、さらにFEの値がEにストアされている今回のエンベロープ値より大きいか否かを判別する(ステップSH5)。図14のステップSG1のイニシャライズの直後は、FEおよびFFEの値は、ステップSG5において0に初期化されているので、ステップSH6の処理はスキップしてステップSH7に移行するが、このマイク入力制御処理が2回繰り返された後は、FFEに前々回のエンベロープ値がストアされ、FEに前回のエンベロープ値がストアされる。
【0032】
3回目のマイク入力制御処理において、FEの値がEの値より大きい場合、例えば、図17に示すエンベロープの推移で、エンベロープ値が所定値より大きい状態で、FFEの値から上昇してFEの値になり、その後Eの値に下降した場合には、FEのエンベロープは極大値である。すなわち、歌唱者は口を開けて声を発した状態であると判断できる。したがってこの場合には、エンベロープの山を表すMの値をインクリメントする(ステップSH6)。この後、又は、ステップSH5においてFEの値がEの値より大きくない場合、ステップSH4においてFEの値がFFEの値より小さい場合、若しくは、ステップSH3においてEの値が所定値以下の場合には、ステップSH7に移行してFEの値をFFEにストアし、さらに、Eの値をFEにストアする(ステップSH8)。そして、図14のメインルーチンに戻る。
【0033】
図16は、メインルーチンにおけるステップSG11のDSP制御処理のフローチャートである。タイマーがエフェクト処理のインターバルである一定時間をカウントしたか否かを判別し(ステップSJ1)、一定時間をカウントしていない場合にはメインルーチンに戻るが、一定時間をカウントしたときは、Mの値とNの値の差の絶対値を算出してレジスタαにストアする(ステップSJ2)。そして、αに基づいてsend係数を生成する(ステップSJ3)。send係数は、第1実施形態と同様に、図4のDSP部18の帰還部184におけるフィードバック成分(量など)を決定するパラメータである。さらに、αの値に基づいてtime係数を生成する(ステップSJ4)。time係数も、第1実施形態と同様に、DSP部18の遅延部183における遅延時間を決定するパラメータである。次に、生成したsend係数およびtime係数をDSP部18に供給する(ステップSJ5)。この後は、M、Nの値に初期値の0をストアし(ステップSJ6)、タイマーをクリアして再びスタートさせる(ステップSJ7)。そして、図13のメインルーチンに戻る。
【0034】
図18は、音声信号のエンベロープの山の数Mと口の開閉数Nとの差の絶対値であるαに対するDSP部18に対する係数Cdspの特性を示す図である。第1実施形態と同様に、係数Cdspには、DSP部18の遅延部183に対する遅延係数Cdsp(delay time)および帰還係数Cdsp(send)がある。図18に示すように、αの値が大きいほど、どちらの係数も大きくなる。この結果、口をあまり動かさずにムードのある曲を歌っている場合で、音声信号のエンベロープの山を検出したときには、リバーブやエコーを効かせて発音するので、実際よりも歌唱力を向上することができる。逆に、口を頻繁に開けて歯切れよく歌っている人の場合には、元々歌唱力のある人が多いので、リバーブやエコーをカットして音声信号をそのまま出力することで、歌唱力を活かした発音を行う。また、曲の間の間奏部分で口を閉じた状態でハミングやシャウトのように声を出している場合、あるいは、曲のエンディングにおいて口を大きく開けた状態で声を小さくして余韻に浸っている場合には、リバーブを深くしてムードを盛り上げるようなエフェクト処理を行う。
【0035】
具体的には、口の開閉頻度が高い状態(頻度高)、口の開閉頻度が中程度の状態(頻度中)、又は口の開閉頻度が低い状態(頻度低)の3つの場合を、さらに、音声信号のエンベロープが所定値より大きい状態(発生有り)又は音声信号のエンベロープが所定値以下の状態(発生無し)で分類すると、これら6通りの歌唱状態のエフェクト処理の制御目的は下記のようになる。
(1)<頻度高、音声有り:通常テンポの歌声>適度なエフェクト処理
(2)<頻度高、音声無し>声は出ていないので、純粋に伴奏曲だけを聴かせるように、不要部分をカットして聞きやすくするエフェクト処理
(3)<頻度中、音声有り:スローテンポの歌声>響きを深くして雰囲気を盛り上げるエフェクト処理
(4)<頻度中、音声無し>声は出ていないので、純粋に伴奏曲だけを聴かせるように、不要部分をカットして聞きやすくするエフェクト処理
(5)<頻度低、音声有り:ハミングやシャウトの歌声>ゆったりと長く伸ばすようなエフェクト処理
(6)<頻度低、音声無し>声は出ていないので、純粋に伴奏曲だけを聴かせるように、不要部分をカットして聞きやすくするエフェクト処理
この6通りの歌唱状態におけるsend(リバーブ、ディレイ)、リバーブタイム、およびディレイタイムの例を図19に示す。
【0036】
このように、第2実施形態のカラオケシステムは、マイクロフォン1に収容されて入力される音声に応じて音声信号を出力するマイク部5と、マイクロフォン1に収容されて歌唱者の口の映像を撮像して画像信号を出力するカメラ部6とを備えている。CPU10は、マイク部5から出力された音声信号のエンベロープとカメラ部6によって出力された画像信号との差分関係を検出して、その差分関係のデータに応じてDSP部18に制御信号を与えて、マイク部5から出力される音声信号に対してエフェクト処理を施す。
したがって、歌唱者の歌声と歌唱者の口の動きとの差に応じてエフェクトを制御することにより、歌唱者の口の動きと歌声の音色との相関性を利用して、実際よりも歌唱力を高めることができる。
【0037】
なお、上記第1および第2実施形態において、マイク部5から出力された音声信号とカメラ部6によって出力された画像信号との相関性を両者の差分関係としたが、相関性は差分関係に限定されるものでない。
図11に示した口の縦横の比と音声信号の波形データと相関性を検出して、その相関性に対応する制御データをDSP部18に与えて、マイク部5から出力される音声信号に対してエフェクト処理を施すような構成にしてもよい。例えば、縦/横の比が小さく音声信号の波形データの周波数が変動している場合には、口をあまり開けずに声を震わせて歌っている状態である考えられるので、ビブラートを強調したエフェクト処理を施す。あるいは、縦/横の比が大きく音声信号の波形データの周波数が高い場合には、高い声を出そうとがんばって歌っている状態である考えられるので、高音を強調したエフェクト処理を施す。
また、音声信号の複数種類の波形データにそれぞれ対応する画像信号の口の形状のパターンと、各パターンに対応する制御信号のデータとをあらかじめ記憶し、カメラ部6によって出力された画像信号に対応する制御信号のデータを読み出して、その制御信号をDSP部18に与えてマイク部5から出力される音声信号に対してエフェクト処理を施すような構成にしてもよい。
【図面の簡単な説明】
【0038】
【図1】本発明の各実施形態におけるマイクロフォンの外観図。
【図2】図1のマイクロフォンの内部構造を示す図。
【図3】第1実施形態のカラオケシステムの構成を示すブロック図。
【図4】図1におけるDSP部の内部構成を示すブロック図。
【図5】第1実施形態におけるCPUのメインルーチンのフローチャート。
【図6】図5における画像認識処理のフローチャート。
【図7】図6に続く画像認識処理のフローチャート。
【図8】図6における口認識処理のフローチャート。
【図9】図5におけるDSP制御処理のフローチャート。
【図10】第1実施形態における口の両端と上下の4個のポイントの座標を示す図。
【図11】第1実施形態における口の開閉の推移を示す図。
【図12】第1実施形態における口の開閉数に対するDSP部に対する係数の特性を示す図。
【図13】第2実施形態のカラオケシステムの構成を示すブロック図。
【図14】第2実施形態におけるCPUのメインルーチンのフローチャート。
【図15】図14におけるマイク入力制御処理のフローチャート。
【図16】図14におけるDSP制御処理のフローチャート。
【図17】第2実施形態における音声信号のエンベロープを示す図。
【図18】第2実施形態における口の開閉数と音声信号のエンベロープとの差に対するDSP部に対する係数の特性を示す図。
【図19】第2実施形態における口の状態に対するDSP部に対する係数の具体例を示す図。
【符号の説明】
【0039】
1 マイクロフォン
2 マイクカバー
3 透明保護カバー
4 基板
5 マイク部
6 カメラ部
10 CPU
12 プログラムROM
13 ワークRAM
16 音源
17 曲データROM
18 DSP部
20 A/D変換回路
181 エフェクタ
182 信号合成部
183 遅延部
184 帰還部




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013