米国特許情報 | 欧州特許情報 | 国際公開(PCT)情報 | Google の米国特許検索
 
     特許分類
A 農業
B 衣類
C 家具
D 医学
E スポ−ツ;娯楽
F 加工処理操作
G 机上付属具
H 装飾
I 車両
J 包装;運搬
L 化学;冶金
M 繊維;紙;印刷
N 固定構造物
O 機械工学
P 武器
Q 照明
R 測定; 光学
S 写真;映画
T 計算機;電気通信
U 核技術
V 電気素子
W 発電
X 楽器;音響


  ホーム -> 楽器;音響 -> ヤマハ株式会社

発明の名称 オーサリング装置およびオーサリングプログラム
発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2007−33833(P2007−33833A)
公開日 平成19年2月8日(2007.2.8)
出願番号 特願2005−216542(P2005−216542)
出願日 平成17年7月26日(2005.7.26)
代理人 【識別番号】100111763
【弁理士】
【氏名又は名称】松本 隆
発明者 谷口 宏
要約 課題
楽曲データの編集を行う際、素材とする音声データの符号化のためのパラメータを自動的に設定することができるようにする。

解決手段
周波数解析処理11では、素材となる音声データ63全体の周波数特性を求め、データ量算出処理12では、この周波数特性のデータ量を複数の周波数帯域別に求める。パラメータ設定処理13では、周波数帯域別のデータ量に基づき、符号化に関する要求品質を判断し、その要求品質に対応して用意された符号化用パラメータを符号化処理14のために設定する。
特許請求の範囲
【請求項1】
素材となる音声データ全体の周波数特性を求める周波数解析手段と、
前記周波数特性のデータ量を複数の周波数帯域別に求めるデータ量算出手段と、
前記周波数帯域別のデータ量に基づき符号化用パラメータを決定し、前記音声データの符号化を行う符号化手段に設定するパラメータ設定手段と
前記符号化手段による前記音声データの符号化の結果得られる符号化データを用いて、前記音声データの再生を指示するシーケンスデータを編集する編集手段と
を具備することを特徴とするオーサリング装置。
【請求項2】
前記符号化用パラメータは、ビットレートまたは符号化の対象とする周波数帯域を指定するパラメータを含むことを特徴とする請求項1に記載のオーサリング装置。
【請求項3】
コンピュータに、
素材となる音声データ全体の周波数特性を求める周波数解析処理と、
前記周波数特性のデータ量を複数の周波数帯域別に求めるデータ量算出処理と、
前記周波数帯域別のデータ量に基づきエンコード用パラメータを決定し、前記音声データのエンコードを行うエンコーダに設定するパラメータ設定処理と
前記エンコーダによる前記音声データのエンコードの結果得られるエンコードデータを用いて、前記音声データの再生を指示するシーケンスデータを編集する編集処理と
を実行させることを特徴とするオーサリングプログラム。
発明の詳細な説明
【技術分野】
【0001】
この発明は、楽曲データの編集に用いられるオーサリング装置およびオーサリングプログラムに関する。
【背景技術】
【0002】
アミューズメント機器等の音源に効果音や楽音を発生させる楽曲データを編集するオーサリング装置が知られている。この種のオーサリング装置は、楽曲の素材となる効果音や楽音などの音声データを各種記憶している。そして、ユーザによって所望の音声データを選択する操作が行われると、オーサリング装置は、その音声データを符号化して符号化データを生成する。また、ユーザが、所望の音声データの再生タイミングを指示する操作を行うと、その再生タイミングを示すタイミングデータを生成する。オーサリング装置は、このようにして得られる符号化データとタイミングデータとからシーケンスデータである楽曲データを編集し、ユーザに提供する。なお、この種のオーサリング装置は、例えば非特許文献1に開示されている。
【非特許文献1】ヤマハ株式会社 YMZ773,YMZ775オーサリングツール AS−AMMS2 for Windows(登録商標) オペレーションマニュアル Version 3.4.1 2004年12月発行
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、音源において再生する際の音質を良好なものにするためには、楽曲データの編集時、音声データから符号化データを得る際、元の音声データの持っている情報が損なわれない高品質の符号化を行う必要がある。しかし、素材として用いる音声データの中には、高品質の符号化を行うことにより再生時の音質が際立って良好になるものもあれば、そのような効果を期待することができないものもある。例えば、音声データのスペクトルが低域から中域に集中しており、高域成分が殆どない場合に、高域を符号化の対象に含めるようなパラメータ設定を行って符号化を行ったとしても、符号化データの再生時の音質向上は期待できない。従って、編集に用いる全ての音声データについて、画一的に高品質の符号化を行うのは、徒に楽曲データのデータ量を増大させるだけであり、得策ではない。このため、従来のオーサリング装置による楽曲データの編集においては、素材とする音声データを音源に与えて再生させ、その再生音の試聴結果に基づいて、音声データの符号化のパラメータを決定する、という煩雑な作業が必要であった。
【0004】
この発明は、以上説明した事情に鑑みてなされたものであり、楽曲データの編集を行う際、素材とする音声データの符号化のためのパラメータを自動的に設定することができるオーサリング装置およびオーサリングプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
この発明は、素材となる音声データ全体の周波数特性を求める周波数解析手段と、前記周波数特性のデータ量を複数の周波数帯域別に求めるデータ量算出手段と、前記周波数帯域別のデータ量に基づき符号化用パラメータを決定し、前記音声データの符号化を行う符号化手段に設定するパラメータ設定手段と、前記符号化手段による前記音声データの符号化の結果得られる符号化データを用いて、前記音声データの再生を指示するシーケンスデータを編集する編集手段とを具備することを特徴とするオーサリング装置およびコンピュータをこのオーサリング装置として機能させるオーサリングプログラムを提供する。
かかる発明によれば、音声データの周波数解析結果に基づいて符号化用パラメータが自動的に設定される。従って、ユーザは、符号化用パラメータを自ら設定する煩わしさから解放される。
【発明を実施するための最良の形態】
【0006】
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態であるオーサリング装置の構成を示すブロック図である。このオーサリング装置は、パーソナルコンピュータなどのコンピュータに対し、オーサリングプログラムをインストールしたものである。
【0007】
図1において、CPU1は、このオーサリング装置の各部を制御する制御中枢である。ROM2は、ローダなど、このオーサリング装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部3は、装置の動作状態やユーザに対するメッセージなどを表示するための装置である。操作部4は、ユーザからコマンドや各種の情報を受け取るための手段であり、キーボードやマウスなどの各種の操作子により構成されている。I/F(インタフェース)群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスク、CD−ROMなどの外部記憶媒体との間でデータの授受を行うためのドライバなどにより構成されている。HDD(ハードディスク装置)6は、各種のプログラムやデータベースなどの情報を記憶するための不揮発性記憶装置である。RAM7は、CPU1によってワークエリアとして使用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令に従い、HDD6内のプログラムをRAM7にロードして実行する。音源8は、CPU1による制御の下、音声信号を形成する音源である。音源8により形成される音声信号は、スピーカ9から音として出力される。
【0008】
HDD6に記憶される情報として、オーサリングプログラム61と素材データベース62とがある。ここで、オーサリングプログラム61は、楽曲データを編集するためにCPU1によって実行されるプログラムである。また、素材データベース62は、各種の音声データ63の集合体である。各音声データ63は、楽曲の素材となる効果音や楽音の波形をサンプリングして得られる非圧縮のPCMサンプルデータのファイル(例えばWAVファイル)である。好ましい態様において、オーサリングプログラム61と素材データベース62は、例えばインターネット内のサイトからI/F群5の中の適当なものを介してダウンロードされ、HDD6にインストールされる。また、他の態様において、オーサリングプログラム61と素材データベース62は、CD−ROM、MDなどのコンピュータ読み取り可能な記憶媒体に記憶された状態で取引される。この態様では、I/F群5の中の適当なものを介して記憶媒体からオーサリングプログラム61と素材データベース62が読み出され、HDD6にインストールされる。
【0009】
オーサリングプログラム61は、ユーザによる操作部4の操作に従い、楽曲データ71をRAM7内の作業エリアに生成する。さらに詳述すると、オーサリングプログラム61は、素材となる音声データ63の選択画面やタイミングデータの入力画面などのGUI(グラフィカルユーザインタフェース)を表示部3に表示させる。ユーザは、表示部3の表示画面を確認しつつ操作部4を操作して、音声データ63の選択やタイミングデータの入力を行うことができる。選択された音声データ63は、所定の音源を想定した符号化アルゴリズムにより符号化され、楽曲データ71に組み込まれる。従来の技術の下では、ユーザの操作によりこの符号化のためのパラメータの設定を行う必要があった。これに対し、本実施形態におけるオーサリングプログラム61は、素材である音声データ63の周波数解析を行い、その結果を利用してこのパラメータの自動設定を行う動作モードを有している。ユーザはこの動作モードを選択することにより、自ら音声データを音として試聴して符号化のパラメータを決定しなければならない煩雑さから解放される。本実施形態の特徴は、このオーサリングプログラム61が有する符号化のためのパラメータの自動設定機能にある。なお、この機能の詳細については、説明の重複を避けるため、本実施形態の動作説明において明らかにする。以上が本実施形態に係るオーサリング装置の構成の詳細である。
【0010】
次に本実施形態の動作を説明する。CPU1は、操作部4を介して所定の指示が与えられることにより、HDD6内のオーサリングプログラム61をRAM7にロードして実行する。図3はこのオーサリングプログラム61を構成する主要な処理を示している。図3に示すように、オーサリングプログラム61は、編集処理10と、周波数解析処理11と、データ量算出処理12と、パラメータ設定処理13と、符号化処理14とを有している。なお、この例では、符号化処理14はオーサリングプログラム61の一部をなしているが、オーサリングプログラム61自体には符号化処理14を含めず、外部の符号化プログラムやエンコーダに符号化処理14を実行させるようにしてもよい。
【0011】
編集処理10では、素材データベース62内の各種の音声データ63のメニューを表示部3に表示し、操作部4のマウス操作などにより音声データ63が選択されると、その音声データ63をRAM7内のバッファ20に取り込む。この状態において、ユーザは、操作部4の操作により試聴指示を入力することができる。この場合、編集処理10では、バッファ20内の音声データ63を音源8に転送し、その再生を行わせる。ユーザは、この再生音を確認することにより、バッファ20内の音声データ63を符号化して楽曲データ71内に組み込んでよいか否かを判断することができる。音声データ63を符号化して楽曲データ71内に組み込む場合、ユーザはビットレートなどの符号化のためのパラメータを操作部4の操作により入力することもできる。しかし、上述したパラメータの自動設定を行う動作モードを操作部4の操作により選択した場合には、ユーザは、単に符号化の指示を操作部4により入力すればよい。この場合、以下説明する各処理が順次実行され、これにより、符号化のためのパラメータが自動的に設定されて音声データ63の符号化が行われ、この結果得られる符号化データ30が楽曲データ71に組み込まれる。
【0012】
まず、周波数解析処理11では、バッファ20内の音声データ63のFFT(高速フーリエ変換)が実行され、音声データ63の各フレームについてのFFT処理結果が集計され、音声データ63の全フレームを通じての平均的な周波数特性が求められる。
【0013】
次に、データ量算出処理12では、このようにして求められた周波数特性のデータ量を複数の周波数帯域別に求める。図2はこのデータ量算出処理12の処理内容を示すものである。図2において、横軸は周波数、縦軸は音声データ63全体を構成するスペクトルの振幅値を示しており、曲線Cは、周波数解析処理11により得られた周波数特性の例を示している。データ量算出処理12では、周波数解析の周波数範囲内に低域、中域、高域を設定する。一例を示すと、周波数解析の周波数範囲は100〜20000Hz、低域は100〜300Hz、中域は1000〜3000Hz、高域は9000〜20000Hzである。そして、データ量算出処理12では、低域、中域、高域の各帯域内における周波数特性曲線Cの積分値、すなわち、斜線を施した部分の面積Sa、Sb、Scを各帯域に属する音声データ63のデータ量として算出する。
【0014】
次に、パラメータ設定処理13では、このようにして得られた帯域別のデータ量に基づき、符号化に関する要求品質を決定し、符号化処理14のためのパラメータとして、この要求品質に見合った最適なパラメータを決定する。一例を挙げると次の通りである。まず、パラメータ設定処理13では、データ量算出処理12により得られた低域、中域、高域の全データ量Sa+Sb+Scを求め、各帯域のデータ量のこの全データ量に占める割合を求める。そして、高域のデータ量の全データ量に占める割合Sc/(Sa+Sb+Sc)が25%以上である場合、要求品質は高品質であると判断する。また、高域のデータ量の全データ量に占める割合Sc/(Sa+Sb+Sc)が25%以下であり、かつ、中域のデータ量の全データ量に占める割合Sb/(Sa+Sb+Sc)が25%以上である場合には、要求品質は中品質であると判断する。そして、高域のデータ量の全データ量に占める割合Sc/(Sa+Sb+Sc)が25%以下であり、かつ、中域のデータ量の全データ量に占める割合Sb/(Sa+Sb+Sc)が25%以下である場合には、要求品質は低品質であると判断する。
【0015】
次に、このようにして決定した要求品質に基づき、例えば次のようにパラメータを設定する。
ビットレート 周波数帯域数 ステレオモード
高品質 112kbps 30 高品質(ミックスなし)
中品質 96kbps 25 中品質(ミックス度小)
低品質 80kbps 20 低品質(ミックス度大)
ここで、ビットレートは、符号化処理14により生成する符号化データのビットレートである。周波数帯域数は、符号化の対象とする周波数帯域の個数を指示するパラメータである。さらに詳述すると、符号化処理14では、音声データ63の周波数解析を行い、周波数解析を行った全周波数帯域を複数の帯域(例えば30個の帯域)に分割し、そのうち、この周波数帯域数に相当する個数の帯域を低域側から順に選択し、それらに属するスペクトルの符号化を行う。すなわち、周波数帯域数が30個に満たない場合には、その分だけ高域のスペクトルが符号化の対象から除外されるのである。従って、この周波数帯域数が多い場合には、符号化データのデータ量は多くなるものの、その再生時の音質は高くなり、逆に周波数帯域数が少ない場合には、高域での再生音質は低下するが、その代わりに符号化データのデータ量は少なくて済む。ステレオモードとは、左右のチャネルのものとして扱うべき音声情報の一部をモノラルとして取り扱うミックスの程度を指定するパラメータであり、このパラメータにより、符号化データを音声として再生するときのステレオ解像度を調節することができる。ここで、ミックスの程度を大きくすると、符号化データの再生時、ステレオ解像度が低下し、音像の広がり感は低下するが、符号化データの圧縮率を高めることができる。
【0016】
符号化処理14では、このようにして決定されたパラメータを用いて、バッファ20内の音声データ63の符号化を行う。そして、編集処理10では、この符号化処理14により得られる符号化データ30を楽曲データ71に組み込む。
【0017】
以上のように、本実施形態によれば、楽曲の素材となる音声データを符号化するためのパラメータが音声データの周波数解析を通じて自動的に設定される。従って、ユーザは、音声データを再生して視聴し、自ら符号化のためのパラメータを設定する煩わしさから解放される。また、本実施形態によれば、音声データの周波数解析結果を客観的な基準に照らして符号化の要求品質を選択し、その要求品質に予め対応付けられたパラメータを選択する、という手順により符号化のためのパラメータ設定を行うので、要求品質の判断に関して恣意性を排除し、バランスのとれた楽曲データの編集を行うことができる。
【0018】
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
(1)パラメータ設定処理13において、例えば高域のデータ量が極端に多く、高域用に用意されたパラメータを用いても充分な品質の再生音が得られない場合には、例えば適切なメッセージを表示部3に表示し、操作部4の操作によりパラメータをマニュアル設定する旨をユーザに促すように構成してもよい。
(2)上記実施形態では、符号化の要求品質を高品質、中品質、低品質の3品質に分けたが、品質の数はこれより少なくてもよく、多くてもよい。あるいは、要求品質を2つに分ける動作モード、3つに分ける動作モード、4つに分ける動作モードなど、複数の動作モードを設け、それらのうち1つの動作モードをユーザに選択させるようにし、各動作モードでは予め各品質に対応付けて用意された符号化のパラメータの中から、音声データの周波数解析結果に基づいて決定された要求品質に対応したものを選択するように構成してもよい。
【図面の簡単な説明】
【0019】
【図1】この発明の一実施形態であるオーサリング装置の構成を示すブロック図である。
【図2】同実施形態におけるデータ量算出処理の内容を説明する図である。
【図3】同実施形態におけるオーサリングプログラムの処理内容を示す図である。
【符号の説明】
【0020】
1……CPU、6……HDD、61……オーサリングプログラム、62……素材データベース、7……RAM、10……編集処理、11……周波数解析処理、12……データ量算出処理、13……パラメータ設定処理、14……符号化処理、63……音声データ、30……符号化データ。




 

 


     NEWS
会社検索順位 特許の出願数の順位が発表

URL変更
平成6年
平成7年
平成8年
平成9年
平成10年
平成11年
平成12年
平成13年


 
   お問い合わせ info@patentjp.com patentjp.com   Copyright 2007-2013