人間主体の知的情報技術に関する調査研究V

3. 研究開発の新しい展開と内外の動向

3.9 　音楽情報処理研究の新しい潮流

報告者: 平田圭二委員

3.9.1 　はじめに

　本節では、近年の音楽情報処理に関する新しい研究課題の潮流を概観し考察する。その研究課題の特徴は以下の3点にまとめられる。

（1）	音楽理論を援用し音楽の意味を考慮した処理を実現すること。
（2）	ユーザに提供するタスクが作曲、編曲、演奏という大粒度のものから検索、集約、推論という中粒度でより普遍的なものに変化したこと。
（3）	応用システムをインターネット/Web上に展開すること。

　このような傾向が加速される背景には、実用的な音楽応用に対するニーズの高まり、ユーザのライフスタイル変化に伴う音楽応用の在り方の変化、Webを中心とする計算機環境や状況の変化などが影響している。
　以下では、（1）に関連して、計算機への実装に有用な音楽理論を紹介する。この音楽理論は音楽と音楽に対する処理を計算機上のプログラムとして記述できるほどに形式化することが期待される。次に、そのような形式化を前提とすると、音楽知プログラミングという考え方へ発展させることができる。これは（2）に関連して、音楽に対する処理レベルや種類を再考し、より基本的かつ普遍的な枠組みを提供する試みである。最後に、（3）に関連する国際会議を紹介する。

3.9.2 　計算機への実装に有望な音楽理論

　音楽理論とは楽譜に書かれた楽曲を分析、理解するための理論である。10世紀付近よりポリフォニー（多声音楽）^[1]の時代が始まるのに合わせて、音楽理論は作曲の技法として誕生、発展してきた。音楽は一般にメロディ、ハーモニー、リズムの三要素から成ると言われており、それぞれを分析理解するための多くの理論がこれまで提案され、それらがその時代ごとの作曲法や音楽の規範としての機能を果たしてきた[10]。代表的なものとして機能和声法（18世紀）や対位法（17世紀）などが挙げられる。しかし、これらの音楽理論は当然のことならが計算機上への実装を意図して構築されていないため、暗黙的な知識を前提としていたり、記述があいまいであったり、定義が不完全である。そして、前述したように音楽理論は楽曲の分析手順を記述したものであり、合成手順を記述したものではない。さらに、対象としている音楽ジャンルがクラシックのバロックや古典派に限定されている。よって結果的に、計算機上で実用的な音楽応用を作成する際に役立つとは言い難いものとなっている。
　20世紀に入り、より形式的な音楽理論体系の構築を目指す動きが現れる。その先駆けとなったのがSchenker理論である（1906年）[8]。Schenker理論は簡約（reduction）という概念を導入し、西洋調性音楽に馴染んだ聴取者が音楽を理解することとは、すべての上手く作曲された楽曲は簡約して行くとある基本形に到達するということであると主張し、その手順を示した。このSchenker理論をベースにして、のちに楽曲を階層的なグループとして分析、理解しようとする理論Generative Theory of Tonal Music（GTTM）[5]と、楽曲に含まれる音どうしの関係をネットワーク的にとらえるImplication-Realization（IR）モデル[6]が提案される。GTTMとIRモデルが共通して主張しているのは、異なる音楽構造は聴取者に異なる認識を与え、その際聴取者に与える認識には、段落感、終止感、進行感、浮遊感、調性感などがあるということである。それぞれの理論では、そのような認識を支配する重要な音やグループの同定方法が提案されている。ここで注目すべきは、GTTMもIRモデルも芸術性に関する感情や感性については触れていないということと、これらの理論が対象としているプロセスは飽くまで聴取であり作曲、編曲、演奏ではないということである。

3.9.2.1 　GTTMの概要

　GTTMは、音楽に関して専門知識のある聴取者の直観を形式的に記述するための理論としてFred LerdahlとRay Jackendoffにより提唱された。五線譜に記述された楽曲（ホモフォニー）^[2]を表層構造として、それに解釈や分析を加え、そこに内在するさまざまな階層構造を深層構造として顕在化させる。Chomskyの変形生成文法の枠組みにならったと言われている。楽曲を分析する理論はこれまで幾つか提案されているが、その中でもGTTMが最も緻密に構築されており計算機への実装に適しているであろうと考えられている。とは言え、後述するように、それでもまだ計算機上への実装には多大な労力が必要とされる。
　この理論は、グルーピング構造分析、拍節構造分析、タイムスパン簡約（time-span reduction）、プロロンゲーション簡約（prolongational reduction）という4つのサブ理論から構成されている。グルーピング構造分析は、連続したメロディをより短い部分（フレーズ）に分割することである。長いメロディを歌うときにどこで息継ぎすべきかを見つけるような分析である。拍節構造分析は、楽曲の拍（指揮者がタクトを振るタイミング、あるいは聴取者が曲に合わせて手拍子を打つタイミング）を見い出し、さらに4分音符、2分音符、1小節などのレベルにおける強拍と弱拍を同定する分析である。タイムスパン簡約は、あるメロディはそれより長いメロディを簡約化、抽象化することによって得られるという直観を表現したものである。例えば、ある楽曲の全体は最終的にその調の主音に簡約化されると考える。タイムスパン簡約は、グルーピング構造分析と拍節構造分析の結果に基づいて、部分を合わせて全体にまとめあげるという意味でボトムアップに行われる。プロロンゲーション簡約は、曲の進行に関する次の2つの直観を表現したものである。1つは、メロディ中のある音はそれまでの音の繰り返しとしてあるいは次の展開をもたらすために出現しているというものである。もう1つは、メロディの全体や部分は、一般に、緊張と弛緩というパターンを持っているというものである。プロロンゲーション簡約の実行は、タイムスパン簡約の結果に基づいて、トップダウンに行われる。つまり、楽曲中から繰り返し的あるいは展開的に最も重要な音を選び出し、その音を手がかりにして楽曲を分割していく。
楽曲を分析することは、タイムスパン簡約およびプロロンゲーション簡約を行うことである。これらの簡約結果は、各々タイムスパン木およびプロロンゲーション木として表現される。タイムスパン木の例を図 3.9-1に示す。
　GTTMの規則は、分析を進めて木構造を生成するための構成規則（well-formedness rule）と構成規則適用に関する知識である選好規則（preferecne rule）の2種類から成る。
　これらの木が、GTTMの意味で楽曲の深層構造を表現している。人それぞれで楽曲の解釈が異なるように、1つの楽曲には、一般に、複数通りの分析が可能である。これは、GTTMの分析では選好規則による解釈の絞り込みが働いても、タイムスパン木およびプロロンゲーション木が複数通り導かれることに対応する。

図 3.9-1　タイムスパン木の例

3.9.2.2 　GTTM実装の困難さ

　GTTMは音楽理論としては比較的形式的に記述されているものの、そのままプログラムとして実装できるほどには形式化されていない。例えばまず、グルーピング構造分析の次の選好規則を考える。
GPR3: 4つの音符（n1、n2、n3、n4）が連続しているとき、以下の条件が成立すると、n2とn3の間がグループ境界と認識される。

（a）	n2、n3間の音高差がn1、n2の音高差およびn3、n4の音高差よりも大きい。
（b）	音高に関してn2 ≠ n3かつn1 = n2かつn3 = n4.。

　この選好規則だけならプログラム化は容易であろう。しかし、複数の選好規則間で競合が生じているような場合の解決は難しい。実際、グループ境界を判定する規則は音高だけでなく、音量に関しても規定されている。例えば上の例において同時にn3、n4の間で音量に関するグループ境界が認識されているとすると、この4つの音符においてグループ境界の候補はn2、n3の間とn3、n4の間となり競合が生じる。しかしGTTMには選好規則の競合解消に関する規則は不十分（部分的、あいまい）にしか記述されていない。
　またグルーピング構造分析には次のような規則もある。

GPR4:	GPR2、GPR3がより多く成立する境界が、上位レベルでもグルーピング境界になる可能性が高い。
GPR5:	グループを2等分するグルーピングを優先する。
GPR6:	2つ以上の並列した部分（parallel）を含むようなグルーピングを優先する。

　これらの選好規則には、「可能性が高い」、「優先する」という記述が含まれているが、これらの用語をどう解釈すべきかは記述されておらず、このような規則の適切な実装は一般に困難である。現在このような困難さを克服する技術が嘱望されている。
　また、GTTMに関してはAlan RuttenbergによるWeb資料[7]も読みやすいので参照されたい。

3.9.3 　音楽知プログラミング

　GTTMやIRモデルなどの音楽理論による音楽の形式化が実現すれば、その上に構築される処理の枠組みにも変化が生じるであろう。これまで音楽というものは一部の専門家だけが作曲、編曲、演奏などに従事することができ、そうでない人々は単に聴いて楽しむことしかできなかった。しかし計算機による支援が得られるのであれば、一般のユーザでも音楽を自由に処理することが可能となろう。実際、計算機による支援が最も進んでいるのは自然言語の分野であるが、そこでは多くのユーザがさまざまな状況でさまざまなスタイルの文章を自由にやりとりし、コミュニケーションを行っている。音楽に関しても同様の状況が実現できれば、大変有意義なことであると思われる。
　さて、ではどのような方針で一般ユーザの音楽活動を計算機で支援すれば良いのだろうか。先に、音楽理論が目標としているのは、聴取者が認識する段落感、終止感、進行感、浮遊感、調性感などと楽曲構造との関連性の解明であると述べた。このレベルの認識に対応するタスクは、検索、集約、推論などであり、専門家が行う高次の作曲、編曲、演奏というタスクではない。ここで、作曲、編曲、演奏といった専門的なタスクを大粒度のタスクと呼び、検索、集約、推論などのタスクを中粒度のタスクと呼ぼう。すると、専門家は、各自の美的センスや芸術的センスに従って中粒度のタスクを組み合わせて大粒度のタスクを実現していると考えられる。ここで、前節で述べたような音楽理論を援用し、中粒度のタスクを自由に組み合わせる環境を一般のユーザに提供することができれば、一般のユーザも各自のセンスに従って大粒度のタスクを組み上げ、音楽でコミュニケーションを行うことが可能となるだろう。

3.9.3.1 　音楽知とは何か

　コンピュータ上での形式化を前提とし、音楽理論に基づく構造によって意味が与えられている音楽全般に関する知識や知性の集まりは音楽知と呼ばれる[2]。実際、音楽知にはさまざまな形態や抽象度のものがある。五線譜に書かれている楽曲、音楽理論に基づく楽曲の分析結果、教科書で述べられている知識、音楽学から得られた知見や解明された事実、音楽家の頭の中にのみある暗黙的な知識や知性などである。
　音楽知をコンピュータ上で操作する際に考慮すべきは次の3点である。

（1）	音楽知そのものに含まれる規則や構造。
（2）	音楽知に含まれるその構造の表現。
（3）	表現された音楽知に対する演算やアルゴリズム。

図 3.9-2　表層構造、深層構造、意味、主観的印象

　（1）に関しては、前節に述べたような音楽理論に依拠するのが良いだろう。楽曲を五線譜で表す場合、音符や休符などが五線の適切な場所に置かれる。これが人間の目に見える表層のレベルである。例えば和音進行も表層レベルの情報である。しかし五線譜の裏には何らかの音楽的な深層構造が隠されている（図 3.9-2）。
　深層構造を顕在化する基本的な考え方は、楽曲に含まれる個々の音に関してある種のまとまりを見い出すことである。まとまりを見い出すことは一般に、グルーピング、体制化、構造化、関係づけなどと呼ばれる。そして楽曲分析を行い楽曲に含まれる音をグルーピングし深層構造を顕在化させることが音楽理論の役割である。
　人は無意識的、意識的にかかわらずその深層構造の情報も加味して音楽的活動を行っている。これら深層構造と表層構造を合わせて意味が構成される。したがって、音楽知を取り扱うということは、表層構造だけでなく深層構造も含めてコンピュータ上で取り扱うということである。
　主観的印象や情動の取り扱いはまた別の問題である（図 3.9-2）。従来の音楽研究や音楽システム作成では、この主観的印象や情動を音楽知と混同して処理している事例が散見される。例えば「太郎は駅へ向かった」という文を考えてみよう。この文を解釈することにより、太郎という人がどこかの駅へ向かって移動するという文の意味が理解される。次にこのような認識や理解に基づいてこの文を読んだ人には楽しいという情動や悲しいという情動が喚起あるいは連想されるかも知れない。この情動は現段階で体系的に理解できる対象のようには思えない。したがって、自然言語処理では、このように理解された文の意味と喚起・連想された情動は区別して取り扱われる。音楽知を取り扱う場合もこの自然言語処理と同様にまず音楽知とそこから恣意的に喚起・連想される主観的印象や情動を区別し、それぞれの処理手法も区別して考えるべきである。
　音楽はそもそも多角的な意味を持っていると考えられるので、複数の音楽理論を用いて多角的に楽曲分析する方がより直観に合致しているように思われる。そうして、より精密な深層構造を顕在化することで、音楽家やユーザの意図を正確に認識できるようになろう。
　（2）に関しては、人工知能における知識表現技術を応用するのが良いだろう。図 3.9-2の表層構造や深層構造は、コンピュータ上の記号や項として表現される。このとき、知識表現手法に求められるのは、表現すべきことを簡潔に述べられる記述力と正確さである。1階述語論理はこの基準を満たす多くの知識表現言語の基礎を成している。
　（3）に関して、音楽知を表現する記号や項に対して適切で意味のある演算や推論体系を設計しなければならない。例えば、整数を対象とすれば、加減乗除の四則演算で実用上十分な関数が構成できる。あるいは、真偽の値を持つ命題を対象とすれば、論理和、論理積、否定の3種の演算ですべての論理関数が実現できる。同様に、音楽知を表現した記号や項を対象としたとき、どのような種類の演算や推論を用意すれば、すべてのあるいは実用上十分な音楽的な関数が実現できるのだろうか。これは今後解決すべき重要な課題だと思われる。

3.9.3.2 　音楽知をプログラミングする

　ここまでの検討より、音楽知をコンピュータ上の記号や項として表現する手がかりが得られたものとしよう。次に、現実の音楽知を十分直感的に表現する記号や演算を過不足なく用意し、ユーザがそれらを適切に組み合わせる（プログラミングする）方法論を検討する。音楽知プログラミングとは、音楽知を対象とする推論を思い通りに制御し、所望の音楽タスクを実現することである。このような音楽知プログラミング環境が実現できれば、ユーザは所望の音楽システム、アプリケーション、機能を自由自在にデザインできるようになることが期待される。
　音楽的な状況において人が実行しているあらゆる中～大粒度のタスクが音楽知プログラミングの対象となる。例えば、ハーモナイズ、ボイシング、リハーモナイズ、アドリブ、本番演奏のための練習、試行錯誤と自己評価、異なる形式/様式/形態で獲得した音楽知の統合、記憶、連想、学習、適用、データマイニング、音楽的に合理的なUIや可視化、実時間インタラクションなどである。
　音楽知プログラミングは、与えられた基本要素を組み合わせて所望のソフトウェアを構築するという点では従来のプログラミングと同様である。しかし、計算の対象となる音楽知は、1つの表層構造と何種類かの深層構造が組になっている。表層構造が同じでも異なる深層構造を持っている場合がある。したがって、組になっている深層構造とユーザが付与しようとしている深層構造が同じか異なるか、異なる場合はどのように異なるかをプログラミング中に検査、ユーザ提示する手段が必要となろう。
　音楽知プログラミングの特徴は以下のようにまとめられるだろう。

（1）	音楽知を表現する記号や項には、複数の音楽理論に基づく多角的で一貫した意味が多重に付与されている。
（2）	音楽的な意味を反映した基本演算を備えておりその意味は直感的に理解できる。
（3）	楽曲などの表層には（1）で述べたような深層構造（ = 意味）が付与されるが、その（部分的な）深層構造を最初に（自動的に）表層構造に付与し、のちにその深層構造を追加、修正、更新する処理が必要である。

　ここで注意すべきは、プログラミングという作業が成立するための条件である。その最も重要な条件は、どのようなプログラムを書くとどのような結果や振る舞いが現れるのかをユーザが精度良く予測できることである。音楽知プログラミングはこの条件をクリアすることができるであろうか。もちろん、我々はこの条件をクリアすべく音楽知プログラミングの枠組みを構築しなければならない。上の（3）の特徴が従来の情報処理にはなかった新しい課題を提起するのではないかと思われる。

3.9.4 　関連する国際会議

　前述したように、音楽理論への注目や音楽情報処理の新しい枠組みの提案は、音楽応用に対するニーズの高まりがその原動力となっていた。一方、計算機環境の変化が、次世代で必要とされる技術の流れを変える原動力となる場合もある。本節で紹介するWEDELMUSICやISMIRという国際会議は、Internet/Webの出現が引き金となって誕生した音楽関連の研究分野を象徴している。

3.9.4.1 　International Conference on Web Delivering of Music（WEDELMUSIC）

　その発端は1998年に開始されたESPRITプロジェクトであり、その目標は、音楽を創作、出版する人々と、音楽をあらゆる形式で利用する人々の間をインターネットで結び、安全、安心、自由に音楽をやりとりすること、すなわちWebで音楽配信を行うための標準アーキテクチャを提案することである。技術目標として、XMLベースの統一フォーマットの設計、インターネット上のデータ保護技術の開発、さまざまなツール群の開発が掲げられている。現在、音楽配信、音楽記述、応用などのためのフォーマットは乱立しており、XMLに基づくものとそうでないものに大きく分けられる。XMLに基づくものとしてはMusicXML、WEDELMUSICなどがあり、そうでないものとしてはFinale、Sibelius、Score、MML、SMDL、HyTime、MusicTeX、Lilypond、GUIDO、SMFなどがある。このような現状を打開する意図も込められている。
　会議は2001年に第1回目がFirenzeにて開催され、その実行委員長はPaolo Nesi（Firenze大学教授）であった[9]。会議およびプロジェクトの活動母体やスポンサーはヨーロッパ系の大学や企業が中心となっているが、一方ではIEEE CS TC on Computer Generated Musicが後援している。会議の規模は、参加者40名程度、発表件数26件+ワークショップ8件（以下、「+」の後ろはワークショップでの発表）。発表内容は、セキュリティ、透かし6件、楽譜印刷、認識3件+7件、信号処理7件、音楽記述（XML）3件+1件、応用システム作成7件であった。初回の会議のためかWEDELMUSIC規格以外のフォーマットに関する発表も幾つかあった。しかしWEDELMUSIC規格に準拠したツールの紹介にある程度の時間を割くなど、標準化を意識したセッション構成となっていた。

3.9.4.2 　International Symposium on Music Information Retrieval（ISMIR）

　近年の情報検索分野は、Webの検索エンジンというキラーアプリケーションも登場し、非常に隆盛である。そのような流れの中でWeb上に多数置いてある楽曲データ（SMF、AIFF、楽譜エディタのファイルなどの形式）の検索エンジンの研究が技術的にもビジネス的にも有意義であるとの認識から、2000年に第1回（Massachusetts大学）、2001年に第2回（Indiana大学）が開催された[4]。第1回の発表は13件、招待講演、チュートリアル、パネルなどが6件であり、第2回の発表は20件、ポスタが17件という規模である。報告者は実際に会議に参加したことがないので会議自体の雰囲気は不明であるが、発表件数の比率に関して、オーディオデータに基づく音楽検索と記号的な手法に基づく音楽検索では、おおよそ2対3程度のようである。音楽検索以外の発表としては、インデックスに基づく音楽検索、システム実装、標準化などがある。

3.9.4.3 　その他

　その他関連の深い会議として、International Computer Music Conference（ICMC）[3]ではInternet/Webを利用した作曲ツールや合奏システムが発表され、ACM Multimedia[1]では音楽と他メディアとの統合システムやエンタテイメント関連の音楽システムに関する発表が見られる。

参考文献

[1]	ACM Multimedia 2002, http://mm02.eurecom.fr/
[2]	平田圭二: 音楽知プログラミング試論, NTT R&D, 電気通信協会, Vol. 50, No. 9, pp. 682-689 (2001).
[3]	ICMC, http://www.computermusic.org/
[4]	ISMIR, http://ciir.cs.umass.edu/music2000/, http://ismir2001.indiana.edu/, http://ismir2002.ircam.fr/
[5]	Fred Lerdahl and Ray Jackendoff: Generative Theory of Tonal Music, The MIT Press (1983).
[6]	Eugene Narmour: The Analysis and Cognition of Basic Melodic Structures, The University of Chicago Press (1990)
[7]	Alan Ruttenberg: Review and Discussion of A Generative Theory of Tonal Music, http://alanr.www.media.mit.edu/people/alanr/Jackendoff&LerdahlFinal.html
[8]	SchenkerGUIDE, http://www.schenkerguide.com/
[9]	WEDELMUSIC, http://www.wedelmusic.org/
[10]	矢向正人: 言語ゲームとしての音楽, 勁草書房 (2001).

[1]Polyphony。複数の独立した声部を持つ音楽のこと。
[2]Homophony。主声部の旋律に対し簡単な和声的な伴奏を付されたもので、単旋律的に解釈できるような様式。

【次へ】

3.9 音楽情報処理研究の新しい潮流

3.9 　音楽情報処理研究の新しい潮流