1990年代に入ってからのインターネットの爆発的な広がり、また全米情報基盤(National Information Infrastructure, NII)と世界情報基盤(Global Information Infrastructure, GII)の重要性の認識等により、ネットワーク上での情報資源の開発と情報アクセス環境の実現への投資が進められてきている。こうした環境下でディジタル図書館(Digital Library, DL)の重要性が認められ、わが国を含めアメリカを中心として世界各国で盛んに DL の研究開発プロジェクトが進められている。本稿では、海外で進められている DL に関するさまざまな活動の特色をアメリカを中心として紹介し、さらに必要とされる研究開発の課題について提案したい。
ディジタル図書館に関するプロジェクトは以下のように大別できる。
(1)図書館(および美術館、博物館)を中心とする資料のディジタル化を中心としたディジタルコレクション開発プロジェクト。
代表的なものに、歴史資料を集めているアメリカ議会図書館(Library of Congress, LoC)のAmerican Memory、議会情報を提供するLoCのTHOMAS、雑誌記事の大きなディジタルコレクションを作成しているJSTOR、アメリカ建国当時の文学作品の電子テキストを集めるヴァージニア大学のEarly American Fiction(EAF)プロジェクトなどがある。これらはいずれも既存の資料(議事録のように新たに作り出されるものも含めて)を電子化し、ネットワークを介して提供しようとするものである。利用形態はさまざまであり、American MemoryやTHOMASのようにインターネットで自由にアクセスでき、JSTORでは契約した図書館を介して利用者に提供している。EAFでは電子テキストの経済モデルを実験することを含めてプロジェクトを進めている。また、アメリカでは電子図書館間の協力のためにNational Digital Library Federation(NDLF)を設け、ディジタル図書館の推進のために協調する場を設けている。
(2)新しい情報技術の研究開発を目的としたもの。
代表的なものにNSF、NASA、DARPAが共同助成をしたDigital Library Initiative(DLI、1994年−1998年)がある。ミシガン大学ほか6大学で進められたDLIは1998年秋に終了し、新たに第2段階の助成(DLI2)が予定されている[DLI2]。DLI2では先の3機関に加えて議会図書館、医学図書館(National Library of Medicine)、人文基金(National Endowment for Humanities)も助成機関として参加予定である。NSFはERCIM(European Research Consortium on Informatics and Mathematics)と共同してディジタル図書館に関連する多言語情報アクセスやメタデータ等の分野での重要なトピックを考えるワーキンググループを作っている[NSF-EU]。新しい情報環境の登場によって人間の知的作業形態が変化し、知識や情報へのアクセス方法が変わってきた。こうした背景の下、NSFは1998年からKDI(Knowledge and Distributed Intelligence)と呼ばれる大規模な研究助成プログラムを開始する。KDIでは世界に広がる巨大な分散環境における人間の知的活動に関する理解を深め、知的活動環境を高めるためのさまざまな要素技術、利用環境、方法論、人間的要素等に関する先端的研究の推進をめざしている[KDI]。
(3)メタデータに関する研究開発。
メタデータ、すなわちデータに関するデータは大きな情報空間の中での情報アクセスのために重要な役割を果たす。カリフォルニア大学サンタバーバラ校のAlexandriaプロジェクトではGazeteerと呼ぶ地理情報のメタデータ、ミシガン大学のUMDLプロジェクトでは知的エージェントによる検索のためのConspectusと呼ぶメタデータ、スタンフォード大学のInfobusプロジェクトでは個々の資料だけではなくデータベース全体に関するメタデータ等の研究が進められた。一方、1995年頃からインターネット上の情報資源の発見(resource discovery)に用いるメタデータとしてDublin Core Metadeta Element Set(Dublin Core)の開発が進められてきた[DC]。これはインターネット上にある多様な資源情報に共通な情報を表すための基本項目を決めたものであり、最近ではネットワーク上の資源のみならずオフライン情報資源の検索のために利用することも提案されている。また、World Wide Webコンソーシアム(W3C)では、多種の基準によるメタデータ記述のための基本的枠組みを与えるResource Description Framework(RDF)や、WWWで提供される資料内容の評価付け情報を表すPlatform for Internet Content Selection(PICS)等の検討が進められている。
「今までの図書館でも十分に利用できるのになぜ莫大なコストをかけてディジタル図書館を開発する必要があるのか」という問いはごく自然なものである。この問いに対する答えは立場によっていろいろであろうと思われるが、いくつかの典型的と思われるものには以下のようなものがある。
ディジタル図書館の研究開発には、ネットワーク基盤、データベース基盤に関わる技術から、自然言語処理、マルチメディア情報処理、ユーザインタフェース等のより人間に近い分野の情報技術までさまざまな情報技術を総合することが必要とされている。現在の情報技術では十分な能力を持ったディジタル図書館がすぐにでき上がるとは考えにくい。また、ディジタル図書館の実現のために必要とされる技術やノウハウは、いわゆる図書館のみならず、電子商取引、社会的観点から見た情報環境、知的財産権やコンテンツ選択など広い分野に関連し、長期にわたる研究開発が必要な分野であると思われる。
ディジタル図書館、あるいはより広い意味で、知的作業環境に関してどのような研究が行われようとしているのかを示すため、下記に、先に示したNSF-ERCIM共同のプラニングワーキンググループとDLI2を簡単に紹介する。
NSF-ERCIMのワーキンググループは、下記の5つのトピックに対して組織されている。
DLI2は1998年秋から助成を始めるもので最長5年間、助成額は5年間で4000ないし5000万ドルである。また、人間の情報アクセスを助けるさまざまな技術(Human Cetered Research)とディジタル図書館を支えるいろいろなシステム技術(System Centered Research)の研究、適切なサイズのコレクションを持つテストベッド開発とその応用(Testbeds and Applications)、大学学部レベルでの教育におけるテストベッドと応用の計画(Planning Testbeds and Applications for Undergraduate Education)を柱として、助成を進める。
将来の情報アクセス行動は、従来のように特定のデータベースで情報を検索するというのではなく、ネットワーク(インターネットあるいはいろいろなイントラネット)から情報を得ることになる。現在のインターネット上の情報アクセスは利用者自身の情報アクセス技能に拠るところが大きい。しかしながら、将来は誰もが必要な情報をできるだけ容易に見つけられる環境を実現していくことが必要である。また、ネットワークは個人による情報アクセスばかりではなく、グループによる情報アクセス、あるいはグループないでの情報共有、個人あるいはグループによる情報発信等、広く人間の知的作業基盤としてとらえる必要がある。また、この知的作業基盤は言語や文化の壁を越えて利用できるものになる必要がある。
こうした知的作業基盤の実現には、
といった情報技術の研究開発は、
といったコンテンツ寄り、利用者の現場寄りな観点から情報技術研究のための環境を作ることが必要である。また、言語や文化の壁を越えた知的作業基盤のためには国際間での協調的な研究開発が必要とされる。以下、筆者が重要と考える点について述べる。
(1)実用および研究に利用できる電子化情報資源の開発
自然言語処理の研究にコーパスや辞書、シソーラスが欠かせないのと同様に、ディジタル図書館あるいはネットワーク上での情報アクセス環境を研究するのに、内容の分かった、かつ内容に信頼の置ける情報資源(データベース)が必要である。無償、あるいは限られた予算でも利用でき、かつ研究者が知的財産権問題にわずらわされずに研究に利用できる情報資源を準備することが重要である。(これは、かならずしも著作権が無い資料のことを意味するのではなく、簡単な手続きで利用できるものであればよい。)
また、情報資源は既存のものと新規に開発するものが考えられる。新規情報資源の蓄積には時間がかかるが、それらが将来長期にわたって利用および再利用できることを前提に蓄積を進めることが必要であろう。さらに、単に蓄積するだけではなく、利用促進のための適切な組織化とそれに関する情報の提供、およびトレーニングの機会の提供なども“情報アクセス環境の底上げ”のために重要であると考えられる。
(2)メタデータ
ネットワーク上には形態、内容ともに多種多様な情報資源が提供される。情報資源へのアクセスには目録や索引、抄録といったさまざまなメタデータが必要である。しかしながら、情報資源の種類があまりに多様であるため、すべての種類の資源を詳細に表すことのできる単一のメタデータ基準を定義することは困難である。また、ネットワーク上の大量の資料に関するメタデータを人手で記述することも困難である。そのため、多様な資料に共通な性質のみを定義したDublin Coreのような簡潔なコアメタデータの重要性が増すことか予想される。コアメタデータに関して重要と思われる点を列挙する。
境界領域や複合領域の検索、あるいは複数の言語にまたがる検索の場合、同じ意味が異なる表現で表されることや同じ表現が違う意味に使われることがある。また、情報専門家は意味が明確に定義されたControlled Vocabularyを使うことができるが、そうでない人(例えば、資料の著者自身)がメタデータを記述する場合は自由な表現、すなわちNon-Controlled Vocabularyで記述する場合が多い。こうしたVocabularyの間のマッピング、あるいは検索対象に合わせたVocabularyの自由なスイッチングが要求される。
今後、既存の情報資源、新しい情報資源を問わずネットワーク上への提供がますます進んでいくことは疑えない。そうした情報資源へのアクセス性を高める上でも、メタデータに関する大規模な取り組みをしておくことが、将来の情報アクセス環境の構築に欠かせないと考えられる。
(3)多言語情報アクセス
インターネット上の事実上の共通語は英語である。多くの資料が日本語のみで記述されるわが国では、情報の輸出入のアンバランスがよく言われる。また、我々にとって外国語(特に英語以外)の資料からの情報入手は容易ではない。特に、わが国を含むアジア・太平洋地域には非常に多くの言語があり、かつ今後の経済交流、文化交流の発展を考えると、ネットワーク上での多言語情報アクセス環境は非常に重要な要素であると考えられる。
多言語情報アクセスには自然言語処理技術と情報検索技術、情報抽出技術等を組み合わせることが要求される。また、入出力なしに情報にアクセスすることはできないので、多言語文書の表示、入力技術が重要である。さらに多言語環境を指向した協調作業環境技術、ユーザインタフェース技術も重要である。
世界全体を瞬時に結びつけることのできるネットワーク上で大量の情報を発信し、蓄積し、アクセスし、共有することは人類にとっては未経験のことである。本稿で述べたようにディジタル図書館の研究開発はいろいろな観点から進められている。これらに共通する点は、人間の行うさまざまな知的活動を支える環境を作り上げるための情報基盤作りを目指している点であると考えられる。こうした情報基盤作りには、情報技術と(メタデータを含む)コンテンツの両方を視野に入れた研究開発が非常に重要であると考えられる。
<参考資料(URL)>