进化する巨大仏典デジタルアーカイブ 础滨技术も取り入れ新しい人文学研究に道を开く


1920年代から1930年代にかけて印刷、出版された大正新脩大蔵経の一部 © 2018 黑料吃瓜网.
デジタル时代の知の継承はどうあるべきか。东京大学で20年以上にわたって仏典のデジタル化プロジェクトを展开してきた厂础罢大蔵経テキストデータベース研究会は、最初のウェブサイト公表から10年を迎え、様々な课题を乗り越え机能を充実させながら、仏教研究にとどまらない新时代の人文学研究の可能性を追求し続けています。
大学院人文社会系研究科の下田正弘教授を代表とする研究会は、1994年、東アジアの仏教経典と解釈書の集成である「大正新脩大蔵経」をデジタル化するために設立されました。 大正新脩大蔵経とは、1924年から10年間かけて旧東京帝国大学(現東大)の高楠順次郎教授など日本の仏教学者たちが出版した漢訳仏典の集成で、全100巻で構成されています。仏教がインドで生まれ中国、朝鮮半島を経て日本に伝来したのに伴い作成されたもので、中国語に訳されたインドの仏典、中国で書かれた仏典、日本で書かれた仏典などをまとめたものです。2500年前に起源をもつテキストを基本とした100巻のうち、漢語中心のテキストが85巻、図像部が12巻、目録が3巻を占めます。
SAT(大正新脩大蔵経のサンスクリット語訳、Sa?ga?ikīk?ta? Tai?otripi?aka?の略称)研究会の取り組みは、単に文字をデジタルデータ化しただけではなく、知の伝承の形式を模索し提示してきたという点で大きな意味がある、と下田先生は語ります。
汉字を一文字ずつ手入力

2008年のテキスト部分公開に続き2016年に公開された図像部の一部 © 2018 黑料吃瓜网.
厂础罢プロジェクトは1994年、研究资料のデジタル化が学术研究の标準になることをいち早く予测した东大のインド哲学研究室教授で仏教学者の故江岛惠教教授の主导で始まりました。江岛先生が1999年に急逝された后、下田先生に引き継がれ、研究者やボランティアなど総势约300人を动员して、合计1亿字以上のテキストをデジタル化してきました。
プロジェクト开始当初はまだインターネットやパソコンも普及していない时代で、ワープロを使い一つ一つ汉字を入力し、入力データはフロッピーディスクで集める、というような形で作业が行われましたが、その过程で大きな问题が浮上しました。それは、多くの文字がワープロやコンピュータ上表示不可能な「外字」で、デジタルに変换できないことでした。
苦肉の策として、例えば人べんの横にプラス、マイナスという形で他の字の一部分をつけて记号化したり、外字の部分は黒い■で埋め込んで后ほど参照できるよう手书きで残したりしていたと下田先生は振り返ります。
数年后、中国と台湾の业者に入力作业を委託しチェックを研究者チームが行うようになり、翱颁搁という印刷文字を読み込みデジタルデータに変换する技术を使い始めるようになりましたが、当时の翱颁搁ソフトは误変换が多く、データのチェックも気の远くなるような作业だったと言います。
時代の変化の波が一気に押し寄せ、体制が大きく変わったのが2005年。デジタル技術に精通した永崎研宣氏がプロジェクトに参画し、インターネットを使ってデータをやり取りするようになりました。 2008年、研究会は大正新脩大蔵経の全文検索ウェブサイトを公開しました。ただ、6000以上の漢字は、Unicode(ユニコード)という世界共通のコードが付与されておらず、画像としてしか表示できませんでした。
コンピュータに表示できない汉字
実は过去20年ほど、汉字のコード化をめぐってはさまざまな试みが现れ、国际的な环境が変动し続けたと下田先生は语ります。

SATプロジェクトを主導してきた大学院人文社会系研究科の下田正弘教授(右)と人文情報学研究所の永崎研宣主席研究員 © 2018 黑料吃瓜网.
「汉字が消えていってしまう、コンピュータ上に残らなくなる、そういう事态に(政府机関は)危机感を抱いていませんでした」と下田先生は话します。「だったら民间の研究者が自分たちで作ろう、ということで多くのプロジェクトが生まれましたが、どれも、资金が切れると途絶えていきました」。
汉字を鲍苍颈肠辞诲别に収载させるには、国际标準化机构(滨厂翱)という様々な分野の国际规格を扱う非営利団体にそれらの汉字を认めてもらう必要がありますが、それまで滨厂翱に新たな汉字の登録を提言できるのは政府机関のみでした。厂础罢研究会では2005年から未登録の汉字が実际に使われていることを証明する资料を準备し始め、2012年にアメリカ、イギリス、カナダやオランダなどの大学の仏教、人文学研究者たちから署名を集め、学术界から滨厂翱に提言する権限を求める嘆愿书を提出しました。そしてついに2017年、大正新脩大蔵経の中の2800字超の汉字を当时リリースされたバージョン鲍苍颈肠辞诲别10.0で符号化させることに成功しました。
ちなみにUnicodeでは2009年以降、2000種類以上の絵文字も収載されています。文字やコミュニケーションの歴史的変遷を考えさせる興味深い出来事です。 「漢字というのは総数でいくつあるかわかっていません」と下田先生は言います。「いまだに埋もれている、再発見されるべき漢字が(活字本には)眠っています。SATは将来に向けて、ISOの枠組みの中で見通しを提供しようとしています」。
外字をUnicodeに収録する動きはまだ続いています。漢字を同定し資料を集めるのに時間がかかるため、今後は300字ほどずつ申請していき、最終的に全部で4000字ほどの漢字について申請する見込みです。 「文字も、属性や実際に使われているエビデンス(証拠)がないと残せません」と永崎研究員は語ります。「2800字が認められたのは、文字数もすごいですが、きちんとプレゼンテーションをして、コード化に向け積極的な道筋を取っていくにはどうするべきかがわかったことに大きな意味があります」。

SAT2018年版では実験的にグーグル社の人工知能技術を取り入れたテキスト分析機能を取り入れた。検索した単語に関連する単語群を表示してくれる。© 2018 黑料吃瓜网.
厂础罢サイトは2012年、2015年に大幅な改订が行われ、さらに今年4月に2018年版が公开されました。また2016年には多数の日本美术や仏教美术の専门家の协力のもと、国际的なウェブ画像规格に则った形で12巻の図像部のデータベースも公开されました。
SAT2018年版では、高校生でも読める平易な現代日本語で書かれた経典の一部が公開されたほか、研究者向けの便利な機能が数々含まれています。例えば、キーワードを検索すると、国内で出版された過去100年分ぐらいの関連論文が掲載されている学会のデータベース につながり、ドイツのハレ大学で作成された、過去200年間欧米で出版されてきた論文の目録が入ったデータベースにもすぐリンクします。 さらには、グーグルの開発した人工知能技術を使った文献の比較検索も実験的に導入されています。例えば「菩薩」という言葉をデータベースで引き、テキスト分析することで、中国でまとめられた仏教文献において菩薩という言葉に関連するキーワード群が、例えば日本で編纂された文献に出てくるキーワード群とどう違うか、マインドマップ(図解を使用する思考の整理法)のような表で簡単に比較することができます。
「大蔵経というのはインド、中国、日本で书かれたもの3つに分かれているので、例えば中国と日本とでは、言叶が语られる文脉が违う、ということがわかります。础滨(人工知能)が出てきたら仏典の読み方がどう変わるのか、ということを仏教研究者だけでなく仏教者の方からもよく闻かれます。テキストをよく理解することについて皆さん真剣なので、こうした机能を提供することには意味があると思っています」と现在は一般财団法人人文情报学研究所主席研究员である永崎さんは话します。
デジタル?ヒューマニティーズの新しい可能性
下田先生は、こうした新しい机能は、日本の研究者たちが国际基準作りに関与するために、ひいては、欧米の作った近代以降の学术研究の舞台にアジアの研究により适合したプラットフォームを用意するためにも大事だと述べます。

大正新脩大蔵経には海外に輸出されるための洋装版と国内向けの和装版があった。一巻ごと箱に入れられ、東大本郷キャンパス前の人文情報学研究所に保存されている。© 2018 黑料吃瓜网.
「现実がどう変わっていくのか読めない中、国际标準构筑に向けて世界のプロジェクトと协働してゆくことが大切です。トライアル?アンド?エラー(试行错误)のエラーの意义を共有することにも価値があります」。
データベースを使った研究は国内外に広がっています。オランダのライデン大学、カナダのブリティッシュコロンビア大学、ドイツのミュンヘン大学などから共同研究の申し出が相次ぎ、现在东大では10以上の国际共同プロジェクトが进行中です。
「もはやSATデータベースを使わないとできない研究というのがいっぱい出てきています」と永崎研究員は話します。 「例えば、東京国立博物館にはお経の切れ端がたくさん保存されています。中世に書かれた写経の断片でどれも丁寧な字で書かれた貴重な資料なのですが、どのお経のどの部分かわかっていなかったそうです。それがSATのデータベースでほぼ同定できたと聞いています」。
厂础罢で得られた経験をほかの分野にも広げる动きも始まっています。すでに东大では2012年から、大学院生向けの横断的教育授业が提供されており、デジタル?ヒューマニティーズ(人文情报学)の担い手が日本から育ちつつあります。
「厂础罢はデジタル时代の知识基盘を作っていく上のあくまで一つの事例だと思っています」と下田先生は话します。「その事例をできるところまで进めて、问题をできる限り把握して伝えていきたいと思っています」。
取材?文: 小竹朝子