結構微妙な基本古籍庫
中国基本古籍庫、お値段RMB1,000,000、20億字検索があっという間。昨日、東方教主のところでチト使わせてもらってきました。いや~、用例検索では流石に無類の強さを発揮しますなあ。
しかしコレ、よくよく見てみると、結構微妙ですねえ。
しかしコレ、よくよく見てみると、結構微妙ですねえ。
コレは、もともと、
- 一般的な通行本をテキスト化して全文検索
- 重要版本を一・二種画像データで収録
ってことになってます。これ自体は、悪い方式ではないと思います。が、『基本古籍庫』の検索に使われる通行本をテキスト化した部分は、かなり危険な問題が潜んでいます。
まず、冊子の底本一覧が画像版の版本のやつしか付いておらず、テキスト部分のは無い。だから、文献リストや検索結果などの表示画面でその都度確認しなくてはならない。事前に、心と体と資料の準備ができないわけですな。
さら~に問題なのが、これ、底本の忠実なデジタル化じゃない、ってところ。寨主が一番よーくわかってる、焦循『劇説』を例に挙げます。
『劇説』の底本は、国家図書館蔵稿本です。『劇説』の有力な版本としては、他に『読曲叢刊』本があります。両者の最大の差異は、巻首の引用書目にあります。『読曲叢刊』では巻首に引用書名と作者を列挙していますが、稿本にはそれが無く、代わりに本文中の引用書名の前に作者名を挙げています。
『基本古籍庫』の『劇説』は、稿本を底本としています。ですから、巻二の終わりの方の記事を例にとると、
張志淳《南園漫錄》云
(括弧筆者)このように、『読曲叢刊』本には無い、張志淳という著者名が入っています。ここから、『基本古籍庫』の底本が稿本であることが確認されます。
ところが、以下の図のような箇所があります。

傍線は筆者です。以下も同じ。
左のテキストデータの強調部分は「西閣偶談」になっていますが、左の稿本の画像では、上に「喬鐸不離」の四文字が入っているのがわかります。で、『読曲叢刊』のこの部分はと言えば、

一目瞭然、「西閣偶談」だけです。
この部分、そんな名前の本は見つからないし、そんな名前の人もいないしで、結構問題のある箇所なのですが、それに悩まされたか何なのか、『基本古籍庫』は底本の不明箇所を削って『読曲叢刊』本に合わせちゃってるんですねえ。いや、分からないからって、勝手に底本を書き換えちゃいけませんよ。それじゃ、データベースとしての信頼性ガタ落ちです。
こういう例は、『劇説』を五分くらい見ただけでも、稿本だけの注釈がカットされている箇所が見つかったし、また教主も別のテキストにもあったって話してたので、確実なことは言えませんが、かなり沢山あるみたいです。
言うまでもなく20億字もの容量を誇る『基本古籍庫』が、最強の中国古典文献用例検索データベースで、中国学の資料調査方法を大きく変えうるソフトであることは疑うべくもありません。しかし、底本に忠実なデジタル化ではない、このことは、ある言葉や用例が存在することを発見できても、存在しないことを証明できないことを意味し、全文データベースとしての価値を半減させています。
『基本古籍庫』は、試用版段階からWindowsのロケール設定破壊爆弾ソフトだった、ある意味いわく付きなワケですが、製品版でもやっちゃってくれてたわけですねえ。うーん、なんでわざわざこんなヘンなことしちゃってるのかなあ。もったいなすぎるぞ(涙)。まー、中国の人文情報処理企業の評判を聞いてても、愛如生はなんかちとアレレってのを感じるし、やはり、って感じはあるんですけどねえ。
このほかにも、テキストデータのコピーが独自形式RTFエディタ経由で二百字くらいに制限されているとか、インターフェイスが操作しにくい・見にくいとか、異体字テーブルが常用漢字未対応とか、通俗小説や戯曲の前書きが軒並み画像だけの収録で検索できないとか、色々と不満が募りますなあ。
いや、1,500万のソフトを買っちゃった教主のところをやっかんでるだけですけどね、ぢつは(笑)。




Comments