「くずし字」とは、主に江戸時代以前の日本で使われてきたミミズの這ったような文字のこと。
現在、日本で「くずし字」を読みこなせる人の数は
人口の0.01%程度(数千人程度)
多少は知識として知っておいた方が先祖調査とか江戸時代の文献調査に役に立つから「くずし字」の知識は必要。
だから、毎年 市が開催している「くずし字セミナー」に応募しているけど4年連続で落選している。
ただ、やることは超地味で、辞書を片手に分からない文字に似た漢字(平仮名)を探す事になる。
例えば「候」とか「之」とかは「文章の流れから理解してね」ということで最終的には「し」とか「|」のような文字として記載される。
こんなの分かるわけ無い。
これって「AI」の方が得意だよね。
……って事で、Kaggleのコンペが行われた数年後、その時のアルゴリズムを基に2021年には世界初のAIくずし字認識アプリ「みを(miwo)」が登場した。
このアプリは2022年度グッドデザイン賞を受賞。アプリのダウンロード数はすでに約10万件、AIが認識した画像数も100万件に迫っている。
で、昨年末に「RURI(瑠璃)」というAIもできたそうなので紹介する。
AI「RURI(瑠璃)」を使った「くずし字」読解
2022年10月26日にAIくずし字認識システムを、KuroNetからRURI(瑠璃)に変更した。これにより認識精度も向上。
ただしIIIF (International Image Interoperability Framework)に準拠した画像しか対応していない。
国会図書館デジタル等で管理されているものは基本的にはIIIF準拠。
使い方は上記のURLに記載があるが、「KuroNetくずし字認識ビューア」を立ち上げてIIIFマニフェストを読み込む。
で、右上の「■」ボタンをクリックして、くずし字認識したい領域を指定する。
領域を指定した後にクリックすると、ポップアップウィンドウが表示されます。その中の「KuroNetくずし字認識サービス」をクリック。ダッシュボードに進む。
ダッシュボードの「くずし字OCR」欄の「予約:実行」リンクをクリック。
今回は1分以内にくずし字が翻訳されて表示された。
順番待ち件数×2秒程度の待ち時間との事なので、30人程度の待ち人数が発生していたことになる。
便利で精度も高そうだが、IIIF前提というのがネックか。
IIIFとは何か?
IIIF (International Image Interoperability Framework)とは、「画像を様々なシステム(プログラム)で相互に扱うことができるようにするための取り決め」。
ビューワーと画像サーバを分離して運用できるので、好きなビューワーを選択できるという点が大きいらしい。
同じくデジタルアーカイブのサーバーを作る側としてもビューワーの開発をしなくて済む。
「画像配信サーバー」を用意するためには、ビューワーと処理ができるように色々と取り決め(Image API)がある。
また次のManifestファイル(Presentation API)を用意する必要がある。
資料の構造
- どの画像が何ページ目の画像かの情報
- 画像の基底URI(Image APIへの橋渡し)
書誌事項
- タイトル
- 責任表示
- 任意に項目を追加可能
ライセンス(画像の利用条件)
Attribution(著作権者や所有者)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
{ "@context": "http://iiif.io/api/presentation/2/context.json", "@id": "https://kokusho.nijl.ac.jp/biblio/100262360/manifest", "@type": "sc:Manifest", "metadata": [ { "label": "Title", "value": "後水尾天皇二条城行幸式御献立次第" }, { "label": "Date", "value": " 江戸" }, { "label": "DOI", "value": "10.20730/100262360" } ], "label": "後水尾天皇二条城行幸式御献立次第", "attribution": "宮内庁書陵部 国文学研究資料館", "license": "http://kokusho.nijl.ac.jp/page/usage.html", "viewingDirection": "right-to-left", "viewingHint": "individuals", "sequences": [ ... |
Image APIを使えるようにするには?
IIPImage Serverを利用するとinfo.jsonも自動で出力してくれるため、これだけでImage API対応が完了する。
まず、準備として、fcgiを使えるようにするモジュールをインストール。
1 |
$ sudo yum install mod_fcgid |
次に、ソースコードiipsrv-1.0.tar.bz2をダウンロード。
解凍して「iipsrv.conf」の設定ファイルを変更し、サーバーを起動する。
1 |
# systemctl restart httpd.service |
あとは「http://Webサーバホスト名/iipsrv/iipsrv.fcgi」にアクセス。
……と書いてあるけど、面倒だ。
Presentation APIを使えるようにするには?
動的である必要はなく、JSON-LDファイルを作ったら、あとはWebディレクトリに置いておくだけで大丈夫。
……と書いてある。
数ページを部分的に確認したい場合には、やはり面倒。
おわりに
今のAIは(恐らく)文章の流れは理解してないと思う。
読むことが趣味なら構わないが、大量の文献を研究調査したい場合には非常に不便なので、まだまだ進化して欲しい。
個人が見たいデータをデジタルアーカイブの国際規格IIIFを使って配信するのは技術的には可能だが面倒くさそうだ。