くずし字をAIで読む方法(2023年版)とIIIF サーバの作り方

「くずし字」とは、主に江戸時代以前の日本で使われてきたミミズの這ったような文字のこと。

現在、日本で「くずし字」を読みこなせる人の数は

 

人口の0.01%程度(数千人程度)

 

多少は知識として知っておいた方が先祖調査とか江戸時代の文献調査に役に立つから「くずし字」の知識は必要。

だから、毎年 市が開催している「くずし字セミナー」に応募しているけど4年連続で落選している。

ただ、やることは超地味で、辞書を片手に分からない文字に似た漢字(平仮名)を探す事になる。

例えば「候」とか「之」とかは「文章の流れから理解してね」ということで最終的には「し」とか「|」のような文字として記載される。

こんなの分かるわけ無い。

これって「AI」の方が得意だよね。

……って事で、Kaggleのコンペが行われた数年後、その時のアルゴリズムを基に2021年には世界初のAIくずし字認識アプリ「みを(miwo)」が登場した。

古文書読解に必須の「くずし字」を読む方法(アプリ&講習)
古文書を調べるにあたって裂けて通れないのが「くずし字」。今年扱った古文書には「くずし字」で書かれたものはなかったが、いつも読めずに苦労する。時々、古文書調査をしているものだから「ヘ...

このアプリは2022年度グッドデザイン賞を受賞。アプリのダウンロード数はすでに約10万件、AIが認識した画像数も100万件に迫っている。

で、昨年末に「RURI(瑠璃)」というAIもできたそうなので紹介する。

AI「RURI(瑠璃)」を使った「くずし字」読解

2022年10月26日にAIくずし字認識システムを、KuroNetからRURI(瑠璃)に変更した。これにより認識精度も向上。

ただしIIIF (International Image Interoperability Framework)に準拠した画像しか対応していない。

KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター

国会図書館デジタル等で管理されているものは基本的にはIIIF準拠。

 

使い方は上記のURLに記載があるが、「KuroNetくずし字認識ビューア」を立ち上げてIIIFマニフェストを読み込む。

で、右上の「■」ボタンをクリックして、くずし字認識したい領域を指定する。

領域を指定した後にクリックすると、ポップアップウィンドウが表示されます。その中の「KuroNetくずし字認識サービス」をクリック。ダッシュボードに進む。

ダッシュボードの「くずし字OCR」欄の「予約:実行」リンクをクリック。

今回は1分以内にくずし字が翻訳されて表示された。

順番待ち件数×2秒程度の待ち時間との事なので、30人程度の待ち人数が発生していたことになる。

 

便利で精度も高そうだが、IIIF前提というのがネックか。

IIIFとは何か?

IIIF (International Image Interoperability Framework)とは、「画像を様々なシステム(プログラム)で相互に扱うことができるようにするための取り決め」。

ビューワーと画像サーバを分離して運用できるので、好きなビューワーを選択できるという点が大きいらしい。

同じくデジタルアーカイブのサーバーを作る側としてもビューワーの開発をしなくて済む。

 

「画像配信サーバー」を用意するためには、ビューワーと処理ができるように色々と取り決め(Image API)がある。

また次のManifestファイル(Presentation API)を用意する必要がある。

資料の構造

  • どの画像が何ページ目の画像かの情報
  • 画像の基底URI(Image APIへの橋渡し)

書誌事項

  • タイトル
  • 責任表示
  • 任意に項目を追加可能

ライセンス(画像の利用条件)

Attribution(著作権者や所有者)

Image APIを使えるようにするには?

IIPImage Serverを利用するとinfo.jsonも自動で出力してくれるため、これだけでImage API対応が完了する。

まず、準備として、fcgiを使えるようにするモジュールをインストール。

次に、ソースコードiipsrv-1.0.tar.bz2をダウンロード。

https://sourceforge.net/projects/iipimage/files/IIP%20Server/iipsrv-1.0/iipsrv-1.0.tar.bz2/download

解凍して「iipsrv.conf」の設定ファイルを変更し、サーバーを起動する。

あとは「http://Webサーバホスト名/iipsrv/iipsrv.fcgi」にアクセス。

……と書いてあるけど、面倒だ。

Presentation APIを使えるようにするには?

動的である必要はなく、JSON-LDファイルを作ったら、あとはWebディレクトリに置いておくだけで大丈夫。

……と書いてある。

数ページを部分的に確認したい場合には、やはり面倒。

おわりに

今のAIは(恐らく)文章の流れは理解してないと思う。

読むことが趣味なら構わないが、大量の文献を研究調査したい場合には非常に不便なので、まだまだ進化して欲しい。

 

個人が見たいデータをデジタルアーカイブの国際規格IIIFを使って配信するのは技術的には可能だが面倒くさそうだ。

タイトルとURLをコピーしました