くずし字をAIで読む方法（2023年版）とIIIF サーバの作り方

機械学習

2023.03.27

「くずし字」とは、主に江戸時代以前の日本で使われてきたミミズの這ったような文字のこと。

現在、日本で「くずし字」を読みこなせる人の数は

人口の0.01%程度（数千人程度）

多少は知識として知っておいた方が先祖調査とか江戸時代の文献調査に役に立つから「くずし字」の知識は必要。

くずし字解読辞典普及版

2,420円(07/26 02:21時点)

Amazon 楽天市場

Amazonの情報を掲載しています

だから、毎年市が開催している「くずし字セミナー」に応募しているけど4年連続で落選している。

AI「RURI（瑠璃）」を使った「くずし字」読解
IIIFとは何か？
1. Image APIを使えるようにするには？
2. Presentation APIを使えるようにするには？
おわりに

ただ、やることは超地味で、辞書を片手に分からない文字に似た漢字（平仮名）を探す事になる。

例えば「候」とか「之」とかは「文章の流れから理解してね」ということで最終的には「し」とか「｜」のような文字として記載される。

こんなの分かるわけ無い。

これって「AI」の方が得意だよね。

……って事で、Kaggleのコンペが行われた数年後、その時のアルゴリズムを基に2021年には世界初のAIくずし字認識アプリ「みを（miwo）」が登場した。

古文書読解に必須の「くずし字」を読む方法（アプリ＆講習）

古文書を調べるにあたって裂けて通れないのが「くずし字」。今年扱った古文書には「くずし字」で書かれたものはなかったが、いつも読めずに苦労する。時々、古文書調査をしているものだから「ヘ...

このアプリは2022年度グッドデザイン賞を受賞。アプリのダウンロード数はすでに約10万件、AIが認識した画像数も100万件に迫っている。

で、昨年末に「RURI（瑠璃）」というAIもできたそうなので紹介する。

AI「RURI（瑠璃）」を使った「くずし字」読解

2022年10月26日にAIくずし字認識システムを、KuroNetからRURI（瑠璃）に変更した。これにより認識精度も向上。

ただしIIIF (International Image Interoperability Framework)に準拠した画像しか対応していない。

KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター

国会図書館デジタル等で管理されているものは基本的にはIIIF準拠。

使い方は上記のURLに記載があるが、「KuroNetくずし字認識ビューア」を立ち上げてIIIFマニフェストを読み込む。

で、右上の「■」ボタンをクリックして、くずし字認識したい領域を指定する。

領域を指定した後にクリックすると、ポップアップウィンドウが表示されます。その中の「KuroNetくずし字認識サービス」をクリック。ダッシュボードに進む。

ダッシュボードの「くずし字OCR」欄の「予約：実行」リンクをクリック。

今回は1分以内にくずし字が翻訳されて表示された。

順番待ち件数×2秒程度の待ち時間との事なので、30人程度の待ち人数が発生していたことになる。

便利で精度も高そうだが、IIIF前提というのがネックか。

IIIFとは何か？

IIIF (International Image Interoperability Framework)とは、「画像を様々なシステム（プログラム）で相互に扱うことができるようにするための取り決め」。

ビューワーと画像サーバを分離して運用できるので、好きなビューワーを選択できるという点が大きいらしい。

同じくデジタルアーカイブのサーバーを作る側としてもビューワーの開発をしなくて済む。

「画像配信サーバー」を用意するためには、ビューワーと処理ができるように色々と取り決め（Image API）がある。

また次のManifestファイル（Presentation API）を用意する必要がある。

資料の構造

どの画像が何ページ目の画像かの情報
画像の基底URI（Image APIへの橋渡し）

書誌事項

タイトル
責任表示
任意に項目を追加可能

ライセンス（画像の利用条件）

Attribution（著作権者や所有者）

{
	"@context": "http://iiif.io/api/presentation/2/context.json",
	"@id": "https://kokusho.nijl.ac.jp/biblio/100262360/manifest",
	"@type": "sc:Manifest",
	"metadata": [
		{
			"label": "Title",
			"value": "後水尾天皇二条城行幸式御献立次第"
		},
		{
			"label": "Date",
			"value": " 江戸"
		},
		{
			"label": "DOI",
			"value": "10.20730/100262360"
		}
	],
	"label": "後水尾天皇二条城行幸式御献立次第",
	"attribution": "宮内庁書陵部 国文学研究資料館",
	"license": "http://kokusho.nijl.ac.jp/page/usage.html",
	"viewingDirection": "right-to-left",
	"viewingHint": "individuals",
	"sequences": [
...