ねほり.com

何もないから何かみつかる

人工知能で「くずし字」の文字認識の現状調査

      2019/02/04

日本人の多くは、日本人が150年前の文書が読めません。

家系図調査は「除籍謄本」や「聞き込み」調査が完了したら、次は各研究機関や施設を訪ねて、江戸時代の古文書を調査することになります。

古文書に書かれている字は一般的には「草書」と呼ばれる書体で、「くずし字」という言い方もします。

この「くずし字」を読むのが大変で、読むと言っても「字体の暗記」がメインとなります。

たとえば草津の広島かきに関する文献「小川家文書」の中で、「保」は次のように記載されています。

通常は、次のような辞書を片手に比較しながら「くずし字」とにらめっこになります。

正直、辞書買って片手に読んでみたが、パターン認識は人間のやることじゃない。

それならコンピュータの方が早くない?

最近はくずし字ブームなのか、多くの「くずし字検索サービス」「くずし字文字データベース」が無償公開されています。

大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)と、大学共同利用機関法人人間文化研究機構国文学研究資料館(国文研)は、江戸時代の古典籍に書かれた「くずし字」の「日本古典籍字形データセット」をオープンデータとして無償公開しました。

現在、絶賛データセット拡張中で、先月末で次のようなものが置いてあります。

  • 日本古典籍データ(点数3,126、コマ数が609,631点)
  • 日本古典籍くずし字(文字種4,645、文字数684,165文字)
  • ディープラーニングを用いた文字認識のサンプルプログラム

これにより、多くの新サービスが出てきました。

凸版印刷、くずし字翻刻を手軽に公開 ビューワ「ふみのは」

凸版印刷が文字画像を位置情報とともに切り出した字形データベースを構築し、この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定するシステムを構築しました。

ただし、これは有償で個人が気楽に使えるものではないです。

古文書や木簡に書かれているくずし字をシステムで自動解析するウェブサービス「MOJIZO」

東京大学史料編纂所と奈良文化財研究所が、解析したい文字画像をアップロードすると、奈良文化財研究所の木簡画像と東京大学史料編纂所のくずし字画像から形状が近い字形を候補としてリストアップするサービス「MOJIZO」を無償公開してくれています。

このサイトは一文字単位でしか検索できませんが、バッチ処理的なシステムを組めば「くずし字解読」が作成できそうです。

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

「切り出し方」や「解像度」によって大きく検索結果が変わるのかもしれません。

豊田高専くずし字翻刻WWWサービス

ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的として、『日本古典籍字形データセット』をはじめとするオープンデータから40万字以上のくずし字画像を利用してモデルを学習させたそうです。

深層学習によるくずし字認識 (ver.0.5.2)

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

ただし、もう一つの文字は見事 正解!

第21回 PRMUアルゴリズムコンテスト「この文字読めますか?〜くずし字認識にチャレンジ!〜」

第21回 PRMUアルゴリズムコンテスト」の課題になっており、学生さんがディープラーニング使って「くずし字」解読にチャレンジしています。

ちなみに、第21回では、東京農工大のベトナム人学生2人が最優秀賞でした。

Convolutional Neural Network (CNN: 畳込みニューラルネットワーク)、Bidirectional Long Short-term Neural Network (BLSTM: 双方向長・短期記憶ニューラルネットワーク)、そして,Connectionist Temporal Classification (CTC: コネクショニスト時系列識別法)を 3 層に組み合わせ、Deep Convolutional Recurrent Network (DCRN: 深層畳込み再帰ネットワーク)を構成したそうです。

まとめ

上記技術に関して、公開されているPDFは次のようなものがあります(一部)。

第7回アルゴリズムコンテスト(’03)」の優秀賞保持者の私としては、ディープラーニング初心者だが、材料はそろっているので、少しずつ文字解析にチャレンジしていきたい。

が、先駆者達の精度を見ると、私が読みたい古文書の解析無理かな……

 - 2019年(社会人15年), テクノロジー

  関連記事

「線形代数」を「不可」にして再受講するにも難しい

これ以上、日記を更新しないとさすがに後が続かないので、最近の事でも…。&nbsp …

「ネットランナー」のトレーディングカード「ねとらん者」を大人買い(2/2)

偽MADニュース: 高校生、無断コピーで逮捕 京都市右京区に住む高校生が遺伝子の …

PHP5→PHP7に変更(php7ccを使った動作確認)

PHPの新しいバージョンであるPHP7が2015年12月に正式リリースされました …

Developers Summit 2012 に行ってきました

「Developers Summit 2012~10年後も世界で通じるエンジニア …

テレビを捨てた放送局、テレビを捨てた家電メーカー

「テレビの視聴者離れが進み、ネットコンテンツが充実し、テレビはオワコン」 と、よ …

結婚式余興向けに初動画編集

2008年04月06日(日) 今年はあと2本以上作成予定 ずっと動画編集に工数が …

Java Appletで麻雀ゲームを実装することに挑戦するも・・

やばいぞ~!!    最近本当に何もしていない~!&nbsp …

中国烟台に海外出張しました

2011年01月23日(日) 中国・烟台を1月に観光してみる 今回の業務は日曜日 …

日本のジョブズ、飯野賢治さんの凄さ

90年代、「天才ゲームクリエイター」「時代の寵児」と呼ばれた飯野賢治さん。 私の …

ソニーウォークマンNW-X1060 購入

2009年06月23日(火) SONY NW-X1060 購入しました 買ってし …