ねほり.com

何もないから何かみつかる

人工知能で「くずし字」の文字認識の現状調査

      2020/01/09

日本人の多くは、日本人が150年前の文書が読めません。

家系図調査は「除籍謄本」や「聞き込み」調査が完了したら、次は各研究機関や施設を訪ねて、江戸時代の古文書を調査することになります。

古文書に書かれている字は一般的には「草書」と呼ばれる書体で、「くずし字」という言い方もします。

この「くずし字」を読むのが大変で、読むと言っても「字体の暗記」がメインとなります。

たとえば草津の広島かきに関する文献「小川家文書」の中で、「保」は次のように記載されています。

通常は、次のような辞書を片手に比較しながら「くずし字」とにらめっこになります。

正直、辞書買って片手に読んでみたが、パターン認識は人間のやることじゃない。

それならコンピュータの方が早くない?

最近はくずし字ブームなのか、多くの「くずし字検索サービス」「くずし字文字データベース」が無償公開されています。

大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)と、大学共同利用機関法人人間文化研究機構国文学研究資料館(国文研)は、江戸時代の古典籍に書かれた「くずし字」の「日本古典籍字形データセット」をオープンデータとして無償公開しました。

現在、絶賛データセット拡張中で、先月末で次のようなものが置いてあります。

  • 日本古典籍データ(点数3,126、コマ数が609,631点)
  • 日本古典籍くずし字(文字種4,645、文字数684,165文字)
  • ディープラーニングを用いた文字認識のサンプルプログラム

これにより、多くの新サービスが出てきました。

凸版印刷、くずし字翻刻を手軽に公開 ビューワ「ふみのは」

凸版印刷が文字画像を位置情報とともに切り出した字形データベースを構築し、この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定するシステムを構築しました。

ただし、これは有償で個人が気楽に使えるものではないです。

古文書や木簡に書かれているくずし字をシステムで自動解析するウェブサービス「MOJIZO」

東京大学史料編纂所と奈良文化財研究所が、解析したい文字画像をアップロードすると、奈良文化財研究所の木簡画像と東京大学史料編纂所のくずし字画像から形状が近い字形を候補としてリストアップするサービス「MOJIZO」を無償公開してくれています。

このサイトは一文字単位でしか検索できませんが、バッチ処理的なシステムを組めば「くずし字解読」が作成できそうです。

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

「切り出し方」や「解像度」によって大きく検索結果が変わるのかもしれません。

豊田高専くずし字翻刻WWWサービス

ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的として、『日本古典籍字形データセット』をはじめとするオープンデータから40万字以上のくずし字画像を利用してモデルを学習させたそうです。

深層学習によるくずし字認識 (ver.0.5.2)

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

ただし、もう一つの文字は見事 正解!

第21回 PRMUアルゴリズムコンテスト「この文字読めますか?〜くずし字認識にチャレンジ!〜」

第21回 PRMUアルゴリズムコンテスト」の課題になっており、学生さんがディープラーニング使って「くずし字」解読にチャレンジしています。

ちなみに、第21回では、東京農工大のベトナム人学生2人が最優秀賞でした。

Convolutional Neural Network (CNN: 畳込みニューラルネットワーク)、Bidirectional Long Short-term Neural Network (BLSTM: 双方向長・短期記憶ニューラルネットワーク)、そして,Connectionist Temporal Classification (CTC: コネクショニスト時系列識別法)を 3 層に組み合わせ、Deep Convolutional Recurrent Network (DCRN: 深層畳込み再帰ネットワーク)を構成したそうです。

まとめ

上記技術に関して、公開されているPDFは次のようなものがあります(一部)。

第7回アルゴリズムコンテスト(’03)」の優秀賞保持者の私としては、ディープラーニング初心者だが、材料はそろっているので、少しずつ文字解析にチャレンジしていきたい。

が、先駆者達の精度を見ると、私が読みたい古文書の解析無理かな……

 - 2019年(社会人15年), 機械学習, テクノロジー

  関連記事

イザナミサンプル・シンプル逆張り買いの有効性検証(システムトレード)

最近は台湾や中国出張ばかりで、パソコンは故障するしシステムトレードの興味が薄れて …

主成分分析(カメレオンはどこだ! テクスチャ画像の領域分割)

最大固有値とその固有ベクトルを求める方法としては、ベキ乗法(power iter …

最大連勝・最大連敗・平均年利などを追加する(システムトレード)

なぜバックテストすると近年は資産曲線が寝る(横ばい)なストラテジーが多いのか? …

情報処理学会「CVIM研究会」で「卒論セッション」発表

さて、2月頃には提出が決まっていた情報処理学会「コンピュータビジョンとイメージメ …

何も書かれていないSPAMメールの意図は何か軽く調べた

最近 届く SAPM メールには文章が存在しない。 その場合は、大抵カーソルを合 …

確定申告消費税未納の督促状が来た・・・

NTTドコモの基本使用料を最安値にしようとドコモショップへ。自分が「ベーシックプ …

Warezの落とし方(掲示板のアップロードされた暗号を理解する方法)

日記のネタを変更して特別報道!    ファイル交換ソフト「W …

「Make: Tokyo Meeting 07」に行った感想

2011年12月03日(土) 「Make: Tokyo Meeting 07」に …

Kaggleの概要を理解する(Titanicの次に向けて)

これまで、Kaggleの「Titanic: Machine Learning f …

HTML5 canvas+JavaScriptでオセロ作成

2011年11月27日(日) HTML5 canvas+JavaScriptでオ …