ねほり.com

何もないから何かみつかる

人工知能で「くずし字」の文字認識の現状調査

      2019/02/04

日本人の多くは、日本人が150年前の文書が読めません。

家系図調査は「除籍謄本」や「聞き込み」調査が完了したら、次は各研究機関や施設を訪ねて、江戸時代の古文書を調査することになります。

古文書に書かれている字は一般的には「草書」と呼ばれる書体で、「くずし字」という言い方もします。

この「くずし字」を読むのが大変で、読むと言っても「字体の暗記」がメインとなります。

たとえば草津の広島かきに関する文献「小川家文書」の中で、「保」は次のように記載されています。

通常は、次のような辞書を片手に比較しながら「くずし字」とにらめっこになります。

正直、辞書買って片手に読んでみたが、パターン認識は人間のやることじゃない。

それならコンピュータの方が早くない?

最近はくずし字ブームなのか、多くの「くずし字検索サービス」「くずし字文字データベース」が無償公開されています。

大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)と、大学共同利用機関法人人間文化研究機構国文学研究資料館(国文研)は、江戸時代の古典籍に書かれた「くずし字」の「日本古典籍字形データセット」をオープンデータとして無償公開しました。

現在、絶賛データセット拡張中で、先月末で次のようなものが置いてあります。

  • 日本古典籍データ(点数3,126、コマ数が609,631点)
  • 日本古典籍くずし字(文字種4,645、文字数684,165文字)
  • ディープラーニングを用いた文字認識のサンプルプログラム

これにより、多くの新サービスが出てきました。

凸版印刷、くずし字翻刻を手軽に公開 ビューワ「ふみのは」

凸版印刷が文字画像を位置情報とともに切り出した字形データベースを構築し、この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定するシステムを構築しました。

ただし、これは有償で個人が気楽に使えるものではないです。

古文書や木簡に書かれているくずし字をシステムで自動解析するウェブサービス「MOJIZO」

東京大学史料編纂所と奈良文化財研究所が、解析したい文字画像をアップロードすると、奈良文化財研究所の木簡画像と東京大学史料編纂所のくずし字画像から形状が近い字形を候補としてリストアップするサービス「MOJIZO」を無償公開してくれています。

このサイトは一文字単位でしか検索できませんが、バッチ処理的なシステムを組めば「くずし字解読」が作成できそうです。

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

「切り出し方」や「解像度」によって大きく検索結果が変わるのかもしれません。

豊田高専くずし字翻刻WWWサービス

ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的として、『日本古典籍字形データセット』をはじめとするオープンデータから40万字以上のくずし字画像を利用してモデルを学習させたそうです。

深層学習によるくずし字認識 (ver.0.5.2)

ちなみに「保」を切り出してみましたが、正解文字は出ませんでした・・・。

ただし、もう一つの文字は見事 正解!

第21回 PRMUアルゴリズムコンテスト「この文字読めますか?〜くずし字認識にチャレンジ!〜」

第21回 PRMUアルゴリズムコンテスト」の課題になっており、学生さんがディープラーニング使って「くずし字」解読にチャレンジしています。

ちなみに、第21回では、東京農工大のベトナム人学生2人が最優秀賞でした。

Convolutional Neural Network (CNN: 畳込みニューラルネットワーク)、Bidirectional Long Short-term Neural Network (BLSTM: 双方向長・短期記憶ニューラルネットワーク)、そして,Connectionist Temporal Classification (CTC: コネクショニスト時系列識別法)を 3 層に組み合わせ、Deep Convolutional Recurrent Network (DCRN: 深層畳込み再帰ネットワーク)を構成したそうです。

まとめ

上記技術に関して、公開されているPDFは次のようなものがあります(一部)。

第7回アルゴリズムコンテスト(’03)」の優秀賞保持者の私としては、ディープラーニング初心者だが、材料はそろっているので、少しずつ文字解析にチャレンジしていきたい。

が、先駆者達の精度を見ると、私が読みたい古文書の解析無理かな……

 - 2019年(社会人15年), テクノロジー

  関連記事

学科オセロプログラム大会優勝するも自慢が過ぎて非難を浴びました・・

最近どうも体調がすぐれません。  間違い無く体力不足です。パソコンの前 …

DTI SIM 3G 100をVAIO Pで使ってみる

月額490円のパケット代定額「DTI SIM 3G 100」を始めてみました。 …

新年の挨拶・2019年の目標

年末年始の休みが終わった・・・ たくさんの仕事残件の宿題があったが、何もしていま …

「手品 種明かし」「簡単なハッキング」で訪問する客が多い

悲しいとき~(悲しいとき~) goo国語辞書で必要な熟語が見つからなかったのに …

Developers Summit 2012 に行ってきました

「Developers Summit 2012~10年後も世界で通じるエンジニア …

twitterをParseして日々のイベントカレンダー情報サイト作成

2011年10月27日(木) twitterでイベント情報取得サイト 会社の後輩 …

味覚と嗅覚に対する次世代のデバイス・商品まとめ

視覚や触覚、聴覚に対するデバイス・商品は、様々な会社が商品を競うようにリリースし …

トレース画にハマり、色々とトレースしてみる、ナマ・ビール・タモ・シモ

2006年08月30日(水) ナマ・ビール・タモ・シモ ビアだ!ガーデンだ!今週 …

Yahoo!Japanから直リンクされてPV増加

毎日、毎日、線形…線形…。    ぐはぁ!ちっとも分かんね~ …

個人サイト開設1999年より10周年経過

2009年05月14日(木) 個人サイト開設 10周年の御礼! 1999年 5月 …