はじめに
テキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。
通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。
このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。
本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助とするため、LayoutLMの論文で用いられたデータセットを見ていきます。
IIT CDIP 1.0 dataset
原論文:Building a Test Collection for Complex Document Information Processing
タバコ産業のドキュメントライブラリ:Legacy Tobacco Documents Library (LTDL) から取得したデータ
- データはここで公開されている
- 非公式では[D]Where can I find IIT CDIP 1.0 dataset? : datasetsのスレッドで別の場所にミラーサイトについての議論もある
- 研究利用は可。商用利用については明示的には書かれていない(コピーの配布を商用利用のために行うのはNG)
- データはここで公開されている
XMLのメタデータも用意されており、以下のような属性が取得可能
- タイトル
- ボディテキスト
- 書類の形式
- 日付
- 組織名
メーリングリストの断片が属性の読み取りに役立つ
RVL-CDIP Dataset
原論文:Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval
- 論文自体は画像からDNNをつかって文書分類するというもの
- 新しいデータセットがContributionの一つになっている
IIT CDIP 1.0 dataset を元にして各文書の画像に対して手紙、Eメール、フォームなどのカテゴリをアノテーションし、分類問題としてのタスクを想定している
- データセット公開サイト:Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval
- ライセンスについて明示的な言及なし
FUNSD
- 原論文:FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents
フォーム形式の文書に特化したデータセット
-
- 意味のある文字のグループ
- フォーム内文字の意味を表したラベル(Question, answerなど)
- 単語一つ一つに対するBounding Box
- 文字のグループ同士に関係があるか
SROIE
- 原論文:ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction
- データセットの公開に合わせてコンペを開催した模様、コンペで成績の良かった手法も紹介されている
- レシート画像のデータセット:Overview - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction
おわりに
簡単ではありましたが、今回は文書レイアウトに関連したタスクとデータセットの紹介をしました。文書レイアウトを考慮したモデルの開発に本記事が少しでも役に立てば幸いです。
参考
- [1912.13318] LayoutLM: Pre-training of Text and Layout for Document Image Understanding
- LayoutLM (Layout Language Model)を試したら精度がめっちゃ上がった件について - Cinnamon AI Blog
この記事を書いた人
yad
ビリヤニ食べたい