Document Analysisのオープンデータについて

f:id:myatsdqn:20210927161201j:plain

はじめに

テキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。

通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。

このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。

本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助とするため、LayoutLMの論文で用いられたデータセットを見ていきます。

原論文：Building a Test Collection for Complex Document Information Processing
タバコ産業のドキュメントライブラリ：Legacy Tobacco Documents Library (LTDL) から取得したデータ
- データはここで公開されている
  - 非公式では[D]Where can I find IIT CDIP 1.0 dataset? : datasetsのスレッドで別の場所にミラーサイトについての議論もある
- 研究利用は可。商用利用については明示的には書かれていない（コピーの配布を商用利用のために行うのはNG）
XMLのメタデータも用意されており、以下のような属性が取得可能
- タイトル
- ボディテキスト
- 書類の形式
- 日付
- 組織名
メーリングリストの断片が属性の読み取りに役立つ
- [Trec-legal] 17-May-07 update of description of IIT CDIP v. 1.0 / TREC 2007 data

原論文：Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval
- 論文自体は画像からDNNをつかって文書分類するというもの
- 新しいデータセットがContributionの一つになっている
IIT CDIP 1.0 dataset を元にして各文書の画像に対して手紙、Eメール、フォームなどのカテゴリをアノテーションし、分類問題としてのタスクを想定している
- データセット公開サイト：Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval
- ライセンスについて明示的な言及なし

原論文：FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents
フォーム形式の文書に特化したデータセット
- RVL-CDIP Datasetを元にしてフォームデータのテキスト位置のBounding Boxがアノテーションされている
- データセット公開サイト：FUNSD
- 研究目的のみ利用可能
アノテーションデータの形式はJsonで、以下の情報を含む
- 意味のある文字のグループ
- フォーム内文字の意味を表したラベル（Question, answerなど）
- 単語一つ一つに対するBounding Box
- 文字のグループ同士に関係があるか

原論文：ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction
- データセットの公開に合わせてコンペを開催した模様、コンペで成績の良かった手法も紹介されている
レシート画像のデータセット：Overview - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction
- ライセンスについて明示的な言及なし
- 各レシートについて、Bounding Boxと内部の文字情報が入った列がCSV形式でアノテーションされている
- レシート全体から抽出できるメタデータがJson形式でまとめられている
- 以下メタデータのフィールド一覧
  - company
  - date
  - address
  - total