MNTSQ Techブログ

リーガルテック・カンパニー「MNTSQ(モンテスキュー)」のTechブログです。

Document Analysisのオープンデータについて

MNTSQ Tech Blog TOP > 記事一覧 > Document Analysisのオープンデータについて

f:id:myatsdqn:20210927161201j:plain

はじめに

テキスト情報から自然言語処理機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。

通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。

このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。

本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助とするため、LayoutLMの論文で用いられたデータセットを見ていきます。

IIT CDIP 1.0 dataset

RVL-CDIP Dataset

FUNSD

SROIE

おわりに

簡単ではありましたが、今回は文書レイアウトに関連したタスクとデータセットの紹介をしました。文書レイアウトを考慮したモデルの開発に本記事が少しでも役に立てば幸いです。

参考

この記事を書いた人

f:id:mntsq:20201223123239j:plain

yad

ビリヤニ食べたい