特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1
名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバレッジがある点、単なる辞書に比べた場合にマッチングに使える素性がエンティティの文字表層以外にも豊富にある点、ページへのアクセス数などテキスト外の統計情報も使える点、データ処理のツールが充実している点などが挙げられる。
一方で、会社名のような特定エンティティ種に対してきちんと対応していきたい場合、Wikipediaのカバレッジや信頼性では満足できないこともある。
当記事では、そのような場合にクイックに利用を検討できる日本の会社名辞書を2つ紹介する*2:
国や事業者が整備している企業名関連データは他にも存在し、たとえば以下のようなリソースについては当記事では触れていない:
事業所母集団データベース (総務省管轄): 公的機関の統計調査用途;事業所の利用は不可(?)
登記情報提供サービス(法務局管轄):網羅性は高いが、閲覧有料(件数あたり課金)
特許情報標準データ, 整理標準化データ(2019年まで)(特許庁管轄): 要ダウンロード申請、特許分析に有用
その他、企業経済・与信情報のような調査分析用途の有償企業情報サービス:
国税庁法人番号データ
あらゆる法人に対して振られる法人番号データと、その法人名が対応付けられたデータである。 法人番号とは番号法により定められる、税金や保険の手続きに用いられる番号のようだ。 登記手続きに用いられる会社法人等番号と並んで、あらゆる法人に紐づくID情報であるという意味で、企業名のマスタ情報に適した参照情報であるといえる。
https://www.houjin-bangou.nta.go.jp/setsumei/
「行政手続における特定の個人を識別するための番号の利用等に関する法律」(以下「番号法」といいます。)に基づき、法人に対して法人番号を指定し、指定後速やかに、商号又は名称、本店又は主たる事務所の所在地及び法人番号を公表するとともに、対象の法人へ法人番号を通知しています。
抽出可能な情報はリソース定義書から参照でき*4、「法人番号」と「商号又は名称」や「英語表記」「フリガナ」、場合によっては「国内所在地」といったフィールドが分析の基本となるだろう。
また、以下で紹介するフィールドを用いることで、法人格を考慮した名寄せ処理や、合併等の組織再編や商号変更・組織変更などを考慮した企業の同一性認識を行うことができる:
- 「法人種別」:いわゆる法人格に相当する情報で、以下のような区分コードが入っている。数にしては株式会社がほとんどを占めるが、法人格は多岐にわたるので「その他の設立登記法人」も多く存在する。
"101": "国の機関", "201": "地方公共団体", "301": "株式会社", "302": "有限会社", "303": "合名会社", "304": "合資会社", "305": "合同会社", "399": "その他の設立登記法人", "401": "外国会社等", "499": "その他",
「承継先法人番号」「変更事由の詳細」:いわゆる商号変更履歴を追うのに役立つ。登録法人の商号変更履歴が国税庁データのサイトで閲覧できるが、おそらくこのフィールドの情報を使用していると推測される。参考のために、商号変更履歴の多い企業の例を挙げておく。
- 三菱ケミカル
- 合併対象の「承継先法人番号」の値の例:
6010001146760
- 合併対象の「変更事由の詳細」の値の例:
平成31年4月1日東京都千代田区丸の内一丁目1番1号三菱ケミカル株式会社(6010001146760)に合併し解散
- 合併対象の「承継先法人番号」の値の例:
- 三菱ケミカル
「訂正区分」:商号変更・登記抹消・削除といった登録データの修正操作情報が入っている。新規追加以外の操作を持つ法人名は重複登録されることになるので、重複・バージョン管理が必要な場合に役立つ。
"01": "新規", "11": "商号又は名称の変更", "12": "国内所在地の変更", "13": "国外所在地の変更", "21": "登記記録の閉鎖等", "22": "登記記録の復活等", "71": "吸収合併", "72": "吸収合併無効", "81": "商号の登記の抹消", "99": "削除",
国税庁法人番号データを使用している事例としては、TISが作成・公開されているJCLdicという企業名辞書がある。 企業名の重複除去に加えて、簡易的に表記ゆれパターンも生成していて、企業名の名寄せを試す用途には便利な辞書となっている。
このデータを辞書に、BCCWJや毎日新聞データをコーパスにした固有表現抽出のデータセットも生成されている。 ただし、企業名には一般的な名称が混じっていたり、国税庁データの企業名分布は特に非常にLong-tailであるという都合上、企業名の固有表現ラベルを辞書マッチで生成するのはなかなか難しそうだと推察される。
Long-tail性の参考として、中小企業庁が公開している中小企業と大企業の数(2016年)は以下のような内訳となっている*5:
- 大企業:1万1157社(0.3%)
- 中小企業:357.8万社(99.7%)
また、日本取引所グループが公開している上場企業の総数は3,770社(2021/04/27)となっている。
資本金や法人格別などの企業数内訳に関する統計については、国税庁の統計調査結果でも公開されている:
NISTEP企業名辞書
国税庁データの企業名分布は特に非常にLong-tailであるという点を指摘した。 これはあらゆる法人名を登録するという都合上避けられない問題であり、名寄せを文字表層ベースで行う場合には特に問題になる。 具体的には、非常に似通った企業名であっても、一方は上場企業、もう一方はほとんど知られていない会社というケースなどがそれにあたり、表記ゆれ対応泣かせの問題が国税庁データでは多く発生する。
こういった問題に対して関心のある企業群を絞りたい需要が発生するが、特許分析・産業イノベーション研究の一貫としてNISTEP企業名辞書というデータが公開・管理されている。 最新版のマニュアルは以下のページのダウンロードページから参照できる。 www.nistep.go.jp
管理対象となる企業名の収集基準を以下に項目で示す(ver.2020_2マニュアルより引用;詳細はマニュアル参照):
企業名辞書に掲載する企業は、原則、次の 5 つの条件の何れかを満足する企業の論理和で構成する。
① 特許出願数累積 100 件以上
② 株式上場企業
③ 特許出願数の伸び率大
④ NISTEP 大学・公的機関名辞書掲載企業
⑤ 意匠・商標登録数
⑥ 大学発ベンチャー企業
(中略)
その他、上記条件に該当しない企業として、次の事由による掲載企業がある。
⑦持株会社制移行に伴い設立された事業会社
⑧一部事業の譲渡に伴い設立された会社
⑨名称変更又は吸収合併した企業が登録事由に該当
⑩その他
利用事例としては、特許情報標準データを加工した IIPパテントデータベース*6 に対して、特許申請人の名寄せに当辞書が用いられている事例が紹介されている。
ダウンロード形式としては、RDBにインポート可能なテーブルテキスト形式と、xlsx形式とがある。 マニュアルより企業名辞書のERDを引用する:
件数を比較すると、国税庁法人番号データ(20200731)ののべ件数が4,874,674件(重複含む)に対し、NISTEP企業名辞書(ver.2020_2)ののべ件数が24,414件。
国税庁データとの類似点・差分点をベースに列情報の比較を行うと、商号変更履歴情報に加えて、連結企業情報や財務・業種情報などがデフォルトで含まれるのは非常に便利な点である。 また、外部情報との連携も対応しているため必要に応じて参照されたい。 以下、分析に有用なテーブル・列情報をいくつか紹介する(「」で囲まれたものはマニュアル内に解説のあるテーブル・フィールド名):
- 商号変更履歴情報
- 「沿革テーブル」 /
history
,history_id
名称使用開始事象: {1:"設立", 2:"名称変更"}
名称使用終了事象: {1:"現存", 2:"名称変更", 3:"合併", 4:"破産", 5:"清算"}
- 「沿革テーブル」 /
- 連結企業情報(親子会社関係)
- 「連結企業テーブル」
- 財務・業種・ベンチャータイプ情報
- 各種外部テーブル連携
- 「法人格コード」
- 前株・後株・中株が区別されてる点に注目
- 「法人番号」
- 国税庁データと連携可能だが、法人番号に紐付けられていない事例も存在するため全てに対して単純なJOINはできない
- 法人番号を値に持つもの: 12365件
- 法人番号を値に持たないもの: 12049件
- 国税庁データと連携可能だが、法人番号に紐付けられていない事例も存在するため全てに対して単純なJOINはできない
以上、企業名の解析に有用な公開辞書データを2種類紹介した。 この記事はMNTSQ株式会社の業務時間内に書かれた。 MNTSQ株式会社では業務ドメイン知識の深化と自然言語処理技術の適用による製品の高品質化にご協力いただける方を募集しています:
この記事を書いた人
稲村和樹
自然言語処理エンジニア。爬虫類が好き。