MNTSQ Techブログ

リーガルテック・カンパニー「MNTSQ（モンテスキュー）」のTechブログです。

PICK UP

自然言語処理・機械学習

ChatGPTとPydanticでかんたん契約書解析

自然言語処理・機械学習

こんにちは、MNTSQでアルゴリズムエンジニアとチームマネージャーをやっている平田です。 MNTSQでは自然言語処理を使って契約書を解析したり検索したりする機能を開発しています。契約書解析には、次のようなタスクがあります。秘密保持契約等の契約類型に…

#LLM #ChatGPT #GPT-4o #Python

もし「GitHub Copilot」を現役弁護士が使ったら？

自然言語処理・機械学習

こんにちは。GitHub Copilotを先日初めて触って、感銘を受けたMNTSQ代表の板谷です。MNTSQの代表をしておりますが、現役の弁護士でもあります。なぜ私が、GitHub Copilotに感銘を受けたかというと、「プログラミングの LLM による進化」は、契約という言語…

#リーガルテック #LLM #アルゴリズム #SaaS

LUKEのEntitySpanClassificationによる固有表現抽出

自然言語処理・機械学習 Transformers

はじめにこんにちは、MNTSQ（モンテスキュー）のアルゴリズムエンジニアの清水です。本記事では事前学習済み言語モデルの一つであるLUKEを用いた固有表現抽出の実装方法について紹介します。 LUKEとは LUKEは、LUKE: Deep Contextualized Entity Representa…

身近なデータで30時間クッキング：Slackのログを解析してみる編

自然言語処理・機械学習

入社して3ヶ月が経った。事業戦略・組織文化・プロダクトに対する解像度はだいぶ高まった実感があるが、実はまだメンバー1人1人のことを良く知らない。そうだ、Slackのログを分析しよう。当社では多くのコミュニケーションをSlackで行う。また、情報のopen…

Transformersを用いた固有表現抽出のtips

自然言語処理・機械学習

TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。検出漏れが問題になるよ…

JuliaとPythonを併用したデータ処理のススメ

自然言語処理・機械学習

Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中な…

#Julia lang #Python

FairseqとTPUで新しい言語モデルをpretrainする

自然言語処理・機械学習

はじめにみなさんはじめまして、リーガルテックベンチャーMNTSQの取締役の堅山です。この度弊社でテックブログを開設することになり、その第一号として記事を書いています。弊社の取り組む「法務」の世界はエンジニア・リサーチャーの方々から見ると縁遠い…

#機械学習 #NLP #自然言語処理 #Pytorch #TPU #言語モデル

記事一覧へ