AIでドキュメントの分類を簡単に!SharePoint Syntexを使ってみた

2022.09.05
AIでドキュメントの分類を簡単に!SharePoint Syntexを使ってみた

皆様こんにちは。MS開発部の福田です。

SharePointを使って書類を整理するときに分類に時間がかかることはありませんか?
手作業で書類にカテゴリを追加するとなると大量の文書をアップロードした際にとてつもない時間がかかってしまいます。
Microsoftには機械学習によって文書内の特定の文字列をドキュメントライブラリの列に表示できるサービスがございます。

今回はそんなSharePoint SyntexというMicrosoft365のサービスについてご紹介し、簡単な文書理解モデルを作成していきます。

SharePoint Syntexとは

SharePoint Syntexは、AIの機械学習によって自動でコンテンツを処理するMicrosoft365サービスです。
サンプルドキュメントを用意し、SharePoint Syntex上のチュートリアルに従って操作することでモデルを作成することができます。
モデルはドキュメントの特定範囲の文字列を抽出する等といった情報を学習しており、 これをSharePointのドキュメントライブラリに適用することで、アップロードしたドキュメントを解析して抽出した文字列を列として表示することが可能です。

例えば、見積書からどこの会社の文書であるかをドキュメントライブラリに表示したいとします。
SharePoint Syntexを使用して会社名を抽出するモデルを作成し、見積書をアップロードするドキュメントライブラリにモデルを適用することで、会社名の列がライブラリに追加され列の値に見積書の会社名が入力されます。

これにより、ドキュメントの分類作業にかかる時間が大きく変わると思われます。

SharePoint Syntexの利用設定

SharePoint Syntexのライセンス及びセットアップ

SharePoint Syntexのライセンスは年間契約の場合、月540円/ユーザーで利用できます。
SharePoint Syntexの紹介

ライセンスが必要となる動作はMicrosoftのドキュメントにて以下のように案内されています。

  • 文書理解モデルをライブラリに適用する。(ライセンスのないユーザーは、コンテンツ センターへのアクセスを許可され、そこで文書理解モデルを作成できますが、それをドキュメント ライブラリに適用することはできません。)
  • ライブラリのエントリ ポイントを介してフォーム処理モデルを作成する
  • 文書理解またはフォーム処理モデルが適用されているライブラリへコンテンツをアップロードする
  • 文書理解モデルをオンデマンドで実行する
  • プレミアム分類サービスを使用します。(プレミアム分類サービスは、SKOS ベースの用語セットのインポート、エンタープライズ コンテンツ タイプのハブ関連サイトへのプッシュ、および用語ストア レポートで構成されます。)

SharePoint Syntex のライセンス -Microsoft

SharePoint Syntexの設定にはMicrosoft365管理センターにアクセスする必要があるため、グローバル管理者またはSharePoint管理者のアクセス許可が必要となります。
設定方法は以下の公式ドキュメントを参照してください。
SharePoint Syntexの設定

ドキュメント理解モデルの作成

実際にドキュメント理解モデルを作成して、SharePointのドキュメントライブラリに適用してみます。

SharePoint Syntexで利用できるドキュメント理解モデルは、カスタムモデルと事前構築済みモデルの2種類があります。
カスタムモデルはユーザーが作成するモデルです。
ドキュメント理解モデルとフォーム処理モデルの2種類があり、ユーザーがドキュメントの任意のフレーズやパターンを抽出するモデルを作成することができます。

また、事前構築済みモデルはSharePoint Syntex側で用意されているモデルです。
新しいカスタムモデルを最初から作成する代わりに、最初から文書のどこの文字列を抽出するかを判断する抽出器が作成されています。
現在、事前構築済みモデルは
  • 事前構築済みの請求書処理
  • 事前構築済みのレシート処理
の2種類が利用できます。
どちらも言語は英語のみに対応していますので、必要に応じて利用してください。

今回はカスタムモデルを作成してドキュメント理解モデルを作成していきます。

カスタムモデルの作成準備

SharePoint Syntexのカスタムモデルを作成するに必要なものは以下の通りです。
  • SharePoint Syntexのライセンスが付いたアカウント
  • 作成したいモデルと同じファイル例(ポジティブ) 最低5個
  • 作成したいモデルとは異なるファイル例(ネガティブ) 最低1個
  • 分類したいドキュメントを格納するドキュメントライブラリ
用意するドキュメントのポジティブな例とネガティブな例はMicrosoftのドキュメントで以下のように説明されています。

  • ポジティブな例: ドキュメントの種類を表すドキュメント。 これらには、この種類のドキュメントに常に存在する文字列と情報が含まれます。
  • ネガティブな例: 分類するドキュメントを表さない他のドキュメント。

Microsoft SharePoint Syntexで分類子を作成する -Microsoft

カスタムモデルを作成する

① SharePoint Syntexのコンテンツセンターにアクセスし、グローバルナビゲーションのModelsを選択します。

SharePoint Syntexのコンテンツセンター



② 左上の「+モデルの作成」ボタンを押します。

モデル一覧画面


③ モデルの名前を入力し、モデルの種類から「カスタム文書理解」を選択して、作成ボタンをクリックします。

モデルの新規作成画面



④ サンプルファイルの追加の「ファイルの追加」をクリックし、作成したいモデルと同じファイルを5個、異なるファイルを1個選択します。

モデル作成画面

サンプルドキュメントの追加画面



⑤ 分類子を作成します。
ファイルを分類してトレーニングを実行の「トレーニングの分類子」をクリックします。

モデル作成画面



⑥ サンプルファイルとして追加されたファイルのうちどれがポジティブか、ネガティブかをラベル付けします。
ファイルを選択すると「このファイルは〈モデル名〉の例ですか?」と表示されるので、ポジティブファイルの場合は「はい」、ネガティブファイルの場合は「いいえ」を選択します。

サンプルドキュメントのラベル付け画面



⑦ 画面上部のタブの「トレーニング」を選択し、モデルを定義する説明を作成します。
左上の説明から「+新機能」をクリックし、空白を選択します。

分類子の新規作成


名前の入力と説明の種類から「語句の一覧」選択します。
すると下部に語句の一覧という入力項目ができるので、モデルを適用したいドキュメントに共通して記載されている文字列を記入します。

語句の一覧の入力画面


「モデルのトレーニング」をクリックするとトレーニングが始まり、アップロードしたファイルが作成した機能に沿ったポジティブファイルかどうかを判別します。

モデルのトレーニングと結果



⑧ 画面上部の「テスト」タブを開き、ラベル付けしなかったファイルをアップロードすることで、作成しているモデルが正常にドキュメントを判別できるかをテストできます。

⑨ 抽出子を作成します。
「エクストラクターの作成」をクリックします。

モデルの作成画面



⑩ 新しいエンティティ抽出子の「新しい名前」を入力し、「作成する」ボタンをクリックします。
SharePointで利用する列名となるため、別のモデルで使用している名前では作成できません。

新規エンティティ抽出子作成画面


また、詳細設定を開くと列を新規で作成するか、既存の列を使用するかの選択と、列の種類を選ぶことができます。

⑪ 抽出したい文字列にラベルを付けます。
サンプルファイルの文中で抽出したい箇所をクリックアンドドラッグで選択します。
選択したのちに右上の保存をクリックすると、左のサンプルファイル一覧のラベル列に選択した文字列が表示されます。
この作業を最低5ファイル行います。

抽出する文字列へのラベル付け


ネガティブな例(抽出したい文字列がない例)には「ラベルなし」のチェックボックスにチェックを入れます。

抽出する文字列がない場合


⑫ 画面上部のタブの「トレーニング」を選択し、抽出する情報を見つける方法を支持します。
左上の説明から「+新機能」をクリックし、空白を選択します。

抽出する文字列の説明の作成

名前の入力と説明の種類から「語句の一覧」選択します。
すると下部に語句の一覧という入力項目ができるので、抽出したい文字列を判別できる情報を記述します。
例えば、「会社名 ディープコム」という文字列から会社名を抽出したいのであればラベルとして書かれている「会社名」の文字列を入力します。これにより、前項でラベリングした箇所が会社名の後ろであると判別できるようになるのです。

語句の一覧の入力

また、電話番号のように複数の表記形式をもつ場合、語句の一覧の入力項目に入力パターンを記述することで抽出が可能になります。
その際は詳細設定を開き、各フレーズ内で一致する内容の任意の数字にチェックを入れることで0を任意の数字と見立ててパターンを記述できます。

電話番号の入力パターン設定

⑬ 画面上部の「テスト」タブを開き、トレーニングに使用しなかったファイルをアップロードすることで、作成した抽出子が正常に機能するかを確認できます。
問題がなければ「トレーニングの終了」をクリックします。

⑭ ドキュメントライブラリにモデルを適用します。
「モデルを適用」をクリックします。

モデル作成画面

⑮ モデルを適用したいサイトコレクションを選択します。

モデルを適用するサイトコレクションの選択

⑯ 選択したサイトコレクション内のドキュメントライブラリが一覧表示されるので、モデルを適用したいライブラリを選択します。

モデルを適用するドキュメントライブラリの選択

右下の「追加する」ボタンをクリックして、モデルの適用は完了です。

モデルをドキュメントライブラリに適用する


⑰ ドキュメントライブラリに移動し、ファイルをアップロードすることで適用したモデルによって追加された列に抽出した文字列が表示されます。

SharePoint Syntexの文書理解モデルが適用されたドキュメントライブラリ

まとめ

以上、SharePoint Syntexの文書理解モデルの作成方法をご紹介しました。

テンプレートが用意されているドキュメントにとても強いサービスだと感じられます。
また、今回はドキュメント理解モデルを作成しましたが、カスタムモデルにはフォーム処理モデルというドキュメントライブラリから直接作成するモデルもございます。
事前構築済みモデルも併せて必要に応じて使い分けていきたいです。

SharePointでのドキュメント整理にお困りの際にはぜひSharePoint Syntexをご検討してみてはいかがでしょうか。

以上、最後までご愛読いただき
ありがとうございました。

お問い合わせは、
以下のフォームへご連絡ください。

お問い合わせ

PAGETOP