【Microsoft Azure】API管理？意外と知られていないAPI Managementをご紹介！Part2【生成AI】

2025.06.30

AIゲートウェイ
AIエージェントとMCP対応
Workspacesによるフェデレーション機能
まとめ

（これはPart2です。よろしければPart1をお読みになってからこちらをお読みください。）

こんにちは、MS開発部の渋谷です。

Part1では、Azure API Management（APIM）の中心となる構成要素、サービスレベル、ネットワークアーキテクチャ、そして基本的なガバナンスポリシーという基本的な概念を紹介しました。これらの要素は、堅牢でスケーラブルなAPI基盤を構築するための不可欠なビルディングブロックです。

Part2では、APIMが単なる伝統的なAPI管理ツールから、よりインテリジェントで分散化されたエンタープライズニーズに応えるプラットフォームへとどのように進化しているかを紹介します。

具体的には、近年の技術トレンドを牽引する二つの大きな潮流、すなわち「生成AIを活用したアプリケーションの爆発的普及」と「大規模組織における分散型（フェデレーテッド）APIガバナンスの必要性」に対応する、APIMの最先端機能の概要を紹介します。

AIゲートウェイ

「AIゲートウェイ」は独立した製品ではなく、既存のAPIMゲートウェイ内に組み込まれた、特に大規模言語モデル（LLM）ベースのAPIを管理するために設計された強力な機能群の総称です。これらの機能は、企業がAzure OpenAI Serviceのような生成AIサービスを大規模に利用する際に直面する、特有の課題を解決するために開発されました。

※GitHub – Azure-Samples/AI-Gateway: APIM ❤️ AI – This repo contains experiments on Azure API Management’s AI capabilities, integrating with Azure OpenAI, AI Foundry, and much more 🚀 . New workshop experience at https://aka.ms/ai-gateway/workshop より引用

コストとクォータの制御:
- 課題: 生成AIの利用コストはトークン消費量に直結します。複数のアプリケーションやチームが共有のAzure OpenAIリソースを利用する場合、特定の利用者がクォータ（TPM: Tokens Per Minute）を独占し、コストが予測不能になるリスクがあります。
- 解決策: APIMのazure-openai-token-limitポリシーは、この課題に対する直接的な解決策を提供します。このポリシーにより、サブスクリプションキーやIPアドレスといったキーに基づき、TPMまたは指定期間内の固定トークンクォータという、きめ細かな流量制御が可能になります。特筆すべきは、プロンプトトークンをゲートウェイ側で事前計算し、制限を超えるリクエストをバックエンドに到達する前に「フェイルファスト」させることで、無駄なトークン消費とコストを未然に防ぐ機能です。

パフォーマンスとレイテンシ:
- 課題: 同じ、あるいは意味的に類似したプロンプトが繰り返し送信される場合でも、都度LLMにリクエストを送信するのは非効率であり、トークン消費とレイテンシの増大を招きます。
- 解決策: APIMは「セマンティックキャッシュ」という高度なキャッシング機能を提供します。これは単純なキー・バリュー型キャッシュとは一線を画します。azure-openai-semantic-cache-storeおよびazure-openai-semantic-cache-lookupポリシーを利用し、外部のRedisキャッシュ（Azure Cache for Redisなど）と連携します。リクエストされたプロンプトの埋め込みベクトル（Embeddings）を生成し、キャッシュ内に意味的に類似する過去のプロンプトが存在するかを検索します。類似のプロンプトが見つかれば、LLMを呼び出すことなくキャッシュされたレスポンスを返すことで、トークン消費とレイテンシを劇的に削減します。

信頼性と高可用性:
- 課題: 単一のAzure OpenAIエンドポイントに依存すると、そのエンドポイントの障害や性能限界がシステム全体の可用性に直結します。
- 解決策: APIMのbackendエンティティ機能を用いて、複数のAzure OpenAIインスタンスから成るロードバランシングプールを構成できます。これにより、ラウンドロビン、重み付け、優先度ベースといった柔軟なルーティング戦略が可能になります。例えば、通常はコスト効率の良いProvisioned Throughput Unit (PTU)インスタンスにトラフィックを送り、その容量を超えた場合は従量課金制インスタンスにスピルオーバーさせる、といった高度なシナリオが実現できます。さらに、サーキットブレーカー機能により、障害が発生したバックエンドを自動的にローテーションから切り離し、システムの回復力を高めます。

セキュリティと責任あるAI (Responsible AI):
- 課題: ユーザーからのプロンプトに、ヘイトスピーチや暴力的表現など、不適切または有害なコンテンツが含まれるリスクがあります。
- 解決策: llm-content-safetyポリシーは、プロンプトをバックエンドのLLMに送信する前に、まずAzure AI Content Safetyサービスに転送して内容を検査します。有害なコンテンツが検出された場合、リクエストはブロックされ、LLMへの到達を防ぎます。これにより、責任あるAIの原則に沿った安全なAPI運用が実現します。

可観測性:
- 課題: どのアプリケーションがどれだけのトークンを消費しているかを正確に把握し、部門間のチャージバックやキャパシティプランニングに活かすことは困難です。
- 解決策: azure-openai-emit-token-metricポリシーと診断設定を組み合わせることで、プロンプト、補完、合計トークンといった詳細な使用量メトリックをApplication Insightsに送信できます。これにより、利用状況が可視化され、データに基づいた意思決定が可能になります。

組織内で生成AIの利用が分散的かつ爆発的に拡大する中で、ガバナンスの欠如は大きな経営課題となり得ます。APIMは、コスト、セキュリティ、責任あるAIに関する企業ポリシーを強制するための一元的な層を提供し、個々のアプリケーションレベルでは不可能な統制を実現します。

これにより、APIMは伝統的なAPIゲートウェイから、スケーラブルで統制の取れたエンタープライズAI導入を可能にするための重要な製品になりました。

AI GatewayのサンプルやデモはこちらのGitHubにたくさん用意されているのでぜひのぞいてみてください。

AIエージェントとMCP対応

APIMの進化は、AIエージェントとの連携という新たな領域に踏み出しています。その中核技術がMCP (Model Context Protocol)です。

MCPとは？ 「AIのためのUSB-Cポート」とも呼ばれるオープンスタンダードで、AIエージェント（例：GitHub Copilot）が外部の「ツール」（APIやデータベースなど）を発見し、対話する方法を標準化します。

APIMの役割：APIからAIツールへ: APIMは、管理下にある既存のREST APIを、わずか数クリックでリモートMCPサーバーとして公開する機能（プレビュー）を導入しました。これは画期的な機能であり、組織が保有する膨大なAPI資産を、コード変更なしにAIエージェントが利用可能なツールライブラリへと即座に転換できることを意味します。この機能は現在、Classic/v1レベルに限定されています。

アーキテクチャ：MCP認証ゲートウェイとしてのAPIM: リモートMCPサーバーは、インターネットに公開されるため、堅牢なセキュリティが不可欠です。APIMは、これらのサーバーのためのセキュアなプロキシとして機能し、認証・認可を代行します。具体的なフローとして、MCPクライアント（例：VS Code内のCopilot）がAPIMに接続し、APIMがポリシーを適用した上で、バックエンドのMCPサーバー（Azure FunctionsやContainer Appsで実装）にリクエストを安全に転送します。特に、APIMのCredential Manager機能を利用して、ユーザーに代わってGitHubのようなバックエンドサービスへのOAuth 2.0認証フローを処理し、トークンを安全に管理するアーキテクチャが実現可能です。

広がるエコシステム: さらに、Azure API Centerと連携し、MCPサーバーを組織内の中央レジストリとして登録・発見・管理する機能も登場しており、エンタープライズ規模でのAIツール管理基盤が整備されつつあります。

MCPのサポートによって、APIMの機能はさらに強化されました。APIMは、エージェント対APIという新しい分野でも、ゲートウェイとしての役割を持つことになります。これは、自律的なAIエージェントが様々なツールをオーケストレーションして複雑なタスクを実行する、「エージェント型」ソフトウェアの時代で今後利活用が期待されます。

APIMがこれらのツールのためのセキュリティとガバナンス層を提供することで、この新しい形態のオートメーションをエンタープライズ環境で安全かつ大規模に採用することが可能になります。

Workspacesによるフェデレーション機能

エンタープライズ企業では、「中央集権的なガバナンス」と「現場の迅速な開発」がしばしば対立します。このジレンマを解決するのが、一般提供が開始されたWorkspaces機能です。

フェデレーションモデルの実現 Workspacesは、単一のPremiumレベルのAPIMインスタンス内に、部署ごとの論理的な管理スペースを作成します。これにより、中央のプラットフォームチームがインフラ全体を統制しつつ、各開発チームは自分たちのスペース内で自律的にAPIを管理・公開できます。

ランタイム分離による信頼性向上 各ワークスペースは専用のWorkspace Gatewayに関連付けることができ、ランタイム（実行環境）を分離できます。これにより、あるチームのAPIで発生した問題（例：ポリシー設定ミスによる高負荷）が、他のチームのAPIに影響を及ぼすのを防ぎます。これは、大規模な本番環境での安定運用を可能にする決定的に重要な機能です。

Workspacesは、技術的な機能以上に、大企業の組織構造に適合し、「統制」と「自律」を両立させるための戦略的なソリューションです。