Amazon Web Servicesは2025年、大規模言語モデルが抱えるコンテキストウィンドウの物理的制約を回避する新たな手法を発表した。同社のBedrock AgentCoreとStrands Agents SDKを組み合わせ、再帰的言語モデルを実装するこの構成は、処理対象ドキュメントの長さに上限を設けない分析を可能にする。カギはサンドボックス化されたPython実行環境で、AgentCore Code Interpreterを作業記憶領域として利用し、文書全体を分割したうえで段階的に要約と抽出を繰り返す点にある。単一の巨大プロンプトに頼らず、小規模なサブモデル呼び出しを連鎖させることで、理論上は無限長のテキストを扱える計算構造が成立した。
クラウド基盤とエージェント実行の分業構造
今回の発表が示すのは、AI推論における計算責務の分離が一段と進んだことである。従来、長文処理はモデル自体のアテンション機構や専用アーキテクチャで対処されてきた。しかし、Bedrock AgentCoreはコード実行環境をモデル外部に据え、ファイルの分割・管理・中間状態の保持といった制御ロジックを引き受ける。推論そのものはバックエンドの汎用LLMに委ね、AgentCoreがそれらの呼び出しをオーケストレーションする。この分業により、モデルプロバイダーが提供する最大トークン数に依存せず、クラウド側の耐久実行基盤だけで長文処理が完結する構造が見えてくる。
サンドボックスPythonが変えるデータ戦略
AgentCoreのCode Interpreterは隔離されたサンドボックスとして動作し、外部へのネットワークアクセスを持たない。この閉鎖性はエンタープライズ企業が機密文書を扱う際の担保となる一方、処理の永続性にも寄与する。ユーザーは長大なPDFや法的契約書をアップロードし、インタプリタ上でページごとに解析を走らせ、その要約を逐次的に次のLLM呼び出しへ渡せる。GPUに負荷を集中させるバッチ推論とは対照的に、セッションを維持したまま対話的に文書を掘り下げるワークロードが可能になった。Amazon Bedrockの従量課金モデルでこの構成を組めば、ピーク時に高価なGPUインスタンスを占有する必要がなく、コストと性能のトレードオフを利用者が制御できる。
モデル市場とマルチクラウドへの波及
今回の参照実装にStrands Agents SDKが用いられたことは、エージェント開発フレームワークの標準化競争も加速する兆候と言える。Anthropic、Meta、MistralなどBedrock上の複数モデルをAgentCoreが統一的に操作する構図は、特定ベンダーの独自SDKに縛られない選択肢を顧客に与える。これは同時に、OpenAIのAssistants APIやGoogle CloudのVertex AI Agent Builderとの差別化要素として、コード実行の耐久性とサンドボックス強度が前面に出てきたことを意味する。アナリスト予測では、エージェント実行環境の優劣が2026年までにクラウドAIサービスの選定基準になるとの見方がある。
日本企業が直面する文書処理コストの転換点
日本では保険約款、行政文書、製造仕様書など数千ページに及ぶ長文ドキュメントを扱う業種が多い。これまでRAGや独自の分割ロジックに多額の構築費を投じてきたが、AgentCoreの手法はクラウドマネージドのコード実行で代替可能な部分を拡大する。AWS東京リージョンのBedrock対応状況を踏まえると、データ主権を確保しながら長文分析をスケールさせる選択肢が、導入検討フェーズから本番設計フェーズへ移行する可能性がある。
今後問われる持続的セッションと精度保証
技術的には、再帰的要約の各ステップで情報欠落が発生しないか、中間状態のチェックポイント機構をどう設計するかが論点として浮上する。AgentCoreが保持するメモリの透明性や監査ログの取得方法が確立されなければ、規制産業では採用が進まない。また、サンドボックス内で呼び出すサブLLMの選択を動的に切り替えるポリシーや、コールドスタートを回避するセッション維持時間の最適化も、AWSのロードマップを評価するうえで注目すべき項目だ。実際のユースケース報告とベンチマークが次に求められる。