生成AIがコードを数時間かけて書き続ける——そんな「長期タスク」が現実になろうとしている。中国Z.AIが発表した大規模言語モデル「GLM-5.2」は、100万トークンの文脈を安定的に扱いながら、長時間にわたるソフトウェア開発や機械学習研究を完遂する能力を、MITライセンスという完全オープンな形で提供する。長期タスクでの実用性という新たな競争軸が、AI開発の主戦場に浮上した。

この記事を一言でいうと

GLM-5.2は、100万トークンの超長文脈でも性能が落ちず、数時間〜数十時間かかるコーディングタスクを実用的な水準でこなせるオープンソースモデル。長期タスクでクローズドモデルに迫り、オープンソース勢の中で首位に立った。

なぜ話題なのか

生成AIの文脈長は「100万トークン」が一つの指標となっているが、実際には「受け付けられること」と「長いやり取りの中で品質を保つこと」は別問題だ。コード生成AIにとって、数百ステップに及ぶエージェントの試行錯誤の中で精度が落ちれば、実用には耐えない。

GLM-5.2はこの点に正面から取り組み、コーディングエージェントの長い軌跡全体で信頼性を維持する設計を施した点が評価されている。結果として、超長期のソフトウェア開発ベンチマークでOpenAIのGPT-5.5やAnthropicのOpus 4.7を上回る場面もあり、オープンソースモデルの到達点を塗り替えた。

一般読者や企業にどう関係するのか

企業のソフトウェア開発現場では、AIアシスタントが「単発のコード提案」から「プロジェクト全体を通した自律的な実装」へと役割を広げつつある。GLM-5.2のようなモデルは、大規模実装やパフォーマンス最適化、複雑なデバッグといった、数時間以上の集中作業をAIが伴走する世界を現実に近づける。

日本企業にとっては、MITライセンスで地域制限がない点が重要だ。オープンソースであるため、自社環境への導入やファインチューニングが自由に行え、国内の機密性の高いプロジェクトでも活用しやすい。クラウドAPIに依存しないオンプレミス運用の選択肢が広がることも、調達面での意味がある。

AI業界の構造で見ると何が変わるのか

長期タスク性能は、AIモデルの「頭の良さ」競争から「持続力」競争への重心移動を示している。単一の正解を当てるのではなく、複雑な目標に向けて粘り強く試行錯誤できるかが、次の差別化要因になる。

GLM-5.2の技術面では、「IndexShare」という手法で、100万トークン時にトークンあたりの計算量を2.9倍削減しつつ、投機的デコーディングの受け入れ長を最大20%改善した。これは、超長文脈での推論コストを実用水準に抑える設計であり、長期タスクの商業展開を後押しする。

オープンソース勢の中でGLM-5.2が長期ベンチマーク首位に立ったことで、クローズドなAnthropic Opus 4.8との差も一部で1%まで詰まった。GPT-5.5を上回る結果は、開発リソースの差をオープンコミュニティの改善速度が埋めつつある証拠でもある。

一次情報から確認できる事実

  • GLM-5.2は100万トークンの文脈を「solid(安定して)」維持可能
  • 長期タスク用ベンチマークFrontierSWEでOpus 4.8と1%差、GPT-5.5を1%上回る
  • PostTrainBenchではOpus 4.7とGPT-5.5を上回り、Opus 4.8に次ぐ2位
  • SWE-MarathonではOpus 4.8に13%差で及ばないが、Opusシリーズ以外では首位
  • 短期コーディングベンチマークでもTerminal-Bench 2.1で81.0、SWE-bench Proで62.1と、GLM-5.1から大幅改善
  • IndexShareにより4層ごとに同一インデクサーを再利用、100万トークン時のFLOPsを2.9倍削減
  • MTP層の改善で投機的デコーディングの受け入れ長が最大20%向上
  • MITライセンスで提供され、地域制限も技術的アクセス制限もない

関連企業・関連技術

  • Z.AI(智譜AI):中国発のAI企業。GLMシリーズを開発し、Hugging Face上でモデルを公開
  • Anthropic:Opusシリーズで長期タスクベンチマークの首位を維持。競合として比較対象に
  • OpenAI:GPT-5.5が比較対象として登場。一部ベンチマークでGLM-5.2が上回る
  • 関連技術領域:長文脈推論の効率化(スパースアテンション、投機的デコーディング)、AIエージェントの長期自律実行、オープンソースLLMの企業導入

今後の論点

GLM-5.2が示した「長期タスク実用性」は、AIモデル評価の新たなものさしを提起している。今後確認すべきは以下の点だ。

  • 実運用環境での長期タスク成功率と、ベンチマーク結果との乖離
  • 100万トークン推論のレイテンシとコストが、企業の実予算に収まるか
  • オープンソースモデルがクローズド最上位に完全に追いつくタイミング
  • 日本企業によるGLM-5.2の実導入事例と、日本語タスクへの適応状況

長期タスクを確実にこなせるAIは、単なる「道具」から「チームの一員」へと位置づけが変わる転換点になる。GLM-5.2はその扉を開いたと言える。