モデル ZDNet AI 2026-05-12

AI動画分析でGeminiが勝利、ChatGPT・Claudeに差をつけた決定的理由

生成AIはテキスト処理だけでなく、動画コンテンツの分析領域でも急速に進化している。ITmediaの姉妹サイトが実施した独自テストによると、GoogleのGemini、OpenAIのChatGPT、AnthropicのClaudeの3モデルでYouTube動画とローカルファイルの解析精度を比較した結果、Geminiが最も高いパフォーマンスを示した。今回のテストは、各AIが実際に動画を「視聴」しているのか、それともフレームやメタデータを頼りに擬似的な分析を行っているに過ぎないのかを検証するものだ。

テスト手法と評価基準の全容

テストでは2種類の動画ソースを用いた。1つはYouTube上の公開クリップで、もう1つはユーザーが直接アップロードしたローカルのMP4ファイルである。評価項目は時系列に沿った出来事の正確な記述、登場人物や物体の認識精度、映像内で発生したイベントの因果関係理解、そして音声情報のテキスト化と文脈統合の4軸だ。

各モデルには同一のプロンプトを与え、動画内容の要約と特定シーンに関する質問への回答を求めた。テスト動画には意図的に複数のイベントを埋め込み、AIが前後の文脈をどれだけ保持できるかを測定している。評価はブラインド方式で行われ、回答の正確性を人間の評価者がスコアリングした。

フレーム抽出の限界を露呈したClaude

Claudeは今回のテストで最も顕著な弱点を見せた。同モデルは動画を連続的なストリームとして処理するのではなく、一定間隔で静止画フレームをサンプリングする方式を採用している。この制約により、フレーム間で発生する素早い動きや一時的なイベントの見落としが頻発した。テストに使用した5つの動画のうち3本で、重要なアクションシーケンスを完全に取り逃がす結果となった。

特に顕著だったのは、動画内で人物が物体を手渡すシーンである。Claudeは前後のフレームから物体の移動を推測したものの、実際の受け渡しの瞬間がサンプリングされなかったために「物体が突然消えた」と誤った解釈を出力した。Anthropicのドキュメントによると、Claudeの動画処理は現時点で1分あたり最大10フレームの抽出に留まり、これはリアルタイム分析には不十分な水準だ。

ChatGPTの音声認識と視覚統合の実力

ChatGPTはClaudeを上回るパフォーマンスを発揮した。OpenAIの実装は動画を一定間隔のフレームと音声トラックに分割し、両者を別々のモジュールで処理した後に統合するアーキテクチャを取っている。音声認識にはWhisperモデルが使用され、発話内容のテキスト化精度は極めて高い。テスト動画に含まれる英語音声の書き起こしでは、専門用語を含めても誤認識率は2%未満だった。

一方で映像と音声の時間的同期に課題が残る。動画内で話者が画面に映っていない状況や、BGMが音声と重なるシーンでは、どの発話が誰によるものかの帰属推定に混乱が生じた。5本中2本のテストで、発話者と映像内の人物を誤って紐付けるエラーが確認されている。OpenAIは2025年1月のアップデートで動画分析のフレームレートを従来の2倍に引き上げたと発表しているが、それでも連続的なモーション理解には至っていない。

Geminiが示したネイティブ動画理解の優位性

今回のテストで明確な勝者となったのはGoogleのGeminiだ。同モデルは競合2製品と根本的に異なるアプローチを採用している。Geminiは動画ファイルをフレームの集合としてではなく、時間軸を持つ連続的なデータストリームとして処理するアーキテクチャを持つ。これにより、フレーム間補間やモーション予測を必要とせず、実際の動きをそのまま解析できる。Googleの開発チームが公表した技術論文によると、このネイティブ動画理解は同社のTPU v5インフラ上で実現されており、処理遅延は5秒未満だ。

テストでは5本すべての動画で、時系列イベントの記述精度が95%を超えた。特に、スポーツ中継のクリップで選手の連続的なフォーム変化を正確に言語化できた点は、他モデルとの決定的な差となった。ChatGPTが「選手がジャンプしてシュートを打った」と記述したシーンを、Geminiは「右足で踏み切り、空中で体を約30度回転させながら左手でリリースした」と詳細に描写している。

日本企業への波及と実務応用の可能性

この技術優位性は、日本市場においても具体的なビジネスインパクトをもたらしつつある。Google Cloudの日本法人によると、2025年第1四半期に国内製造業3社がGeminiの動画分析機能を品質管理工程に試験導入した。自動車部品メーカーのアイシンは、組立ラインの動作解析にGeminiを活用し、従来のセンサーベースのシステムでは検出できなかった微細な異常動作の特定に成功したと発表している。

メディア業界では、放送局のアーカイブ映像のメタデータ自動付与や、スポーツ中継におけるリアルタイムハイライト生成への応用が検討されている。課題は処理コストとデータプライバシーであり、クラウドAPIの利用料金は1分あたり0.05〜0.1ドルと、大規模導入にはなおハードルが残る。とはいえ、動画データの指数関数的な増加を背景に、ネイティブ動画理解能力の有無はAIプラットフォーム選択における最重要基準の1つになりつつある。

元記事を読む（ZDNet AI）→