政策 WSJ Tech 2026-05-11

AI予測はなぜ割れる ChatGPTとGeminiとClaudeが示した異なる雇用リスク

最先端のAIモデルが、AIによって消失する職業について合意できていない。米国の経済学者が主要な生成AIに同じ質問を投げかけたところ、回答はモデルごとに大きく異なり、共通して「高リスク」と判定された職業は限られていた。この結果は、企業や政策立案者がAIの影響を試算する際に、特定のAIの回答だけを過信する危険性を浮き彫りにしている。

米経済学者による3モデル比較実験の中身

米バージニア大学とサウスカロライナ大学の研究者らは、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeという3つの代表的な大規模言語モデルに対し、米国労働省が定義する約800職種のリストを提示した。各AIには「AIによって自動化されるリスクが最も高い職業はどれか」を評価するよう求め、その回答の一貫性を精査した。

調査の結果、全モデルが口をそろえて高リスクと判定した職業は、わずか数職種にとどまった。テレマーケティングの営業担当者やデータ入力作業員など、反復的で定型的な業務が中心である。

一方で、会計士や監査人、ソフトウェア開発者、法律事務員といった専門職の評価はモデルによって二分された。あるAIは「高度に自動化可能」と判断し、別のAIは「人間の判断が不可欠」と結論づける場面が相次いだ。

この研究を主導したバージニア大学のエコノミスト、アントン・コリネク准教授は「同じデータセットを使い、同じ質問をしても、AIが出す雇用予測はこれほどまでにばらつく」と指摘する。

生成AIが示した相反するリスク判断の実例

具体的な職業評価で、3モデルの不一致は顕著だった。労働統計局の分類で「法務秘書および行政アシスタント」を評価した際、ChatGPTとClaudeは「AIによる代替リスクが極めて高い」と回答したのに対し、Geminiは「リスクは中程度にとどまる」と分析した。同様に「土木技師」については、あるモデルはAIの影響を限定的とみなし、別のモデルは業務の大部分が自動化可能と判定した。

このばらつきの要因として、各モデルが学習時に取り込んだデータの偏りや、強化学習のプロセスで人間のフィードバックを受けた際の価値観の違いが考えられる。AnthropicはClaudeを「有害でない回答」を重視して訓練しており、雇用破壊という社会的に敏感な話題ではより慎重な表現を選ぶ傾向がある。一方、OpenAIのChatGPTは予測数値を積極的に提示し、GoogleのGeminiはその中間に位置するというパターンが観察された。

研究者らは調査論文で「特定のAIモデルの出力を政策決定の根拠にすることは、方法論的に危うい」と警鐘を鳴らしている。AIの雇用予測はあくまで確率的な推論であり、人間の専門家による検証や複数モデルの結果照合が欠かせないという立場だ。

予測の不一致がはらむ政策と投資の誤算

AIによる雇用リスクの評価が定まらないことは、政府の労働政策や企業の投資判断に直接的な影響を及ぼす。例えば、ある国が特定のAIモデルの分析に基づいて職業再訓練プログラムに10億ドル規模の予算を投じた場合、そのAIが見落としていた職業の従事者が取り残される可能性がある。

EUではすでにAIのリスク評価を規制枠組み「AI法」に組み込む動きがあるが、評価のブレが大きい現状では、規制対象の線引きが困難になる。企業の人材戦略でも、AIの予測に過度に依存すると、実際には成長が見込める分野への採用を絞り込んでしまう誤りを犯しかねない。

ゴールドマン・サックスのレポートは、生成AIが世界で3億人分の雇用に影響を与えると試算する。しかし今回の研究結果は、そうしたマクロレベルの推計がどのAIモデルを使うかによって数千万人単位で変動しうることを示唆している。

日本企業のリスキリング戦略に突きつける課題

このAIの評価不一致は、日本の大手企業が加速させる生成AI導入とリスキリング計画の前提を揺るがす。国内のメガバンクや総合商社は、定型事務や資料作成業務へのAI導入を前提に、数年単位でホワイトカラーの人員構成を見直している。

しかし、どの職種が自動化されるかの判断を単一のAI分析に依存すれば、教育投資の優先順位を誤る恐れがある。ある国内IT大手は社内導入した生成AIの業務別適用評価で、開発者と総務部門のリスク度が海外動向と逆転するという結果に直面し、複数のAIモデルによる再検証に着手した。

日本の労働行政においても、厚生労働省が提供する職業情報提供サイトのAI影響評価は、特定のシンクタンクの分析に依存している。今回の研究は、単一の評価基準に頼ることの危うさをデータで示しており、官民双方での検証プロセス見直しが求められそうだ。

モデル間差異が生む新たなビジネス需要

AIの予測不一致は、新たなビジネス機会も生み出しつつある。複数の生成AIの出力を統合し、リスク評価の幅や確度を可視化する監査ツールの需要が、欧米のコンサルティングファームを中心に高まっている。

デロイトやPwCは既存のAIガバナンスサービスに「マルチモデル検証」のメニューを追加した。これにより、企業はChatGPT、Gemini、Claudeなど複数のAIに同じ分析をさせ、回答の分散度合いをスコア化できる。年間契約額は50万ドルからと高額だが、大規模な人員再配置を検討するグローバル企業にとっては必須の投資になりつつある。

バージニア大学のコリネク准教授は「AIは雇用の未来を映し出す鏡だが、今のところどの鏡もゆがんでいる」と述べ、複数モデルの結果を比較考量するリテラシーが経営者や政策担当者に不可欠だと強調する。AIが雇用を予測する時代にあって、その予測自体をどう評価するかが次の競争軸になる。

元記事を読む（WSJ Tech）→