Research Desk

研究

論文、評価手法、モデル安全性、エージェント研究など、AIの最前線を読みます。

AI安全性

研究を理解するための重要テーマ。

評価

研究を理解するための重要テーマ。

ロボティクス研究

研究を理解するための重要テーマ。

学習手法

研究を理解するための重要テーマ。

Latest Articles

最新記事

NVIDIAが連合学習の実験設計をAIエージェントで自動化、研究サイクル高速化へ新手法

NVIDIAが連合学習の実験設計をAIエージェントで自動化、研究サイクル高速化へ新手法

連合学習(Federated Learning)の研究現場では、「次に何を試すべきか」という問いが常につきまとう。データを一箇所に集めずに機械学習モデルを訓練するこの手法は、プライバシー保護と

読む →
100万トークン時代のAI推論、NVIDIA基盤で動くMiniMax M3が変える「マルチモーダル単一モデル」の常識

100万トークン時代のAI推論、NVIDIA基盤で動くMiniMax M3が変える「マルチモーダル単一モデル」の常識

企業がAIを本格導入しようとするとき、多くの開発現場では「テキスト用」「画像用」「コード用」と、用途ごとに異なるモデルをつなぎ合わせる必要があった。この複雑なパイプラインが、開発速度の足かせに

読む →
長時間動き続けるAIエージェントの普及には、推論コストと精度維持という大きな壁があった。NVIDIAの新モデルは、巨大な頭脳と軽量な実行力を両立する仕組みで、この課題に正面から応えるものだ。

長時間動き続けるAIエージェントの普及には、推論コストと精度維持という大きな壁があった。NVIDIAの新モデルは、巨大な頭脳と軽量な実行力を両立する仕組みで、この課題に正面から応えるものだ。

この記事を一言でいうと NVIDIAが公開した大規模言語モデル「Nemotron 3 Ultra」は、総パラメータ数550Bの専門家混合モデルであり、実際に動くパラメータは55Bに抑えられてい

読む →
AIが「研究室の右腕」になれるかを問う新指標

AIが「研究室の右腕」になれるかを問う新指標

生命科学の実務7領域を評価、OpenAIがベンチマークを発表 2026年6月、OpenAIは生命科学研究におけるAIの実用度を測る新たなベンチマーク「LifeSciBench」を公開した。単な

読む →
大規模言語モデルの次に来る「エージェントロジック」、IBMが企業AI導入の新要件を提起

大規模言語モデルの次に来る「エージェントロジック」、IBMが企業AI導入の新要件を提起

大規模言語モデル(LLM)単体の性能向上だけでは、企業におけるAI導入はスケールしない。そんな問題意識にもとづき、IBM Researchが「エージェントロジック」と呼ぶ概念の必要性をあらため

読む →
レーザーで金属を“泡立てる”新技術、3Dプリンター向け合金の可能性を広げる

レーザーで金属を“泡立てる”新技術、3Dプリンター向け合金の可能性を広げる

金属3Dプリンターの最大の課題は、溶けた金属をいかに均一に混ぜるかだ。米国国立標準技術研究所(NIST)の研究チームは、レーザー照射によって溶融金属をその場で撹拌する手法を開発し、これまで製造

読む →
【タイトル】

【タイトル】

Googleの医療AI「AMIE」が慢性疾患の長期管理へ進化、医師と同等の判断力を実証 病気の診断を下すことは治療の第一歩に過ぎない。本当の課題は、診断がついた後、症状を長期間にわたって追跡し

読む →
なぜ対話AIの「本当の実力」は測れなかったのか──ServiceNowが113職種の評価基準を無償公開した意味

なぜ対話AIの「本当の実力」は測れなかったのか──ServiceNowが113職種の評価基準を無償公開した意味

ビジネスの現場で使われる音声AIアシスタントの評価が、いま大きな転換点を迎えている。航空券の予約変更なら完璧にこなすAIが、社内ヘルプデスクの福利厚生の質問で混乱する。そんな「領域による得意不

読む →
NVIDIAの「物理AI」新技術、自動運転・ロボット開発をどう変えるのか

NVIDIAの「物理AI」新技術、自動運転・ロボット開発をどう変えるのか

この記事を一言でいうと NVIDIAがCVPR(コンピュータビジョン・パターン認識の国際会議)で、現実世界で動くAIの開発を加速する「物理AIエージェント」向けの新技術群を発表した。 なぜ話題

読む →
NVIDIAが明かす「タスク種付き合成データ」、LLM訓練の質を構造化する新手法

NVIDIAが明かす「タスク種付き合成データ」、LLM訓練の質を構造化する新手法

大規模言語モデル(LLM)の開発では、学習に使うデータの「量」だけでなく「質」が問われる段階に入った。NVIDIAは、公開タスクの訓練データを「種」として使い、モデルに構造的な学習信号を与える

読む →
AIエージェントがコードを書く時代、ライブラリの「使わせ方」が開発競争の新基準に──Hugging Faceが検証

AIエージェントがコードを書く時代、ライブラリの「使わせ方」が開発競争の新基準に──Hugging Faceが検証

「コードが正しく動くか」より「AIエージェントが迷わず使えるか」が問われるようになってきた。Hugging Faceの研究チームは、同社の機械学習ライブラリ「transformers」を題材に

読む →
「LoRA一強」が終わる日──Hugging Faceが検証した“最適チューニング”の実力

「LoRA一強」が終わる日──Hugging Faceが検証した“最適チューニング”の実力

企業や個人が自前データで大規模言語モデルを調整するとき、今や「LoRA」を使うことが常識になっている。しかし、その当たり前に異議を唱える検証が、AIプラットフォームを運営するHugging F

読む →
ロボット産業を動かすシミュレーション技術が分野の壁を壊す時

ロボット産業を動かすシミュレーション技術が分野の壁を壊す時

工場で同じ動作をくり返すだけだったロボットが、一度も触れたことのない物体をその場で認識し、初見の部屋でも迷わず目的の棚へ向かう。そんな自在な動きを実現するうえで最大の障壁は、計算のなかで完璧に

読む →
推論AIの並列処理革命、性能限界を打破する適応型技術

推論AIの並列処理革命、性能限界を打破する適応型技術

大規模言語モデルの推論速度と正確性を劇的に向上させる「適応型並列推論」が新たな競争軸として浮上してきた。モデルが自らタスクを分解し、複数の処理を同時並行で走らせるこの手法は、従来の逐次処理が抱

読む →
AIエージェントの成長を測る固定テスト基盤、AmazonがBedrockに組み込み公開

AIエージェントの成長を測る固定テスト基盤、AmazonがBedrockに組み込み公開

導入 AIエージェントを業務に導入しても、その性能が上がっているのか、それとも劣化しているのかを正確に判断するのは難しい。日々変わる実トラフィックだけを眺めていても、一喜一憂するだけで本当の進

読む →
DatabricksがGPT-5.5採用 企業AIエージェントの業務精度が変わる理由

DatabricksがGPT-5.5採用 企業AIエージェントの業務精度が変わる理由

Databricksは2025年、大規模言語モデル「GPT-5.5」を自社のエンタープライズ向けAIエージェントワークフローに統合した。この動きは、同モデルが企業の事務処理能力を測るOffic

読む →
NVIDIAの単一モデル戦略がエージェント推論を変える理由

NVIDIAの単一モデル戦略がエージェント推論を変える理由

NVIDIAが単一の軽量モデルで画像・音声・動画・テキストを同時処理する「Nemotron 3 Nano Omni」を発表した。これにより、これまで複数モデルを組み合わせていたエージェント推論

読む →
Strandsが変えるAIアプリ開発 エージェント設計の新基盤

Strandsが変えるAIアプリ開発 エージェント設計の新基盤

Strands社が発表したエージェント構築フレームワークは、大規模言語モデルを活用したアプリケーション開発の工程を根底から短縮する設計思想を持つ。同社の技術資料によれば、これまで複数のAPI呼

読む →
NVIDIA Cosmos 3が物理AIの「世界モデル」を刷新、ロボットと自動運転の学習基盤が変わる

NVIDIA Cosmos 3が物理AIの「世界モデル」を刷新、ロボットと自動運転の学習基盤が変わる

いま、ロボットや自動運転車が「現実世界をどう理解するか」という根本的な課題に、生成AIの応用が急速に進んでいる。NVIDIAが発表した「Cosmos 3」は、テキストや画像だけでなく、物理法則

読む →
エンタープライズIT自動化の新指標、最先端モデルでさえ正答率50%未満の現実

エンタープライズIT自動化の新指標、最先端モデルでさえ正答率50%未満の現実

企業のIT運用をAIエージェントに任せる未来は、想像以上に遠いのかもしれない。2025年7月、分析機関Artificial AnalysisとIBM Researchが共同で発表したベンチマー

読む →
Open Agent Leaderboardが示すAIエージェント競争とAPIゲートウェイ支配の理由

Open Agent Leaderboardが示すAIエージェント競争とAPIゲートウェイ支配の理由

生成AIの活用がチャットボットから自律型エージェントへ移行するなか、誰でも参加できる公開評価基盤「Open Agent Leaderboard」が登場した。Kong社が2025年6月に発表した

読む →
NISTの粒子計測改善がAI品質管理にも波及する理由

NISTの粒子計測改善がAI品質管理にも波及する理由

米国国立標準技術研究所(NIST)の研究チームが、液体中に浮遊するナノ粒子の濃度をより正確に測定する新たな計算式を開発した。この成果は計測科学の基盤を底上げし、最終的にAIを活用した品質管理や

読む →
AI調達の構造限界、スケール偏重が7割の無駄を生む特化型戦略への転換点

AI調達の構造限界、スケール偏重が7割の無駄を生む特化型戦略への転換点

AIの調達現場で、スケール(規模)を追求する意思決定が運用コストの最大70%を浪費している実態が明らかになった。意思決定者の8割以上が汎用モデルの大きさを評価基準に据える一方、実際の業務適合性

読む →
パラメータゴルフが示したAI研究開発の新潮流 参加者1000人超

パラメータゴルフが示したAI研究開発の新潮流 参加者1000人超

AIによる機械学習研究の自動化が、1000人を超える開発者による異例のコンペティションで現実味を帯びてきた。「Parameter Golf」と名付けられたこの企画は、極めて厳しい計算リソース制

読む →
Amazon Quickが希少がん研究に参入、生物医学データ統合で変わる「仮説→検証」の競争軸

Amazon Quickが希少がん研究に参入、生物医学データ統合で変わる「仮説→検証」の競争軸

研究の世界では今、AIを活用して膨大な生物医学データをどう統合し、意味のある発見につなげるかが大きな課題になっている。特に患者数が少なく、研究リソースが限られる希少がん領域ではその重要性が際立

読む →
複数エージェントが文脈を共有し、自律的に調査を進める競争リサーチAIの構築手法が公開された。隔離された実行環境で動作するマネージドサービスの新形態が、AIエージェント開発の基盤を変えつつある。

複数エージェントが文脈を共有し、自律的に調査を進める競争リサーチAIの構築手法が公開された。隔離された実行環境で動作するマネージドサービスの新形態が、AIエージェント開発の基盤を変えつつある。

この記事を一言でいうと 開発者が複数のAIエージェントを連携させ、信頼性の高いリサーチワークフローを構築できる新手法が、Amazon Bedrock AgentCoreを通じて提供開始された。

読む →
IBM、VAKRAでAIエージェント評価

IBM、VAKRAでAIエージェント評価

IBMが2026年4月15日、企業環境におけるAIエージェントの推論能力を評価する新ベンチマーク「VAKRA」の詳細を発表した。従来の個別スキルテストと異なり、複数ステップにわたるワークフロー

読む →
OpenAI、ChatGPT for Cliniciansを米国医師に無償提供

OpenAI、ChatGPT for Cliniciansを米国医師に無償提供

OpenAIは2026年4月22日、臨床医向けに特化した「ChatGPT for Clinicians」を米国内の認証済み医師、NP、PA、薬剤師に対して無償で提供開始した。これは、増大する事

読む →
OpenAIがGPT-5.5をリリース 自律型AIの新時代到来

OpenAIがGPT-5.5をリリース 自律型AIの新時代到来

OpenAIは2026年4月23日、次世代大規模言語モデル「GPT-5.5」を正式リリースした。同モデルは、単なる対話を超え、複雑なタスクを自律的に計画・実行する「エージェントAI」の基準を塗

読む →
QIMMA、アラビア語LLM評価の信頼性向上

QIMMA、アラビア語LLM評価の信頼性向上

アラビア語対応大型言語モデル(LLM)の評価基準に新たな転換点が生じた。研究者グループが2026年4月に発表した新リーダーボード「QIMMA(キンマ)」は、既存の評価手法における品質問題を厳格

読む →
カーネギーメロン大学がAI自律型攻撃の性能格差を実証

カーネギーメロン大学がAI自律型攻撃の性能格差を実証

自律型AIが実際のブラウザ脆弱性をどこまで悪用できるかを測定する新たなベンチマークを、カーネギーメロン大学の研究チームが構築した。AnthropicのClaude MythosとOpenAIの

読む →
小米、自律コーディングでClaudeに肉薄

小米、自律コーディングでClaudeに肉薄

小米(シャオミ)が、新たなオープンウェイトAIモデル「MiMo-V2.5-Pro」をリリースした。同社によれば、このモデルはコーディングベンチマークにおいて、Anthropic社の最先端モデル

読む →
AIが評価する撮像システム、「情報量」で性能を数値化

AIが評価する撮像システム、「情報量」で性能を数値化

米カリフォルニア大学バークレー校の研究チームは、撮像システムの性能を「相互情報量」と呼ばれる単一指標で直接評価・最適化する新たな枠組みを開発した。2025年の国際会議NeurIPSで発表された

読む →
OpenAIが攻撃的セキュリティAIを限定公開 インフラ防衛に特化したGPT-5.5-Cyberの実力

OpenAIが攻撃的セキュリティAIを限定公開 インフラ防衛に特化したGPT-5.5-Cyberの実力

OpenAIは2026年4月、重要インフラの防御を目的とした新たなセキュリティ特化型AIモデル「GPT-5.5-Cyber」を、審査を通過した一部のセキュリティ研究者とパートナー企業に限定公開

読む →
フィールズ賞受賞者がChatGPT 5.5 Proで数学成果 2時間で博士級と評価

フィールズ賞受賞者がChatGPT 5.5 Proで数学成果 2時間で博士級と評価

数学の最高権威であるフィールズ賞受賞者のティモシー・ガワーズ氏が、OpenAIの最新モデル「ChatGPT 5.5 Pro」に未解決の整数論問題を与えたところ、人間の介入なしで2時間足らずのう

読む →
自律型AIのハッキング成功率が1年で6%から81%へ急上昇

自律型AIのハッキング成功率が1年で6%から81%へ急上昇

調査企業Palisade Researchの最新報告によると、AIエージェントがリモートコンピュータを自律的にハッキングし、自らを複製して拡散する能力が、わずか1年間で飛躍的に向上した。成功率

読む →
IBMの小型マルチモーダルAIが企業文書処理を変える理由

IBMの小型マルチモーダルAIが企業文書処理を変える理由

IBMは2024年10月、企業の文書処理に特化した小型マルチモーダルAIモデル「Granite 4.0 3B Vision」を発表した。パラメータ数わずか30億でありながら、表やグラフを含む複

読む →