インフラ Hugging Face 2026-05-12

165ドルで25種のmRNA言語モデルを訓練、創薬変革の芽

米バイオテクノロジー企業がたった165ドルの計算コストで25種にわたる生物のmRNA解析用言語モデルを訓練した成果を発表した。巨大製薬企業が数億ドルを投じるmRNA創薬の基盤技術が、個人レベルの予算で実現可能になったことを示し、新たな医薬品開発競争の火蓋が切られている。

わずか165ドルで達成した訓練の全容

研究チームはヒト、マウス、ゼブラフィッシュなど25種の生物から得た数百万のmRNA配列データを活用し、大規模言語モデル（LLM）の一種であるBERTアーキテクチャを用いてモデルを訓練した。通常、同規模のモデル訓練には数千ドルのGPUコストがかかるとされるが、効率的なデータ処理と省電力アルゴリズムの採用により165ドルに抑制したという。論文によると訓練時間はシングルGPUで約23時間であり、クラウドサービスのスポットインスタンスを活用することで低価格を実現した。

このアプローチの核心は、mRNAの配列情報を自然言語の文法構造に見立て、コドンやヌクレオチドの並びを「文章」として学習させる点にある。モデルは5’キャップやポリAテールといった特徴的な構造から、リボソーム結合部位やタンパク質コード領域の文脈を理解し、mRNAの安定性や翻訳効率を高精度で予測する。研究を主導したスタンフォード大学発スタートアップのBioLM社は「モデルは配列の隠れた文法を発見し、既存の物理化学モデルを上回る予測性能を示した」と述べる。

mRNA医薬の設計コストを劇的に削減

この成果が特に注目されるのは、mRNAワクチンや核酸医薬の設計プロセスに革命をもたらす可能性があるためだ。モデルは特定のmRNA配列が細胞内で示す半減期や発現量を数値化する。開発者はコンピューター上で無数の変異配列を評価し、最適な候補を絞り込める。従来は候補配列ごとに合成と細胞実験を繰り返す必要があり、ひとつのリード配列最適化に数週間と数万ドルを要した。BioLM社は「初期検証ではモデルの予測に基づき設計したmRNAの細胞内発現量が最大3.2倍に向上した」と報告する。

25種の横断的学習も独自の強みである。ヒトとマウスで共通する配列モチーフや、種特異的な制御パターンをモデルが自動抽出するため、動物実験から臨床試験への橋渡しが円滑になる。前臨床段階での予測精度が上がれば、開発失敗リスクの低減にも直結する。製薬業界のアナリストは「数百億円規模の開発コスト削減につながる可能性があり、特に希少疾患向け核酸医薬の採算性を劇的に改善する」と評価する。

25種の生物種がもたらす創薬横断的な知見

研究で用いられた25種は、哺乳類から魚類、両生類、さらには植物や酵母まで多岐にわたる。種を超えたmRNAの共通文法を学習することで、進化的に保存された重要な調節メカニズムを同定できる。たとえば、特定の3’非翻訳領域に存在するモチーフが複数種でmRNA安定性を制御していることをモデルが示唆し、その後のin vitro実験で確認されたという。

こうしたクロススピーシーズのアプローチは、人獣共通感染症ワクチンの開発にも恩恵をもたらす。ウイルスが異なる宿主間でmRNAをどのように振る舞わせるかを比較解析することで、種を超えて有効なワクチン設計指針が得られる。同社は現在、インフルエンザと新型コロナウイルスの宿主域拡大を予測する派生モデルの開発も進めている。

日本企業へのインパクトと競争環境

国内の核酸医薬分野では、第一三共やアステラス製薬などがmRNAプラットフォームへの投資を加速させている。特に第一三共は2025年までにmRNAワクチンの自社開発体制を整える計画を公表しており、今回の低コストモデル訓練手法は国内スタートアップの参入障壁を大幅に下げる。実際、東京大学発のRNA創薬ベンチャーであるアクセリード社は「クラウド環境を活用すれば数百万円で自社モデルを構築できる」と表明し、早期の概念実証に乗り出した。

一方、モデルの性能評価には注意も必要だ。計算による予測と実際の生体内挙動には乖離が残り、最終的には動物実験や臨床試験による検証が不可欠である。特許戦略も競争の軸となる。BioLM社はモデル自体をオープンソース化する方針だが、特定の治療標的に対する予測アルゴリズムの用途特許を出願中であり、ライセンス供与を収益源とする構えだ。創薬ツールの民主化と知的財産の囲い込みという両面をどう両立させるかが、次の焦点になる。

元記事を読む（Hugging Face）→