ジェネラリスト医療用人工知能の基礎モデル

ブログ

ホームページホームページ / ブログ / ジェネラリスト医療用人工知能の基礎モデル

Mar 10, 2023

ジェネラリスト医療用人工知能の基礎モデル

Natura Volume 616, pagine

Nature volume 616、pages 259–265 (2023)この記事を引用

92k アクセス

5 引用

638 オルトメトリック

メトリクスの詳細

非常に柔軟で再利用可能な人工知能 (AI) モデルの異例の急速な開発により、医療に新たな機能が生まれる可能性があります。 私たちは医療 AI の新しいパラダイムを提案します。これをジェネラリスト医療 AI (GMAI) と呼びます。 GMAI モデルは、タスク固有のラベル付きデータをほとんどまたはまったく使用せずに、さまざまなタスクのセットを実行できます。 大規模で多様なデータセットの自己監視を通じて構築された GMAI は、画像データ、電子医療記録、検査結果、ゲノミクス、グラフ、医療テキストなどの医療モダリティのさまざまな組み合わせを柔軟に解釈します。 モデルは次に、高度な医学的推論能力を示すフリーテキストの説明、音声による推奨事項、または画像の注釈などの表現力豊かな出力を生成します。 ここでは、GMAI に大きな影響を与える可能性のある一連のアプリケーションを特定し、それらを実現するために必要な具体的な技術的能力とトレーニング データセットを示します。 私たちは、GMAI 対応アプリケーションが医療用 AI デバイスの規制と検証に関する現在の戦略に挑戦し、大規模な医療データセットの収集に関連する実践を変えることを期待しています。

最新世代の AI モデルである基盤モデルは、大規模で多様なデータセットでトレーニングされ、多数の下流タスクに適用できます1。 個々のモデルは、テキストに関する質問への回答から画像の説明、ビデオ ゲームのプレイに至るまで、さまざまな問題で最先端のパフォーマンスを達成できるようになりました 2、3、4。 この多用途性は、特定のタスクを 1 つずつ解決するように設計された前世代の AI モデルからの大きな変化を表しています。

データセットの増大、モデル サイズの増大、モデル アーキテクチャの進歩により、基礎モデルはこれまでにない機能を提供します。 たとえば、2020 年に言語モデル GPT-3 は新しい機能を解放しました。それは、テキストの説明 (または「プロンプト」) から学習するだけで、明示的にトレーニングされたことのないまったく新しいタスクをモデルが実行するインコンテキスト学習です。 )いくつかの例が含まれています5。 さらに、最近の多くの基盤モデルは、さまざまなデータ モダリティの組み合わせを取り込み、出力することができます4,6。 たとえば、最近の Gato モデルは、チャット、画像のキャプション、ビデオ ゲームのプレイ、ロボット アームの制御ができるため、ジェネラリスト エージェントとして説明されています2。 特定の機能は最大のモデルでのみ現れるため、さらに大規模なモデルで何が達成できるかを予測することは依然として困難です7。

医療基盤モデルを開発する初期の取り組みが行われてきました8、9、10、11が、大規模で多様な医療データセットへのアクセスの難しさ、医療ドメインの複雑さ、医療データの最新性などの理由から、この変化は医療AIにはまだ広く浸透していません。この展開。 その代わり、医療 AI モデルの大部分は依然としてタスク固有のモデル開発アプローチで開発されています。 たとえば、胸部 X 線読影モデルは、すべての画像が肺炎の陽性または陰性として明示的にラベル付けされているデータセットでトレーニングされる可能性があり、おそらくかなりのアノテーション作業が必要になります。 このモデルは肺炎を検出するだけであり、包括的な放射線医学レポートを作成するという完全な診断作業を実行することはできません。 この狭いタスク固有のアプローチでは、トレーニング データセットとそのラベルによって事前定義されたタスクの実行に限定された、柔軟性の低いモデルが生成されます。 現在の実践では、このようなモデルは通常、別のデータセットで再トレーニングしない限り、他のタスク (または同じタスクの異なるデータ分布) に適応することはできません。 食品医薬品局の承認を受けた臨床医学用の 500 を超える AI モデルのうち、ほとんどは 1 つまたは 2 つの狭いタスクに対してのみ承認されています12。

ここでは、基礎モデル研究における最近の進歩が、このタスク固有のパラダイムをどのように破壊する可能性があるかを概説します。 これらには、明示的なラベル (言語モデリング 15 や対照学習 16 など) を不要にするマルチモーダル アーキテクチャ 13 や自己教師あり学習技術 14 の台頭、およびコンテキスト内学習機能 5 の出現が含まれます。

これらの進歩により、代わりに高度な医療基盤モデルのクラスである GMAI の開発が可能になります。 「ジェネラリスト」は、医療アプリケーション全体で広く使用され、タスク固有のモデルを主に置き換えることを意味します。

医学外の基礎モデルから直接インスピレーションを得て、GMAI モデルを従来の医療 AI モデルと区別する 3 つの重要な機能を特定しました (図 1)。 まず、GMAI モデルを新しいタスクに適応させることは、そのタスクを平易な英語 (または別の言語) で説明するのと同じくらい簡単です。 モデルは、再トレーニングすることなく、新しいタスクを説明してもらうだけで (動的タスク仕様)、これまで見えなかった問題を解決できるようになります 3,5。 第 2 に、GMAI モデルは入力を受け入れ、データ モダリティのさまざまな組み合わせを使用して出力を生成できます (たとえば、画像、テキスト、検査結果、またはそれらの任意の組み合わせを取り込むことができます)。 この柔軟な対話性は、事前に定義されたモダリティのセットを入力および出力として常に使用する、より厳格なマルチモーダル モデルの制約とは対照的です (たとえば、画像、テキスト、検査結果を常に一緒に取り込む必要があります)。 第三に、GMAI モデルは正式に医学知識を表現し、これまで目に見えなかったタスクを推論し、医学的に正確な言語を使用して出力を説明できるようになります。

この医療AIのパラダイムシフトを実現するための具体的な戦略を列挙します。 さらに、この新世代のモデルが可能にする、潜在的に大きな影響を与える一連のアプリケーションについても説明します。 最後に、GMAI が約束する臨床的価値を提供するために克服しなければならない中心的な課題を指摘します。

GMAI モデルは、特定のタスクに対するラベルをほとんどまたはまったく必要とせずに、現在の医療 AI モデルよりも多様で困難なタスクを解決できると約束しています。 GMAI の 3 つの定義機能のうち、2 つは GMAI モデルとユーザーの間の柔軟な対話を可能にします。1 つは動的に指定されたタスクを実行する機能です。 2 番目は、データ モダリティの柔軟な組み合わせをサポートする機能です。 3 番目の機能では、GMAI モデルが医療分野の知識を正式に表現し、それを活用して高度な医学的推論を実行する必要があります。 最近の基盤モデルは、複数のモダリティ 2 を柔軟に組み合わせたり、テスト時に新しいタスクを動的に指定できるようにしたり 5 することで、すでに GMAI の個別の側面を示していますが、3 つの機能すべてを備えた GMAI モデルを構築するには、依然として大幅な進歩が必要です。 たとえば、医学的推論能力を示す既存のモデル (GPT-3 や PaLM など) はマルチモーダルではなく、信頼性の高い事実に基づく記述をまだ生成していません。

GMAI は、ユーザーがカスタム クエリを通じてモデルを操作できる機能を提供し、さまざまな対象者が AI の洞察を理解しやすくし、タスクや設定全体にわたって前例のない柔軟性を提供します。 現在の実践では、AI モデルは通常、狭いセットのタスクを処理し、厳格で事前に決定された一連の出力を生成します。 たとえば、現在のモデルは、1 種類の画像を取り込み、その病気の可能性を常に出力することで、特定の病気を検出する可能性があります。 対照的に、カスタム クエリを使用すると、ユーザーはその場で質問を思いつくことができます。「この頭部 MRI スキャンで現れた腫瘤について説明してください。腫瘍と膿瘍のどちらの可能性が高いでしょうか?」。 さらに、クエリを使用すると、ユーザーは出力の形式をカスタマイズできます。「これは神経膠芽腫患者のフォローアップ MRI スキャンです。腫瘍がある場合は赤色で輪郭を描きます。」

カスタム クエリでは、次の 2 つの主要な機能 (動的なタスク仕様とマルチモーダル入出力) が有効になります。

カスタム クエリは、AI モデルに新しい問題をその場で解決するように学習させ、モデルを再トレーニングすることなく新しいタスクを動的に指定できます。 たとえば、GMAI は、「この超音波を考慮すると、胆嚢壁の厚さはミリメートルでどれくらいですか?」という非常に具体的な、これまで見たことのない質問に答えることができます。 当然のことながら、GMAI モデルは、未知の概念や病理を伴う新しいタスクを完了するのに苦労する可能性があります。 次に、コンテキスト学習により、ユーザーはいくつかの例を挙げて新しい概念について GMAI に教えることができます。「これは、新興疾患であるランヤ ヘニパ ウイルス感染症に罹患した過去の患者 10 人の病歴です。現在の患者が感染する可能性はどのくらいですか。」ランヤ ヘニパウイルスにも感染していますか?」17.

カスタム クエリを使用すると、ユーザーは質問に複雑な医療情報を含めることができ、モダリティを自由に組み合わせることができます。 たとえば、臨床医は診断を求めるときに、クエリに複数の画像と検査結果を含める場合があります。 GMAI モデルは、ユーザーがテキストによる回答と付随する視覚化の両方を要求した場合など、さまざまなモダリティを応答に柔軟に組み込むこともできます。 Gato などの以前のモデルに続き、GMAI モデルは、各モダリティのデータを「トークン」に変換することでモダリティを結合できます。各モダリティは、モダリティ間で結合できる小さな単位 (たとえば、文内の単語や画像内のパッチ) を表します。 このトークンの混合ストリームは、トランスフォーマー アーキテクチャ 18 に供給され、レポート、波形信号、検査結果、ゲノム プロファイル、画像研究を含む特定の患者の病歴全体を GMAI モデルに統合できるようになります。

臨床医とはまったく対照的に、従来の医療 AI モデルは通常、特定のタスクのトレーニングを受ける前に医療領域に関する事前知識が不足しています。 代わりに、コンテキスト情報 (たとえば、病態生理学的プロセスに関する) を持たずに、入力データの特徴と予測ターゲットの間の統計的関連のみに依存する必要があります。 この背景の欠如により、特にタスクのデータが不足している場合、特定の医療タスクのモデルをトレーニングすることが困難になります。

GMAI モデルは、医学知識を正式に表すことで、これらの欠点に対処できます。 たとえば、ナレッジ グラフなどの構造を使用すると、モデルが医療概念とそれらの間の関係について推論できるようになります。 さらに、GMAI は、最近の検索ベースのアプローチに基づいて、記事、画像、または過去の事例全体の形式で、既存のデータベースから関連するコンテキストを取得できます 19,20。

結果として得られるモデルは、次のような自明の警告を発することができます。「この患者は重度の胸部外傷で最近入院し、患者の動脈血中の酸素分圧がにもかかわらず、着実に低下しているため、急性呼吸窮迫症候群を発症する可能性があります。」吸気された酸素の割合が増加します。」

GMAI モデルは、主に観察データに基づいてトレーニングされているにもかかわらず、推奨治療の提供を求められることもあるため、医学概念と臨床所見の間の因果関係を推論し活用するモデルの能力は、臨床応用性にとって重要な役割を果たすことになります 21。

最後に、GMAI モデルは、AI ベースの薬物再利用に関する初期の研究で例示されているように、豊富な分子知識と臨床知識にアクセスすることで、関連する問題の知識を利用して、限られたデータでタスクを解決できます。

さまざまなユーザーベースと分野を対象とした GMAI の潜在的なユースケースを 6 つ紹介しますが、リストはすべてを網羅しているわけではありません。 これらの分野ではすでにAIの取り組みが行われていますが、GMAIによってそれぞれの課題に対する包括的な解決が可能になると期待しています。

GMAI は、新世代の多用途デジタル放射線アシスタントを可能にし、放射線科医のワークフロー全体をサポートし、作業負荷を大幅に軽減します。 GMAI モデルは、患者の病歴も考慮しながら、異常と関連する正常所見の両方を説明する放射線医学レポートを自動的に作成できます。 これらのモデルは、各フレーズで説明される領域を強調表示するなど、テキスト レポートとインタラクティブな視覚化を組み合わせることで、臨床医にさらなる支援を提供できます。 放射線科医は、GMAI モデルと「前の画像には存在しなかった新たな多発性硬化症病変を強調してもらえますか?」とチャットすることで、症例の理解を高めることもできます。

ソリューションでは、さまざまな放射線治療法を正確に解釈し、微妙な異常にも気づく必要があります。 さらに、画像を説明する際には、適応症、検査結果、以前の画像などの情報源を含む、患者の病歴からの情報を統合する必要があります。 また、テキストによる回答と動的に注釈が付けられた画像の両方を提供する、複数のモダリティを使用して臨床医と通信する必要もあります。 そのためには、画像のどの部分が何らかのステートメントをサポートしているかを正確に指摘し、視覚的に根拠を示すことができなければなりません。 これは、専門家がラベル付けした画像に対する教師あり学習によって達成される可能性がありますが、Grad-CAM などの説明可能性手法を使用すると、ラベル付きデータを必要とせず、自己教師ありアプローチが可能になる可能性があります 23。

私たちは、外科チームの処置を支援できる外科用 GMAI モデルを期待しています。「腸破裂が見つかりません。過去 15 分間の映像フィードで腸切片の表示を見逃していないか確認してください。」 GMAI モデルは視覚化タスクを実行し、手順のビデオ ストリームにリアルタイムで注釈を付ける可能性があります。 また、手順のステップがスキップされたときに警告を発したり、外科医がまれな解剖学的現象に遭遇したときに関連文献を読み上げたりするなど、音声形式で情報を提供することもあります。

a, GMAI モデルは、自己教師あり学習などの手法を通じて、複数の医療データ モダリティでトレーニングされます。 柔軟な対話を可能にするために、画像や EHR からのデータなどのデータ モダリティを、テキストまたは音声データの形式で言語と組み合わせることができます。 次に、GMAI モデルは、医学的推論タスクを実行するためにさまざまな医学知識のソースにアクセスし、下流のアプリケーションで使用できる豊富な機能を解放する必要があります。 結果として得られる GMAI モデルは、ユーザーがリアルタイムで指定できるタスクを実行します。 このため、GMAI モデルは、ナレッジ グラフやデータベースなどのソースからコンテキスト情報を取得し、正式な医学知識を活用して、これまで目に見えなかったタスクについて推論することができます。 b. GMAI モデルは、臨床分野にわたる多数のアプリケーションの基盤を構築しますが、それぞれに慎重な検証と規制の評価が必要です。

このモデルは、内視鏡処置など、手術室の外での処置にも役立ちます。 解剖学的知識を用いて地形的なコンテキストと理由を捉えるモデルは、これまで見たことのない現象について結論を導き出すことができます。 たとえば、十二指腸内視鏡検査で現れる大きな血管構造は、これまで大動脈十二指腸瘻孔に遭遇したことがなくても、大動脈十二指腸瘻孔 (つまり、大動脈と小腸の間の異常な接続) を示している可能性があると推測できます (図 2、右パネル)。 GMAI は、最初に血管を検出し、次に解剖学的位置を特定し、最後に隣接する構造を考慮することで、このタスクを解決できます。

a、GMAI は、多用途かつ一目瞭然のベッドサイドでの意思決定サポートを可能にする可能性があります。 b. グラウンデッド放射線学レポートには、各所見を視覚化するためのクリック可能なリンクが装備されています。 c. GMAI は、モデル開発中にこれまで遭遇したことのない現象を分類できる可能性があります。 拡張手順では、まれな異常値の所見が、医療分野の知識と地形的コンテキストを活用して段階的な推論で説明されます。 提示された例は、症例報告からインスピレーションを得たものです58。 パネル c の瘻孔の画像は参考文献から適応されました。 58、CC BY 3.0。

ソリューションでは、視覚、言語、および音声のモダリティを統合し、視覚 – 音声 – 言語モデルを使用して、音声によるクエリを受け入れ、ビジュアル フィードを使用してタスクを実行する必要があります。 視覚言語モデルはすでに注目を集めており、さらなるモダリティを組み込んだモデルの開発は時間の問題です24。 アプローチは、言語モデルとナレッジ グラフ 25,26 を組み合わせて、外科的タスクについて段階的に推論する以前の研究に基づいて構築される可能性があります。 さらに、外科現場に導入された GMAI は、その希少性のためにモデル開発中に含めることができない異常な臨床現象、つまり「目に見えない状態のロングテール」として知られる課題に直面する可能性があります 27。 図 2 に例示されているように、医学的推論能力は、これまで見えなかった外れ値を検出することと、それらを説明することの両方において重要になります。

GMAI は、既存の AI ベースの早期警告システムを拡張する新しいクラスのベッドサイド臨床意思決定支援ツールを可能にし、より詳細な説明と将来のケアに関する推奨事項を提供します。 たとえば、ベッドサイドでの意思決定サポート用の GMAI モデルは、臨床知識を活用して、フリーテキストの説明とデータの概要を提供できます。「警告: この患者はショック状態に陥ろうとしています。過去 15 分間で循環が不安定になりました <データ概要へのリンク>」推奨される次のステップ: <チェックリストへのリンク>"。

ソリューションでは、テキストや数値時系列データなど、複数のモダリティを含む電子医療記録 (EHR) ソース (バイタル パラメータ、検査パラメータ、臨床記録など) を解析する必要があります。 生データから患者の現在の状態を要約し、患者の潜在的な将来の状態を予測し、治療上の決定を推奨できる必要があります。 ソリューションでは、言語モデリング技術を使用して患者の以前のデータから将来のテキストおよび数値記録を予測することにより、患者の状態が時間の経過とともにどのように変化するかを予測できます。 トレーニング データセットでは、EHR 時系列データと最終的な患者転帰を具体的に組み合わせることができます。これらのデータは、退院報告書や ICD (国際疾病分類) コードから収集できます。 さらに、モデルは治療ガイドラインやその他の関連ポリシーを遵守しながら、可能性のある治療法を比較し、その効果を推定できなければなりません。 このモデルは、臨床知識グラフや学術出版物、教育教科書、国際ガイドライン、地域政策などのテキストソースを通じて必要な知識を取得できます。 アプローチは REALM からインスピレーションを得ている可能性があります。REALM は、最初に単一の関連文書を取得し、次にそこから回答を抽出することによってクエリに回答する言語モデルで、ユーザーが各回答の正確なソースを特定できるようにします20。

ドキュメンテーションは、臨床ワークフローにおいて不可欠ではありますが、労働集約的な部分を表します。 GMAI モデルは、電子的な患者情報と臨床医と患者の会話を監視することで、電子メモや退院報告書などの文書を事前に作成し、臨床医が確認、編集、承認するだけで済むようにします。 したがって、GMAI により管理上のオーバーヘッドが大幅に削減され、臨床医が患者とより多くの時間を過ごせるようになります。

GMAI ソリューションは、医療アプリケーションに特化した技術である音声テキスト変換モデル 28 の最近の進歩を活用できます。 医療専門用語や略語を理解し、音声信号を正確に解釈する必要があります。 さらに、EHR からの情報 (診断リスト、重要パラメーター、以前の退院レポートなど) を使用して音声データを文脈化し、フリーテキストのメモまたはレポートを生成する必要があります。 患者とのやり取りを記録する前に同意を得ることが不可欠です。 このような録音が大量に収集される前であっても、チャット アプリケーションから収集された臨床医と患者の対話データを活用して、初期のメモ作成モデルがすでに開発されている可能性があります。

GMAI には、患者サポート用の新しいアプリを強化し、臨床現場以外でも高品質のケアを提供する可能性があります。 たとえば、GMAI は、構造化されていない症状の説明から血糖値モニターの連続測定値、患者が提供する投薬ログに至るまで、複数のモダリティを使用して患者の状態の全体像を構築できます。 これらの異種データを解釈した後、GMAI モデルは患者と対話し、詳細なアドバイスや説明を提供します。 重要なのは、GMAI によりアクセス可能なコミュニケーションが可能になり、患者のスケジュールに関する明確で読みやすい、または聞こえる情報が提供されることです。 同様のアプリは現在、個別化されたサポートの提供を臨床医に依存しているのに対し 29、GMAI は人間の専門家の介入の必要性を軽減または排除し、アプリをより大規模に利用できるようにすると約束しています。 既存のライブ チャット アプリケーションと同様に、ユーザーはリクエストに応じて人間のカウンセラーと対話することができます。

GMAI を使用して患者向けチャットボットを構築すると、2 つの特別な課題が生じます。 まず、患者向け​​モデルは、内容の正確さを犠牲にすることなく、シンプルで明確な言語を使用して、技術者以外の聴衆と明確にコミュニケーションできなければなりません。 トレーニング データセットに患者中心の医療テキストを含めることで、この機能が可能になる可能性があります。 第二に、これらのモデルは患者によって収集された多様なデータを処理する必要があります。 患者が提供したデータは、通常とは異なるモダリティを表している可能性があります。 たとえば、厳しい食事制限のある患者は、GMAI モデルが自動的に食事摂取量を監視できるように、食事の前後の写真を提出することができます。 患者が収集したデータは、データを収集する際に間違いを犯したり、信頼性の低いデバイスを使用したりする可能性があるため、臨床現場からのデータと比較してノイズが多くなる可能性があります。 繰り返しますが、関連データをトレーニングに組み込むことは、この課題を克服するのに役立ちます。 ただし、GMAI モデルは、自身の不確実性を監視し、十分な信頼できるデータがない場合に適切な措置を講じる必要もあります。

GMAI は、テキストのプロンプトからタンパク質のアミノ酸配列とその三次元構造を生成できます。 タンパク質配列の既存の生成モデル 30 に触発されたこのようなモデルは、望ましい機能的特性に応じてその生成を条件付けることができます。 対照的に、生物医学的な知識を備えた GMAI モデルは、安定拡散や DALL-E などのテキストから画像への同時生成モデルと同じくらい柔軟で使いやすいタンパク質設計インターフェイスを約束します 31,32。 さらに、インコンテキスト学習機能のロックを解除することで、GMAI ベースのテキストからタンパク質へのモデルは、シーケンスと組み合わせた少数の命令例を使用してプロンプトを表示し、新しい生成タスク (結合するタンパク質の生成など) を動的に定義できます。追加の制約を満たしながら、指定されたターゲットへの高い親和性を実現します。

単純な仕様 (結合ターゲットなど) に基づいてタンパク質を生成する RF 拡散など、生物学的配列の基礎モデルを開発する初期の取り組みがすでに行われています 33,34。 この研究に基づいて構築された GMAI ベースのソリューションは、トレーニング中に言語とタンパク質配列データの両方を組み込んで、多用途のテキスト インターフェイスを提供できます。 ソリューションは、CLIP などのマルチモーダル AI の最近の進歩を利用することもできます。CLIP では、モデルが異なるモダリティのペアのデータで共同トレーニングされます16。 このようなトレーニング データセットを作成する場合、個々のタンパク質配列を、タンパク質の特性を説明する関連するテキストの一節 (たとえば、生物学文献の本文から) と組み合わせる必要があります。 この取り組みには、何百万ものタンパク質のタンパク質機能をマッピングする UniProt のような大規模な取り組みが不可欠です 36。

GMAI は、ケアを改善し、臨床医の燃え尽き症候群を軽減することで、医療行為に影響を与える可能性があります。 ここでは、GMAI モデルの包括的な利点について詳しく説明します。 また、GMAI モデルは他の分野の基盤モデルと比較して、特に危険な状況で動作するため、安全な展開を確保するために対処する必要がある重要な課題についても説明します。

GMAI を使用すると、ユーザーは出力形式を細かく制御できるため、複雑な医療情報へのアクセスと理解が容易になります。 たとえば、リクエストに応じて自然言語応答を言い換えできる GMAI モデルが登場します。 同様に、GMAI が提供するビジュアライゼーションは、視点を変更したり、重要な特徴にテキストのラベルを付けるなどして、慎重に調整できます。 モデルは、出力内のドメイン固有の詳細レベルを調整したり、出力を複数の言語に翻訳したりして、多様なユーザーと効果的にコミュニケーションできる可能性があります。 最後に、GMAI の柔軟性により、地域の習慣や政策に従って、特定の地域や病院に適応することができます。 ユーザーは、GMAI モデルをクエリし、その出力を最も効果的に使用する方法について、正式な指示が必要な場合があります。

既存の医療 AI モデルは、技術、手順、環境、人口の変化によってデータの分布が変化する分布の変化に悩まされています 37,38。 ただし、GMAI はコンテキスト内学習を通じて変化に対応できます。 たとえば、病院は、少数の例を示すプロンプトを提供するだけで、新品のスキャナーからの X 線を解釈するように GMAI モデルに学習させることができます。 したがって、従来の医療 AI モデルはまったく新しいデータセットで再トレーニングする必要があるのに対し、GMAI は新しいデータ分布にその場で適応できます。 現在、コンテキスト内学習は主に大規模な言語モデルで観察されています39。 GMAI がコンテキストの変化に確実に適応できるようにするには、GMAI モデルのバックボーンを、複数の補完的なソースとモダリティからの非常に多様なデータでトレーニングする必要があります。 たとえば、2019 年のコロナウイルス感染症の新たな亜種に適応するために、成功したモデルは過去の亜種の特徴を取得し、クエリで新しいコンテキストに直面したときにそれらを更新できます。 たとえば、臨床医は「これらの胸部 X 線写真でオミクロン肺炎がないか確認してください。デルタ型と比較して、気管支および血管周囲の浸潤を兆候として考慮してください」と言うかもしれません 40。

ユーザーはプロンプトを通じてモデルの動作を手動で調整できますが、人間のフィードバックを自動的に組み込む新しい技術の役割もあるかもしれません。 たとえば、AI を活用したチャット インターフェイスである ChatGPT (2022 年に OpenAI によってリリース) の出力をユーザーが評価するのと同じように、ユーザーは GMAI モデルからの各出力を評価したりコメントしたりできる可能性があります。 このようなフィードバックは、人間のフィードバックを使用して強化学習を通じて GPT-3 を改良することによって作成されたモデルである InstructGPT の例に従って、モデルの動作を改善するために使用できます41。

大規模な AI モデルは、すでに多数の下流アプリケーションの基盤として機能しています。 たとえば、GPT-3 は、リリースから数か月以内に、さまざまな業界の 300 以上のアプリをサポートしました42。 医療基礎モデルの有望な初期の例として、CheXzero は、これらの病気の明示的なラベルについてトレーニングすることなく、胸部 X 線写真で数十の病気を検出するために適用できます9。 同様に、GMAI への移行は、幅広い機能を備えた大規模な医療 AI モデルの開発とリリースを促進し、さまざまな下流の臨床アプリケーションの基礎を形成します。 多くのアプリケーションは、最終出力を直接使用して、GMAI モデル自体とインターフェイスします。 特定のタスク用に安価に構築できる小規模な専門モデルの入力として、GMAI モデルが出力を生成するプロセスで自然に生成する中間数値表現を使用する場合もあります。 ただし、基礎モデルに存在する障害モードは下流のアプリケーション全体に広く伝播するため、この柔軟な適用性は諸刃の剣として機能する可能性があります。

GMAI モデルは、前例のない多用途性があるため、検証が非常に困難になります。 現時点では、AI モデルは特定のタスク向けに設計されているため、事前に定義されたユースケース (たとえば、脳の MRI から特定の種類のがんを診断するなど) に対してのみ検証する必要があります。 ただし、GMAI モデルは、エンド ユーザーによって指定されたこれまで見たことのないタスク (たとえば、脳の MRI による病気の診断など) を初めて実行できるため、すべての故障モードを予測することは断然より困難です。 開発者と規制当局は、GMAI モデルがどのようにテストされ、どのようなユースケースが承認されたかを説明する責任があります。 GMAI インターフェース自体は、自信を持って不正確な情報を捏造するのではなく、未知の領域に入ったときに「適応外使用」の警告を発するように設計されるべきです。 より一般的には、GMAI の独自の広範な機能には規制上の先見性が必要であり、制度や政府の政策が新しいパラダイムに適応することが求められ、保険の取り決めや責任の割り当ても再構築されることになります。

従来の AI モデルと比較して、GMAI モデルは異常に複雑な入力と出力を処理できるため、臨床医がその正しさを判断することがより困難になります。 たとえば、従来のモデルでは、患者のがんを分類するときに、画像検査またはスライド全体の画像のみが考慮される場合があります。 いずれの場合も、放射線科医または病理学者のみがモデルの出力が正しいかどうかを検証できます。 ただし、GMAI モデルは両方の種類の入力を考慮し、初期分類、治療の推奨、および視覚化、統計分析、文献への参照を含むマルチモーダルな正当化を出力する場合があります。 この場合、GMAI の結果を判断するには、学際的な委員会 (放射線科医、病理学者、腫瘍学者、その他の専門家で構成される) が必要になる場合があります。 したがって、GMAI 出力のファクトチェックは、検証中とモデルのデプロイ後の両方において、深刻な課題となります。

作成者は、説明可能性のテクニックを組み込むことで、GMAI の出力を簡単に検証できます。 たとえば、GMAI の出力には、文献内の裏付けとなる文章へのクリック可能なリンクが含まれる場合があり、これにより臨床医が GMAI の予測をより効率的に検証できるようになります。 人間の専門知識を必要とせずにモデルの出力をファクトチェックするための他の戦略が最近提案されています43。 最後に、GMAI モデルが不確実性を正確に表現し、それによってそもそも自信過剰な発言を防ぐことが非常に重要です。

これまでの研究で、医療 AI モデルが偏見を永続させ、社会から疎外された人々に害を及ぼす可能性があることがすでに示されています。 データセットが特定の患者グループを過小評価していたり​​、有害な相関関係を含んでいたりすると、トレーニング中にバイアスが発生する可能性があります 44,45。 GMAI を開発する場合、これらのリスクはおそらくさらに顕著になるでしょう。 必要なトレーニング データセットの前例のない規模と複雑さにより、データセットに望ましくないバイアスがないことを確認することが困難になります。 バイアスは健康分野における従来の AI にとってすでに課題となっていますが、最近の大規模評価では社会的バイアスがモデルの規模に応じて増加する可能性があることが示されているため、GMAI にとっては特に関連性があります 46。

GMAI モデルは、少数派グループなどの特定の集団でパフォーマンスを下回らないように徹底的に検証する必要があります。 さらに、モデルが新しいタスクや設定に遭遇すると新しい問題が発生するため、モデルは展開後も継続的に監査と規制を受ける必要があります。 賞金付きのコンテストは、AI コミュニティに GMAI モデルをさらに精査するよう促す可能性があります。 たとえば、参加者は、有害なコンテンツを生成したり、他の障害モードを明らかにしたりするプロンプトを見つけた場合に報酬を得ることができます。 開発者、ベンダー、規制当局にとって、バイアスを迅速に特定して修正することは最優先事項でなければなりません。

GMAI モデルの開発と使用は、患者のプライバシーに重大なリスクをもたらします。 GMAI モデルは、臨床測定値と信号、分子シグネチャーと人口統計情報、行動追跡データや感覚追跡データなど、豊富な患者特性にアクセスできます。 さらに、GMAI モデルはおそらく大規模なアーキテクチャを使用しますが、大規模なモデルではトレーニング データを記憶し、それをユーザーに直接繰り返す傾向が高くなります47。 その結果、GMAI モデルがトレーニング データセット内の機密患者データを公開する可能性があるという重大なリスクがあります。 匿名化を行い、個々の患者について収集される情報の量を制限することにより、データの漏洩による被害を軽減できます。

ただし、導入された GMAI モデルによって現在の患者のデータも公開される可能性があるため、プライバシーの懸念はトレーニング データに限定されません。 即時攻撃により、GPT-3 などのモデルが以前の指示を無視するように仕向けられる可能性があります48。 例として、GMAI モデルが、資格のないユーザーに患者情報を決して公開しないように指示されていると想像してください。 悪意のあるユーザーは、機密データを抽出するための命令をモデルに無視させる可能性があります。

最近の基礎モデルのサイズは著しく増大しており、データ収集とモデルのトレーニングに関連するコストが増加しています。 この規模のモデルには、GPT-3 の場合、数千億のトークンが含まれており、収集に費用がかかる大規模なトレーニング データセットが必要です。 さらに、Google が開発した 5,400 億のパラメータ モデルである PaLM は、トレーニングに推定 840 万時間相当のテンソル処理ユニット v4 チップを必要とし、一度におよそ 3,000 ~ 6,000 個のチップを使用し、計算コストは​​数百万ドルに達しました 49 。 さらに、各モデルのトレーニングでは最大数百トンの CO2 相当量が発生すると推定されているため、このような大規模モデルの開発には多大な環境コストがかかります50。

これらのコストにより、データセットとモデルをどれくらい大きくすべきかという問題が生じます。 ある最近の研究では、データセットのサイズとモデルのサイズの間に関連性が確立され、最適なパフォーマンスを得るにはパラメーターの 20 倍のトークンが推奨されていますが、既存の基礎モデルはより低いトークン対パラメーターの比率で正常にトレーニングされました 51。 したがって、特に必要な規模は特定の医療ユースケースに大きく依存するため、GMAI モデルを開発する際に必要なモデルとデータセットの大きさを見積もるのは依然として困難です。

前例のない量の医療データが必要となるため、データ収集は GMAI 開発にとって特に課題となります。 既存の基盤モデルは通常、Web をクローリングして取得した異種データでトレーニングされ、そのような汎用データ ソースは GMAI モデルの事前トレーニング (つまり、最初の準備ラウンドのトレーニングの実行) に使用できる可能性があります。 これらのデータセットは医学に焦点を当てたものではありませんが、このような事前トレーニングにより GMAI モデルに有用な機能を装備できます。 たとえば、Flan-PaLM や ChatGPT などの汎用モデルは、トレーニング データセット内に存在する医学テキストを利用することで、医療の質問に正確に回答し、米国医師免許試験で合格点を達成できます10、52、53。 それにもかかわらず、GMAI モデルの開発には、おそらく医療分野とそのモダリティに特に焦点を当てた大規模なデータセットも必要となるでしょう。 これらのデータセットは、多様性があり、匿名化され、互換性のある形式で編成されている必要があり、データの収集と共有の手順は、機関や地域にわたる異種ポリシーに準拠する必要があります。 このような大規模なデータセットを収集することは大きな課題となりますが、自己監視が成功していることを考慮すると、これらのデータは通常、高価な専門家ラベルを必要としません9,54。 さらに、マルチモーダル自己監視技術を使用して、それぞれいくつかのモダリティからの測定値を含む複数のデータセットでモデルをトレーニングすることができるため、患者ごとに多くのモダリティからの測定値を含む大規模で高価なデータセットの必要性が軽減されます。 言い換えれば、EHR、MRI、ゲノムデータを含む大規模なデータセットを必要とせずに、EHR と MRI データを含む 1 つのデータセットと、EHR とゲノムデータを含む 2 つ目のデータセットでモデルをトレーニングできます。 MIMIC (集中治療用医療情報マート) データベース 55 や英国バイオバンク 56 などの大規模なデータ共有の取り組みは、GMAI において重要な役割を果たしており、より規模が大きく、より豊かで、より包括的なデータ共有の取り組みを過小評価されている国にも拡大する必要があります。トレーニング データセット。

GMAI モデルのサイズによっても技術的な問題が発生します。 GMAI モデルはトレーニングにコストがかかることに加えて、病院がアクセスするのが難しい特殊なハイエンド ハードウェアを必要とするため、導入が困難な場合があります。 特定のユースケース (チャットボットなど) では、DALL-E や GPT-3 のように、深い技術的専門知識を持つ組織が維持する中央コンピューティング クラスターに GMAI モデルを保存できます。 ただし、他の GMAI モデルは、安定したネットワーク接続の必要性を排除し、機密の患者データをオンサイトに保持するために、病院やその他の医療現場にローカルに展開する必要がある場合があります。 このような場合、知識の蒸留などの手法を通じてモデルのサイズを縮小する必要がある場合があります。この手法では、大規模なモデルが、実際的な制約の下でより簡単に展開できる小規模なモデルを学習します57。

財団モデルには医療を変革する可能性があります。 私たちが説明した高度な基盤モデルのクラスである GMAI は、複数のデータ モダリティを互換的に解析し、新しいタスクをオンザフライで学習し、ドメインの知識を活用して、ほぼ無制限の範囲の医療タスクにわたる機会を提供します。 GMAI の柔軟性により、モデルは常にゼロから再トレーニングする必要がなく、新しい環境でも関連性を維持し、新たな病気やテクノロジーに対応できます。 GMAI ベースのアプリケーションは、従来の臨床現場とスマートフォンなどのリモート デバイスの両方に導入され、臨床医向けアプリケーションと患者向けアプリケーションの両方を可能にして、さまざまな利用者にとって有用になると予測しています。

約束にもかかわらず、GMAI モデルには特有の課題があります。 非常に汎用性が高いため、包括的な検証が困難であり、そのサイズにより計算コストが増加する可能性があります。 GMAI のトレーニング データセットは大規模であるだけでなく多様であり、適切なプライバシー保護が必要であるため、データの収集とアクセスに関しては特に困難が伴います。 AI コミュニティと臨床関係者の皆様には、GMAI が一貫して臨床的価値を提供できるよう、早期にこれらの課題を慎重に検討していただきますようお願いいたします。 最終的に、GMAI は医療に前例のない可能性を約束し、さまざまな必須業務の中で臨床医をサポートし、コミュニケーションの障壁を克服し、質の高い医療をより広く利用できるようにし、臨床医の管理上の負担を軽減して患者とより多くの時間を過ごせるようにします。

ボンマサニ、R. et al. 基礎モデルの機会とリスクについて。 プレプリントは https://arxiv.org/abs/2108.07258 (2022) にあります。

リード、S.ら。 ゼネラリストエージェント。 機械学習研究に関するトランザクション (2022)。 この研究では、チャット、画像のキャプション付け、ビデオ ゲームのプレイ、ロボット アームの制御など、モダリティ全体でさまざまなタスクを実行できるジェネラリスト モデルである Gato を紹介しました。

アライラック、J.-B. 他。 Flamingo: 数回の学習で学習できるビジュアル言語モデル。 In Advances in Neural Information Processing Systems (Oh, AH et al. 編) 35、23716–23736 (2022)。

Lu, J.、Clark, C.、Zellers, R.、Mottaghi, R.、Kembhavi, A. Unified-IO: 視覚、言語、およびマルチモーダル タスクの統合モデル。 https://arxiv.org/abs/2206.08916 (2022) でプレプリント。

ブラウン、T.ら。 言語モデルは少数回の学習です。 In Advances in Neural Information Processing Systems (Larochelle, H. et al. 編) 33、1877–1901 (2020)。 この研究は言語モデル GPT-3 を提示し、大規模な言語モデルがコンテキスト内学習を実行できることを発見しました。

アガジャニャン、A.ら。 CM3: インターネットの因果マスクされたマルチモーダル モデル。 プレプリントは https://arxiv.org/abs/2201.07520 (2022) にあります。

Wei、J.ら。 大規模な言語モデルの新たな能力。 機械学習研究に関するトランザクション (2022)。

スタインバーグ、E. et al. 言語モデルは、電子医療記録データの効果的な表現学習手法です。 J.Biomed. 知らせる。 113、103637 (2021)。

論文 PubMed Google Scholar

ティウ、E.ら。 自己教師あり学習による、注釈のない胸部 X 線画像からの専門家レベルの病理検出。 ナット。 バイオメッド。 工学 6、1399–1406 (2022)。 この研究は、医療 AI の基礎モデルの初期の例である CheXzero が、付随する臨床レポートに含まれる自然言語の説明から学習することにより、明示的な注釈なしで胸部 X 線写真で疾患を検出できることを実証しました。

シンハル、K.ら。 大規模な言語モデルは臨床知識をエンコードします。 プレプリントは https://arxiv.org/abs/2212.13138 (2022) にあります。 この研究は、言語モデル Flan-PaLM が米国医師免許試験の問題のデータセットで合格点 (67.6%) を達成することを実証し、臨床推論と理解を改善した Flan-PaLM の医学的バリアントである Med-PaLM を提案しました。

ヤン、Xら。 電子医療記録のための大規模な言語モデル。 npj 数字。 医学。 5、194 (2022)。

論文 PubMed PubMed Central Google Scholar

食品医薬品局。 人工知能と機械学習 (AI/ML) 対応の医療機器。 FDA https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices (2022)。

Acosta, JN、Falcone, GJ、Rajpurkar, P. & Topol, EJ マルチモーダル生物医学 AI。 ナット。 医学。 28、1773–1784 (2022)。

論文 CAS PubMed Google Scholar

Krishnan, R.、Rajpurkar, P. & Topol, EJ 医学とヘルスケアにおける自己教師あり学習。 ナット。 バイオメッド。 工学 6、1346–1352 (2022)。

論文 PubMed Google Scholar

Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。 プロセスで。 計算言語学協会北米支部の 2019 年会議: 人間の言語技術 (Burstein, J.、Doran, C. & Solorio, T. 編) 1、4171–4186 (2019)。 この論文では、マスク言語モデリングを紹介しました。これは、モデルが空白を埋めるためにテキスト シーケンスの一部を隠す (マスクする) 言語モデルをトレーニングするために広く使用されている手法です。 この戦略は、テキストを超えて他のデータ型に拡張できます。

ラドフォード、A.ら。 自然言語の監視から転送可能な視覚モデルを学習します。 プロセスで。 第38回国際 Conference on Machine Learning (Meila, M. および Zhang, T. 編) 139、8748–8763 (2021)。 この論文では、モデルが生のテキストと組み合わせられた画像から学習できるようにするマルチモーダルなアプローチである対照言語画像事前トレーニング (CLIP) を紹介しました。

チャン、X.-A. 他。 中国の発熱患者における人獣共通感染症ヘニパウイルス。 N.Engl. J.Med. 387、470–472 (2022)。

論文 PubMed Google Scholar

Vaswani、A. et al. 必要なのは注意力だけです。 In Advances in Neural Information Processing Systems (Guyon, I. et al. 編) 30、5998–6008 (2017)。 この文書では、最終的に大規模基礎モデルの開発につながる重要な画期的な変圧器アーキテクチャを紹介しました。

Borgeaud, S. et al. 数兆のトークンから取得することで言語モデルを改善します。 プロセスで。 第39回国際 Conference on Machine Learning (Chaudhuri, K. 他編) 162、2206–2240 (2022)。

Guu, K.、Lee, K.、Tung, Z.、Pasupat, P.、Chang, M.-W. REALM: 検索拡張言語モデルの事前トレーニング。 プロセスで。 第37回国際 Conference on Machine Learning (Daume, H. & Singh, A. 編) 119、3929–3938 (2020)。

Igelström、E. et al. 観測データを用いた因果推論と影響推定。 J.Epidemiol. 地域保健学 76、960–966 (2022)。

記事 Google Scholar

Wang, Q.、Huang, K.、Chandak, P.、Zitnik, M. & Gehlenborg, N. ユーザー中心の XAI の入れ子モデルの拡張: GNN ベースの薬物再利用に関する設計研究。 IEEEトランス。 ヴィス。 計算します。 グラフ。 29、1266–1276 (2023)。

論文 PubMed Google Scholar

リー、J.ら。 融合する前に調整する: 運動量の蒸留による視覚と言語表現の学習。 In Advances in Neural Information Processing Systems (Ranzato, M. et al. 編) 34、9694–9705 (2021)。

Google スカラー

Wang、Z.ら。 SimVLM: 弱い監視による単純な視覚言語モデルの事前トレーニング。 国際的には学習表現に関する会議 (Hofmann, K. & Rush, A. 編) (2022)。

安永正史 ほか深い双方向の言語知識グラフの事前トレーニング。 In Advances in Neural Information Processing Systems (Oh、AH et al.編) 35 (2022)。

安永 M.、Ren, H.、Bosselut, A.、Liang, P. & Leskovec, J. QA-GNN: 質問応答のための言語モデルとナレッジ グラフを使用した推論。 プロセスで。 計算言語学協会北米支部の 2021 年会議: 人間の言語技術 (Toutanova, K. et al. 編) 535–546 (2021)。

グハ・ロイ、A. 他皮膚科の分類器は何が分からないのかを知っていますか? 目に見えない状況のロングテールを検出します。 医学。 アナル画像。 75、102274 (2022)。

論文 PubMed Google Scholar

ラドフォード、A.ら。 大規模な弱い監視による堅牢な音声認識。 プレプリントは https://arxiv.org/abs/2212.04356 (2022) にあります。

RF ディクソンら。 継続的な血糖値モニタリングと内分泌外来を利用した仮想 2 型糖尿病クリニック。 J.糖尿病科学。 テクノロジー。 14、908–911 (2020)。

論文 PubMed Google Scholar

Kucera, T.、Togninalli, M.、Meng-Papaxanthos, L. 階層関数を使用した新規タンパク質設計のための条件付き生成モデリング。 バイオインフォマティクス 38、3454–3461 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Rombach, R.、Blattmann, A.、Lorenz, D.、Esser, P. & Ommer, B. 潜在拡散モデルによる高解像度画像合成。 プロセスで。 コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議 (Chellappa, R. 他編) 10684–10695 (2022)。

Ramesh、A. et al. ゼロショットのテキストから画像への生成。 プロセスで。 第38回国際 Conference on Machine Learning (Meila, M. および Zhang, T. 編) 139、8821–8831 (2021)。

ジャンパー、J. et al. AlphaFold による高精度なタンパク質構造予測。 Nature 596, 583–589 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Zvyagin、M.ら。 GenSLM: ゲノムスケールの言語モデルは、SARS-CoV-2 の進化のダイナミクスを明らかにします。 bioRxiv https://doi.org/10.1101/2022.10.10.511571 (2022) でプレプリント。

ワトソン、JL 他構造予測ネットワークと拡散生成モデルを統合することにより、幅広く適用可能な正確なタンパク質設計を実現します。 bioRxiv https://doi.org/10.1101/2022.12.09.519842 (2022) でプレプリント。

UniProtコンソーシアム。 UniProt: 普遍的なタンパク質の知識ベース。 核酸研究所 45、D158–D169 (2017)。

記事 Google Scholar

Guo、LLら。 臨床医学における時間的データセットの変化が存在する場合に機械学習のパフォーマンスを維持するためのアプローチの体系的なレビュー。 応用クリン。 知らせる。 12、808–815 (2021)。

論文 PubMed PubMed Central Google Scholar

フィンレイソン、SG et al. 人工知能における臨床医とデータセットの変化。 N.Engl. J.Med. 385、283–286 (2021)。

論文 PubMed PubMed Central Google Scholar

ランピネン、AK 他言語モデルはコンテキスト内の説明から学習できますか? 計算言語学協会の調査結果: EMNLP 2022 (Goldberg, Y.、Kozareva, Z. & Zhang, Y. 編) 537–563 (2022)。

ユン、SH、リー、JH、キム、B.-N。 SARS-CoV-2 感染入院患者の胸部 CT 所見:デルタ変異体とオミクロン変異体。 放射線学 306、252–260 (2023)。

論文 PubMed Google Scholar

Ouyang、L.ら。 人間のフィードバックによる指示に従うように言語モデルをトレーニングします。 In Advances in Neural Information Processing Systems (Oh, AH et al. 編) 35、27730–27744 (2022)。

Pilipiszyn, A. GPT-3 は次世代アプリを強化します。 OpenAI https://openai.com/blog/gpt-3-apps/ (2021)。

Burns, C.、Ye, H.、Klein, D. & Steinhardt, J. 監督なしで言語モデルの潜在知識を発見。 プレプリントは https://arxiv.org/abs/2212.03827 (2022) にあります。

Obermeyer, Z.、Powers, B.、Vogeli, C. & Mullainathan, S. 人口の健康を管理するために使用されるアルゴリズムにおける人種的偏見を分析します。 サイエンス 366、447–453 (2019)。

論文 ADS CAS PubMed Google Scholar

テクノロジーと人工知能におけるセックスとジェンダーのバイアス: 生物医学とヘルスケアへの応用 (アカデミック、2022 年)。

Srivastava、A. et al. 模倣ゲームを超えて: 言語モデルの機能を定量化し推定する。 プレプリントは https://arxiv.org/abs/2206.04615 (2022) にあります。

カルリーニ、N. et al. 大規模な言語モデルからトレーニング データを抽出します。 プロセスで。 第 30 回 USENIX セキュリティ シンポジウム (Bailey, M. および Greenstadt, R. 編) 6、2633–2650 (2021)。

ブランチ、HJ et al. 手作りの敵対的サンプルを通じて、事前トレーニングされた言語モデルの感受性を評価します。 プレプリントは https://arxiv.org/abs/2209.02128 (2022) にあります。

チョウドリー、A.ら。 PaLM: パスウェイを使用した言語モデリングのスケーリング。 プレプリントは https://arxiv.org/abs/2204.02311 (2022) にあります。

Zhang, S. et al. OPT: 事前トレーニングされたトランスフォーマー言語モデルを開きます。 プレプリントは https://arxiv.org/abs/2205.01068 (2022) にあります。

ホフマン、J.ら。 コンピューティングに最適な大規模言語モデルのトレーニングの実証分析。 In Advances in Neural Information Processing Systems (Oh, AH et al. 編) 35、30016–30030 (2022)。

Chung、HW et al. スケーリング命令により微調整された言語モデル。 プレプリントは https://arxiv.org/abs/2210.11416 (2022) にあります。

Kung, TH et al. USMLE での ChatGPT のパフォーマンス: 大規模な言語モデルを使用した AI 支援医学教育の可能性。 PLoS ディグ. 健康 2、2 (2023)。

Huang, S.-C.、Shen, L.、Lungren, MP、Yeung, S. GLoRIA: ラベル効率の良い医療画像認識のためのマルチモーダル グローバル/ローカル表現学習フレームワーク。 プロセスで。 IEEE/CVF 国際 Conference on Computer Vision (ブラウン、MS 他編) 3942–3951 (2021)。

ジョンソン、AEWほか MIMIC-IV、自由にアクセスできる電子健康記録データセット。 科学。 データ10、1(2023年)。

論文 PubMed PubMed Central Google Scholar

Sudlow, C. et al. UK Biobank: 中高年のさまざまな複雑な病気の原因を特定するためのオープンアクセス リソース。 PLoS医学。 12、e1001779 (2015)。

論文 PubMed PubMed Central Google Scholar

Gou, J.、Yu, B.、Maybank, SJ & Tao, D. 知識の蒸留: 調査。 内部。 J.Comput. ヴィス。 129、1789–1819 (2021)。

記事 Google Scholar

Vegunta, R.、Vegunta, R. & Kutti Sridharan, G. 胃腸出血と真菌血症として現れる続発性大動脈十二指腸瘻。 クレウス 11、e5575 (2019)。

PubMed PubMed Central Google Scholar

リファレンスをダウンロードする

原稿を改善する洞察力に富んだコメントを提供してくれた I. Kohane に感謝します。 EJT は、国立衛生研究所 (NIH) 国立トランスレーショナルサイエンス推進センターの助成金 UL1TR001114 によってサポートされています。 MM は、国防高等研究計画局 (DARPA) N660011924033 (MCS)、NIH 国立神経障害・脳卒中研究所 R61 NS11865、GSK、および Wu Tsai 神経科学研究所によって支援されています。 JL は、DARPA から番号 HR00112190039 (TAMI) および N660011924033 (MCS) で支援され、陸軍研究局は番号 W911NF-16-1-0342 (MURI) および W911NF-16-1-0171 (DURIP) で支援され、National Science財団は番号 OAC-1835598 (CINES)、OAC-1934578 (HDR) および CCF-1918940 (Expeditions) に基づいて、NIH は番号 3U54HG010426-04S1 (HuBMAP)、スタンフォード データ サイエンス イニシアチブ、呉蔡神経科学研究所、アマゾン、ドコモ、GSK、日立、インテル、JPモルガン チェース、ジュニパーネットワークス、KDDI、NEC、東芝。

これらの著者は同様に貢献しました: Michael Moor、Oishi Banerjee

この作品は次の著者が共同で監修しました: Eric J. Topol、Pranav Rajpurkar

スタンフォード大学コンピューターサイエンス学部、スタンフォード、カリフォルニア州、米国

マイケル・ムーア & ジュレ・レスコベツ

ハーバード大学生物医療情報学部、ケンブリッジ、マサチューセッツ州、米国

オーイシ・バナジー & プラナフ・ラージプルカール

トロント大学ダララナ公衆衛生大学院医療政策管理評価研究所、トロント、オンタリオ州、カナダ

ザーラ・シャケリ・ホセイン・アバド

イェール大学医学部、成果研究評価センター、イェール・ニューヘブン病院、米国コネチカット州ニューヘブン

ハーラン・M・クルムホルツ

スクリップス研究所トランスレーショナル研究所、ラホーヤ、カリフォルニア州、米国

エリック・J・トポル

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PR がこの研究を発案した。 MM、OB、EJT、PR がレビュー記事をデザインしました。 MM と OB は記事の作成と執筆に多大な貢献をしてくれました。 ZSHA と MM がイラストをデザインおよび実装しました。 著者全員が批判的なフィードバックを提供し、原稿の改訂に大きく貢献しました。

Eric J. Topol または Pranav Rajpurkar への通信。

過去 3 年間、HMK は UnitedHealth、Element Science、Eyedentifeye、および F-Prime から経費および/または個人手数料を受け取りました。 Refactor Health と HugoHealth の共同創設者です。 また、イェール・ニューヘブン病院を通じて、メディケア・メディケイド・サービスセンターから、イェール大学を通じて、食品医薬品局、ジョンソン・エンド・ジョンソン、グーグル、ファイザーとの契約に関連付けられています。 他の著者は競合する利益を宣言していません。

Nature は、この研究の査読に対する Arman Cohan、Joseph Ledsam、Jenna Wiens の貢献に感謝します。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

Springer Nature またはそのライセンサー (協会や他のパートナーなど) は、著者または他の権利所有者との出版契約に基づいて、この記事に対する独占的権利を保持します。 この記事の受理された原稿バージョンの著者によるセルフアーカイブには、かかる出版契約の条項および適用される法律のみが適用されます。

転載と許可

Moor、M.、Banerjee、O.、Abad、ZSH 他。 ジェネラリスト医療用人工知能の基礎モデル。 Nature 616、259–265 (2023)。 https://doi.org/10.1038/s41586-023-05881-4

引用をダウンロード

受信日: 2022 年 11 月 3 日

受理日: 2023 年 2 月 22 日

公開日: 2023 年 4 月 12 日

発行日: 2023 年 4 月 13 日

DOI: https://doi.org/10.1038/s41586-023-05881-4

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

目 (2023)

npj プレシジョン オンコロジー (2023)

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。