臨床研究における機械学習の過剰使用と誤用を避けるための手順

ニュース

ホームページホームページ / ニュース / 臨床研究における機械学習の過剰使用と誤用を避けるための手順

Mar 07, 2023

臨床研究における機械学習の過剰使用と誤用を避けるための手順

Medicina naturale, volume 28,

Nature Medicine volume 28、pages 1996–1999 (2022)この記事を引用

28,000 アクセス

11 件の引用

291 オルトメトリック

メトリクスの詳細

機械学習アルゴリズムは医療分野では強力なツールですが、パフォーマンスが従来の統計手法と同等にならない場合もあります。 患者に真の利益を提供するためには、アルゴリズムが過剰に使用されたり誤用されたりしないように措置を講じる必要があります。

医療分野における多くの機械学習 (ML) システムのパフォーマンスが精彩を欠いていることは、十分に文書化されています 1,2。 医療分野でも、他の分野と同様に、AI アルゴリズムが偏ったデータセットでトレーニングされた場合、性差別や人種差別などの人間の偏見を永続させる可能性さえあります3。

臨床研究における人工知能 (AI) と ML の急速な導入とその加速する影響を考慮して、臨床研究における ML の使用を規制するための SPIRIT-AI、CONSORT-AI、そして最近では DECIDE-AI などのガイドライン 4,5 の策定が行われています。臨床研究は規制の空白を埋めるのに役立ちました。

ただし、これらの臨床研究ガイドラインは一般に、研究研究に ML 技術を使用する決定がなされた後の、事後的な ML の使用に関するものです。 このガイドラインは、医療現場における AI または ML 技術の必要性や適切性について疑問を呈するものではありません。

新型コロナウイルス感染症のパンデミックの初期、SARS-CoV-2 を検出する信頼性の高いポイントオブケア検査が広く採用される前、非常に活発な研究分野の 1 つに、感染の確率を推定するための ML アルゴリズムの開発が含まれていました。 これらのアルゴリズムは、胸部 X 線写真などの電子健康記録に取り込まれたさまざまなデータ要素に基づいて予測を行います。

有望な初期検証結果にもかかわらず、胸部 X 線写真で訓練された多数の人工ニューラル ネットワークの成功は、さまざまな病院環境に適用された場合にはほとんど再現されませんでした。その理由の 1 つは、モデルが新型コロナウイルス感染症の真の根底にある病理を学習または理解できなかったことです。 代わりに、彼らは、側性マーカー、患者の位置、X線投影の違いなど、画像取得における生物学的に無意味な変動を反映するショートカットや偽の関連付けを利用しました6。 これらの ML アルゴリズムは説明不可能であり、最先端であるように見えましたが、RT-PCR などの従来の診断技術よりも劣っており、その有用性が損なわれていました。 新型コロナウイルス感染症 (COVID-19) に対して 200 を超える予測モデルが開発されており、その一部には ML が使用されていますが、事実上すべてが不十分な報告と高いバイアスリスクに悩まされています7。

「過剰使用」という用語は、代替の、信頼できる、または優れた方法論がすでに存在する場合に、AI または高度な ML 技術を不必要に採用することを指します。 このような場合、AI や ML 技術の使用が必ずしも不適切または不健全であるわけではありませんが、そのような研究の正当性が不明確または人為的であることが考えられます。たとえば、意味のある新しい答えを提供しない新しい技術が提案される可能性があります。

多くの臨床研究では、0.80 ~ 0.90、さらには 0.90 以上の曲線下面積 (AUC) 値で示されるように、立派なまたは印象的なパフォーマンスを達成するために ML 技術が採用されています (ボックス 1)。 ML モデルが過剰適合している可能性があるため、AUC が高いことが必ずしも品質の指標であるとは限りません (図 1)。 従来の回帰手法を適用して ML アルゴリズムと比較した場合、より洗練された ML モデルでは精度がわずかに向上するだけであることが多く、モデルの複雑さと精度の間には疑問の余地のあるトレードオフが存在します 1、2、8、9、10、11、12。 全体的なイベント率が 1% 未満で AUC が 0.99 になる可能性もあり、非常に高い AUC であっても堅牢性が保証されるわけではありません。この場合、すべての陰性ケースが正しく予測される一方で、少数の陽性イベントは正しく予測されないことになります。

データ ポイント (緑の点) と真の効果 (黒の線) を含むデータセットが与えられた場合、統計モデルは真の効果を推定することを目的としています。 赤い線は厳密な推定を示し、青い線は外れ値に過度に依存したオーバーフィット ML モデルを示しています。 このようなモデルは、この特定のデータセットでは優れた結果が得られるように見えますが、別の (外部) データセットでは適切にパフォーマンスを発揮できません。

モデルのパフォーマンスにおける統計的に有意な改善と臨床的に有意な改善の間には重要な違いがあります。 ML 技術は、間違いなく、非線形または複雑な高次元の関係を持つデータを含む予測問題に対処する強力な方法を提供します (表 1)。 対照的に、多くの単純な医療予測問題は本質的に線形であり、通常は先行研究やメカニズムの考慮に基づいて、強力な予測因子であることが知られているために選択される特徴を備えています。 このような場合、ML 手法によって識別が大幅に改善される可能性は低いです2。 パフォーマンスの向上によりシステム全体が向上する可能性があるエンジニアリングの設定とは異なり、医療予測精度のわずかな向上が臨床活動に違いをもたらす可能性は低いです。

ML 技術は、導入する前に従来の統計手法と比較して評価する必要があります。 研究の目的が予測モデルの開発である場合、ML アルゴリズムを、ブライアー スコア (予測確率スコアの良さをチェックするために使用される、平均二乗誤差に似た評価指標) の事前定義された一連の従来の回帰手法と比較する必要があります。 )、識別(または AUC)、およびキャリブレーション。 その後、モデルを外部で検証する必要があります。 分析方法とそれらを比較するパフォーマンス指標は、前向き研究プロトコルで指定する必要があり、全体的なパフォーマンス、識別、およびキャリブレーションを超えて、オーバーフィッティングに関連する指標も含める必要があります。

逆に、一部のアルゴリズムは、見慣れないデータ 13 に直面したときに「わかりません」と答えることができます。このデータは重要ですが、予測が非常に不確実であるという知識自体が臨床的に実用的な可能性があるため、重要ではあるものの過小評価されることがよくあります。

必要に応じて、従来の統計モデルを使用した (事前定義された) 感度分析を ML モデルと並行して提示する必要があります。

プロトコルは可能な限り公開され、ピアレビューされるべきであり、モデルの選択は明示され、実証されるべきです。

すべてのモデルのパフォーマンス パラメーターを公開する必要があり、理想的にはデータセットと分析スクリプトを公開する必要があります。

ML アルゴリズムを使用する出版物には、意思決定プロセスに関する免責事項を添付する必要があり、その結論は慎重に定式化される必要があります。

研究者は、チェックアンドバランスの対象となる、解釈可能で透明性のある ML アルゴリズムの開発に取り組む必要があります。

データセットはバイアスの原因を検査し、バイアスに対処するために必要な措置を講じる必要があります。

使用する ML 手法の種類は、利用可能なデータセットの種類、サイズ、次元を考慮して選択する必要があります。

非常に小さいがすぐに利用できる便利な臨床データセットを扱う場合は、ML 手法を避けるべきです。

臨床医と研究者は、可能であれば、高解像度データを備えた大規模で調和のとれた多施設データセットまたは国際データセットを入手して利用することを目指すべきです。

ML であれ伝統的な統計手法であれ、統計的アプローチの選択に関するガイドラインは、臨床研究者を助け、適切な選択を強調するでしょう。

研究者は、明確なプロジェクト目標と、特定の臨床ユースケースにおいて AI、ML、または従来の統計手法がもたらす利点の分析を持って ML プロジェクトを開始する必要があります。 教師なしクラスタリング分析は、隠れたクラスタリング パターンの発見、たとえば癌の新しい分子分類法を提案したり 14 したり、精神疾患のサブタイプを定義したり 15 するのに適している傾向があります。

研究の目的が新しい予後ノモグラムまたは予測モデルを開発することである場合、大規模で高次元のデータセットを扱う場合でも、ML が従来の統計モデルよりも優れているという証拠はほとんどありません 1、2、8、9、10、11。 16、17、18。 研究の目的が特定の曝露の因果関係による治療効果を推論することである場合、構造方程式モデリング、傾向スコア法、操作変数分析、回帰不連続性分析などの多くの確立された伝統的な統計手法を使用すると、容易に解釈可能で厳密な結果が得られます。治療効果の推定。

過剰使用とは対照的に、「誤用」という用語は、偽りの推論や予測を引き起こす問題のある方法論から、人間の入力が依然として必要な状況で医師の役割を置き換えようとする ML の適用に至るまで、ML のよりひどい使用法を暗示しています。

AI アルゴリズムの内部動作を精査せずに、純粋にそのパフォーマンスに基づいて AI アルゴリズムを無差別に受け入れることは、ML19 の誤用に相当しますが、すべての臨床医の決定がどの程度確実に説明可能であるかは疑問です。

多くのグループは、相関関係を因果関係から解きほぐすために、説明可能な ML や反事実的推論の組み込みを求めています20。 医学は科学に基づいているべきであり、医学的決定は尋問を受ける可能性のある透明性のある論理的推論によって実証されるべきです。 臨床上の意思決定を支える「ブラックボックス」という概念は、現代の医療実践に対するアンチテーゼであり、推論を精査するために使用できる顕著性マップや敵対的生成ネットワークなどの技術の装備が増えていることを考えると、ますます不正確になりつつあります。ニューラルネットワークによって作られています。

研究者は、人間の専門家による精査に耐えられる推論を備えた、解釈可能な ML モデルの開発と、外部での複製と検証を可能にする匿名化されたデータとスクリプトの共有に取り組む必要があります。 研究者の中には、人間の脳では識別できないデータのパターンを機械が識別できると結論付ける人もいるかもしれません。 しかし、専門家が複雑なテーマについて自分の思考パターンを説明できなければならないのと同じように、機械も特定のパターンを明らかにするためにたどった道を正当化できなければなりません。

偏ったデータや小規模なデータセットなどのデータ制約にもかかわらず ML を使用することも、AI の誤用です。 トレーニング データには偏りがある可能性があり、性差別的および人種差別的な仮定を増幅させる可能性があります 3,21。 ディープラーニング技術は大量のデータを必要とすることが知られていますが、医学文献の多くの出版物では、他の技術業界で通常利用できるものよりもはるかに小さいサンプルと特徴セットのサイズで技術を特集しています。 したがって、十分に訓練された ML アルゴリズムでは、関心のある臨床問題の完全な説明にアクセスできない可能性があります。

Meta の Facebook は、10 億人以上のユーザーからの写真を使用して顔認識ソフトウェアをトレーニングしました。 自動運転車の開発者は、道路上の物体を認識するソフトウェアを開発するために、何十万人ものドライバーによる数十億マイルに及ぶ道路交通ビデオ録画を使用しています。 そして、DeepBlue と AlphaGo は、何百万、何十億ものプレイされたチェスと囲碁のゲームから学習します。 対照的に、AI を伴う臨床研究研究では、一般に数千または数百の放射線画像や病理学的画像が使用され 22、手術段階認識用のソフトウェアを開発する外科医や科学者は、多くの場合、数十の手術ビデオを使用して作業することがよくあります 23。 これらの観察は、医療におけるビッグデータの相対的な貧困と、他の業界で達成されているようなサンプルサイズの達成に向けた取り組みの重要性、および医療データに関する国際的なビッグデータ共有の協調的な取り組みの重要性を強調しています。

ヘルスケアを提供する際の人間とアルゴリズムのそれぞれの機能は同じではありません。 臨床医はアルゴリズムを使用することで、特にデータが複雑な構造を持っている場合、または大規模で粒度が高い場合に、利用可能なデータを最大限に活用して診療に情報を提供することができます。

ML アルゴリズムは、病歴聴取や身体検査から診断、治療上の決定、手順の実行に至るまで、臨床医学のほとんどの側面で医師を補完できますが、代替することはできません。 したがって、臨床医と研究者は、ビッグデータが新世代の人間と機械のコラボレーションを推進する、一貫したフレームワークを構築する必要があります。 最も洗練された ML アプリケーションであっても、人間の対応物と競合するのではなく、患者ケアの特定の側面をサポートする個別の意思決定支援モジュールとして存在する可能性があります。

人間の患者は、アルゴリズムが結果をどれだけ正確に予測できたとしても、人間の医師が医療上の決定を下し続けることを望んでいる可能性があります。 したがって、ML は完全なケア システムの不可欠な部分として研究され、実装される必要があります。

ML とビッグデータの臨床統合により、医療が改善されようとしています。 ML 研究者は、アルゴリズムとモデルの過剰使用や誤用を防ぐために、アルゴリズムとモデルの限界を認識する必要があります。そうしないと、不信感を生み、患者に損害を与える可能性があります。

Christodoulou、E. et al. J.クリン. エピデミオール。 110、12–22 (2019)。

記事 Google Scholar

Gravestejn、BY et al. J.クリン. エピデミオール。 122、95–107 (2020)。

記事 Google Scholar

Zou、J.ら。 ネイチャー 559、324–326 (2018)。

記事 CAS Google Scholar

トポル、EJ Nat. と。 26、1318–1320 (2020)。

記事 CAS Google Scholar

Vasey, B. et al. 生まれる医学。 28、924–933 (2022)。

記事 CAS Google Scholar

デグレイブ、AJ 他ナット。 マッハ。 インテル。 3、610–619 (2021)。

記事 Google Scholar

ワイナンツ、L.ら。 Br. 医学。 J. 369、m1328 (2020)。

記事 Google Scholar

アブラモフ医学博士ら。 npj 数字。 医学。 1、39 (2018)。

記事 Google Scholar

Shin, S. et al. ESC ハート障害。 8、106–115 (2021)。

記事 Google Scholar

チョー、SM 他できる。 J.カーディオール. 37、1207–1214 (2021)。

記事 Google Scholar

Uddin, S. et al. BMC医学。 形のない。 決定した。 マック。 19、281 (2019)。

記事 Google Scholar

Volovici、V. et al. J. Neurotrauma 36、3183–3189 (2019)。

記事 Google Scholar

シャシクマール、SP 他。 npj 数字。 医学。 4、134(2021)。

記事 Google Scholar

がんゲノムアトラス研究ネットワーク。 他。 ナット。 ジュネット。 45、1113–1120 (2013)。

記事 Google Scholar

アメリカ精神医学会。 精神障害の診断と統計マニュアル第 5 版 (APA、2013)。

Futoma, J. et al. ランセットディジット。 健康 2、e489–e492 (2020)。

記事 Google Scholar

Cat, D. et al. 世界の脳神経外科。 161、230–239.e236 (2022)。

記事 Google Scholar

Marek, S. et al. ネイチャー 603、654–660 (2022)。

記事 CAS Google Scholar

ルーディン、C.ナット。 マッハ。 インテル。 1、206–215 (2019)。

記事 Google Scholar

Richens、JG et al. ナット。 一般。 11、3923 (2020)。

記事 CAS Google Scholar

アンダウル・ナバロ、CL 他 Br. 医学。 J. 375、n2281 (2021)。

Google スカラー

ストゥルバーグ、JJ 他 JAMA Surg. 153、586–587 (2018)。

記事 Google Scholar

ツインダ、AP 他。 IEEEトランス。 医学。 イメージング 36、86–97 (2017)。

記事 Google Scholar

リファレンスをダウンロードする

この図を提供してくれた M. van Bilsen と貴重なアドバイスをくれた F. Liu に感謝します。 VV は、確率、統計、機械学習の世界を切り開いてくれた D. Volovici に感謝の意を表します。

エラスムス MC 大学医療センター、脳神経外科、ロッテルダム、オランダ

ヴィクトル・ヴォロヴィチ

シンガポール国立大学医学部、ヨン ルー リン大学、シンガポール、シンガポール

ニコラス・L・シン & ジョセフ・J・ジャオ

シンガポール国立大学医療システム国立大学病院外科

ニコラス・L・シン

ケンブリッジ医学 AI センター、ケンブリッジ大学、ケンブリッジ、英国

アリ・ヘラクレス

医療サービスおよびシステム研究プログラム、デューク NUS メディカル スクール、シンガポール、シンガポール

ナン・リウ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

VV はアイデアを思いつき、最初の原稿を起草し、図を概念化し、作品を監督しました。 NS は原稿を大幅に修正し、原稿のすべてのバージョンを批判的に読みました。 AE、JJZ、NL は大幅な修正を加え、最終原稿を承認しました。

ヴィクトル・ヴォロヴィチへの通信。

著者らは競合する利害関係を宣言していません。

転載と許可

Volovici、V.、Syn、NL、Ercole、A. 他。 臨床研究における機械学習の過剰使用と誤用を避けるための手順。 Nat Med 28、1996 ~ 1999 (2022)。 https://doi.org/10.1038/s41591-022-01961-6

引用をダウンロード

公開日: 2022 年 9 月 12 日

発行日:2022年10月

DOI: https://doi.org/10.1038/s41591-022-01961-6

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供