進行非小細胞肺癌における免疫療法に対する治療反応性予測のための深層学習モデル（Rakaee M, et al. JAMA Oncol. 2024.）

Deep Learning Model for Predicting Immunotherapy Response in Advanced Non-Small Cell Lung Cancer.

この論文を勉強してみました。

この論文は、「進行非小細胞肺癌（NSCLC）患者において、深層学習アルゴリズムによる組織学的画像評価によって、免疫チェックポイント阻害剤（ICI）への反応を直接予測できるか？」というクリニカルクエスチョンに基づいています。

実臨床では、ICI単剤療法における反応を予測する主要なバイオマーカーはPD-L1タンパク質の発現量ですね。しかし、PD-L1発現の評価は万能ではなく、PD-L1発現が低くてもICI治療の恩恵を受ける患者がいますし、PD-L1発現が高くてもでも反応しない患者もいますね。

ICIの予測バイオマーカーとして、tumor mutational burden（TMB）もありますが、TMBの使用にはコスト、アッセイのばらつき、最適なカットオフ値の定義、感度や特異度の限界といった課題があります。そのため、ICIへの反応を予測するための新たなバイオマーカーを特定する取り組みが続けられています。

最近では、AIの技術が発展しています。
深層学習によって腫瘍の病理組織画像を解析し、数多くの病理組織学的パターンを包括的に評価・学習することで、その進行や死亡などのアウトカムを正確な予測できるようになるかもしれません。

というわけで、本研究では、進行NSCLC患者の病理標本のデジタル画像からICI治療の有効性を直接予測するための、深層学習モデルを開発することを目的としています。

ちなみに、この深層学習モデルの名前は「Deep-IO」というそうです。かっこいいですね。

背景
目的
Design, Setting, and Participants
主な評価項目と指標
主な結果
- まとめ
結論

背景

進行NSCLC患者のうち、ICI治療に反応するのはごく一部である。最適な個別化医療を実現するためには、免疫療法の恩恵を受ける可能性が最も高い患者を特定することが不可欠である。

目的

教師あり（supervised）深層学習に基づくICIに対する反応性の予測法を開発し、

その性能を他の既知の予測バイオマーカーと比較評価すること。
その予測法と進行したNSCLC患者の臨床的転帰との関連性を評価すること。

Design, Setting, and Participants

本多施設コホート研究では、進行NSCLC患者のICI治療結果を予測するため、全スライドのヘマトキシリン・エオシン（H&E）染色画像を用いた深層学習モデルを開発し、独立して検証した。
モデル開発と検証に使用された画像は、2014年8月から2022年12月の期間に、米国の1施設および欧州連合（EU）の3施設から取得された。
データ解析は2022年9月から2024年5月に実施されました。

主な評価項目と指標

モデルの性能は、臨床的エンドポイントおよび客観的反応率（ORR）の判別能力を用いて評価された。
その性能を他の予測バイオマーカー（PD-L1、TMB、TILs）と比較した。

主な結果

NSCLCに対してICI治療を受けた患者958名（平均［標準偏差］年齢66.0［10.6］歳、女性456名［48%］、男性502名［52%］）から295,581枚の画像が解析に含まれた。
米国の開発コホートには614名が含まれ、追跡期間の中央値（IQR）は54.5（38.2-68.1）か月だった。
EUの検証コホートには344名が含まれ、追跡期間は43.3（27.4-53.9）か月だった。
ICIのORRは開発コホートで26%、検証コホートで28%だった。
Deep-IOのORRにおける受信者動作特性曲線（ROC曲線）の曲線下面積（AUC）は、内部テストセットで0.75（95% CI, 0.64-0.85）、検証コホートで0.66（95% CI, 0.60-0.72）だった。

モデル開発と検証コホートに関する記事はこちらをクリック

多変量解析において、Deep-IOのスコアは検証コホートにおける無増悪生存（ハザード比0.56; 95% CI, 0.42-0.76; P < .001）および全生存（ハザード比0.53; 95% CI, 0.39-0.73; P < .001）の独立した予測因子だった。
調整済みDeep-IOは内部セットにおいてTMB、TILs、PD-L1よりも高いAUCを達成し、検証コホートではTILsより優れ、PD-L1と同等（AUC, 0.67; 95% CI, 0.60-0.74）で、特異性が10ポイント向上した。
検証コホートにおいて、Deep-IOとPD-L1スコアを組み合わせることでAUCが0.70（95% CI, 0.63-0.76）に向上し、いずれか単独の指標を上回り、反応率はPD-L1（≥50%）単独の41%に対して51%となった。

概要：この研究では、開発コホートのたくさんの肺がん患者さんの腫瘍組織のHE染色画像をAIに読み込ませて、その患者さんに対してICIが有効だったかどうかをAIに学習させています。
この作業で開発されたのが「Deep-IO」です。
そのDeep-IOが開発コホートの内部テストセットや別の検証用コホートでも有効に機能するかどうかを確認しています。

１.Deep-IOは、病理標本をみてある一定のエリア（この論文ではtileと表現）を評価し、ICI治療に反応する可能性があるかどうかの確率スコアを割り当てます。

２.各患者について、すべてのタイルスコアの平均値を計算します。これがその患者の「Deep-IOスコア」となります。そして以下の基準で患者を分類します。

スコア < 0.5: Nonresponder
スコア ≥ 0.5: Responder

３.Deep-IOスコアが正しいかどうかは、実際の患者のアウトカム（ORR）を正解データとして評価しています。そしてその学習により開発されたモデルの予測性能（ROC曲線のAUC）は以下の結果でした。

開発コホートの内部テストセット：0.75（信頼区間[CI]：0.64-0.85）
検証コホート：0.66（CI：0.60-0.72）

AUCはモデルの予測精度を示す指標であり、0.5がランダム、1.0が完全予測を意味します。

つまり、この深層学習モデルがICI反応を予測する能力を一定以上持つことを示しています。

そして、次にDeep-IOスコアの分類がPFSやOSと関連するかどうかを確認しています。

無増悪生存期間（PFS, Progression-Free Survival）

HR = 0.56：
つまり、Deep-IOスコアが高い患者は、スコアが低い患者に比べて、病気が進行するリスクが44%低い　
→つまりICIが有効

全生存期間（OS, Overall Survival）

HR = 0.53：
つまり、Deep-IOスコアが高い患者は、スコアが低い患者に比べて、死亡するリスクが47%低い　
→つまりICIが有効

ORRだけでなく、PFSやOSの予測性能もありそうですね。

PD-L1発現レベルに基づいて検証コホートをサブグループに分け、Deep-IOモデルの予測性能をPD-L1やTILsと比較しています。

(1) 高PD-L1群（≥50%）

ORR予測性能:
- Deep-IOのAUC: 0.63（95%信頼区間[CI]: 0.54-0.72）。
- TILsより優れた性能を示す。
PFSとの関連:
- Deep-IOスコアは有意にPFSと関連しており、スコアが高い患者ほど進行が遅いことが確認。

(2) 中程度PD-L1群（1%～49%）

ORR予測性能:
- Deep-IOのAUC: 0.74（95% CI: 0.57-0.87）。
- 高PD-L1群よりも優れた性能を示しており、TILsを上回る。
PFSとの関連:
- このサブグループでも、Deep-IOスコアとPFSが有意に関連。

(3) PD-L1陰性群（<1%）

ORR予測性能:
- Deep-IOのAUC: 0.53（ほぼランダム予測と同等）。
- TILsの方が優れており、AUC: 0.77（95% CI: 0.67-0.87）。
PFSとの関連:
- Deep-IOスコアはPFSと有意な関連を示さず、TILsの方が信頼性が高い。