— Radiology誌 2024年10月号掲載のメタアナリシスを解説します — 呼吸器内科間でもズレまずが、放射線科間でもそうですよね。
Delaney et al. “Meta-Analysis of Interobserver Agreement in Assessment of Interstitial Lung Disease Using High-Resolution CT.” Radiology, 2024.
はじめに

間質性肺疾患(ILD)は、さまざまな病型が存在し、HRCT(高分解能CT)が診断・分類の中心的役割を果たしていますね。
特に特発性肺線維症(IPF)では、HRCTによるUIP(usual interstitial pneumonia)パターンの同定が診断の要となります。
でも実際には…
🧠「この画像、本当に蜂巣肺?」
👥「あの先生はGGOって言ったけど、私は違うと思う…」
というように、読影者の間で解釈が分かれることがしばしばあります。。

この論文では、そんな「読影のズレ=観察者間の一致度」を、カッパ値(κ)とICCを用いて客観的に評価した、世界初の大規模メタアナリシスです。
IPF診断の基準であるATS/ERS/JRS/ALATのガイドライン(2011年・2018年版)におけるUIPパターンの一致度も評価されています。
背景と目的
高分解能CT(HRCT)は間質性肺疾患(ILD)の評価において中心的役割を果たしており、正確な病型分類は患者にとって重要な意義を有する。
しかし、HRCT所見の評価は経験豊富な放射線科医であっても困難な場合がある。
先行研究ではILD関連画像所見の解釈に関する観察者間一致のエビデンスは一貫していない。
目的
ILDに関連する画像所見の解釈における胸部放射線専門医間の一致度をメタアナリシスにより評価することである。
方法
- 2000年1月から2023年10月までに発表された文献のうち、ILDに関する所見(蜂巣肺、すりガラス影、進行や重症度など)や、ATS/ERS/JRS/ALATによるIPF診断基準(2011年および2018年)を用いた診断における放射線科医間の一致度をκ係数またはICC(intraclass correlation coefficient)で報告した研究を対象とした。
- メタアナリシスにはランダム効果モデルを用いた。
結果
最終的に13件の研究(6943画像、146名の放射線科医)が解析対象となった。
ILDの特定所見に関する一致度を報告した10件の研究におけるプールされたκ値は0.56(95%CI: 0.43–0.70)であった。
ATS/ERS/JRS/ALATによるIPF診断基準に関する一致度は8件の研究に基づき、プールされたκ値は0.61(95%CI: 0.48–0.74)であった。
進行度評価を扱った1件の研究ではκ値0.87が報告された。
重症度評価を扱った7件の研究ではκ値が0.64〜0.90、ICCは0.63〜0.96であったが、これらは統合解析できなかった。
結語
胸部放射線専門医間におけるILDの放射線学的特徴およびUIPパターン診断に対する一致度は中等度であった。
一方で、疾患の重症度や進行度、範囲に関する一致に関するエビデンスは乏しく、標準化されたアプローチの必要性が示唆される。

まとめたいと思います!!
まとめ
🔹「カッパ値(κ)」と「ICC」って何?
読影の「一致度」を数値で評価する方法として、以下の2つがよく使われます。
✅カッパ値(κ:kappa coefficient)
- カテゴリ分類(例:ある所見が「ある/ない」)に対して使います。
- 単なる一致率ではなく、「偶然による一致」を除いて“本当の一致度”を示す指標です。
κ値の範囲 | 解釈 |
---|---|
0.81~1.00 | ほぼ完全な一致 |
0.61~0.80 | 高い一致 |
0.41~0.60 | 中等度の一致 |
0.21~0.40 | やや低い一致 |
0.00~0.20 | 一致なし〜ごくわずか |
✅ICC(Intraclass Correlation Coefficient)
- 連続値(スコアやパーセンテージなど)に対して使われる一致度の指標です。
- たとえば「線維化の割合を10%、20%、30%と読んだ」ような場合に、数値のバラつきを評価します。
ICCの範囲 | 解釈 |
---|---|
> 0.90 | 非常に高い一致度 |
0.75〜0.90 | 良好な一致度 |
0.50〜0.75 | 中等度の一致度 |
< 0.50 | 低い一致度 |
🔹結果とその意味
🔸κ値による「所見の一致度」
所見・評価項目 | プールされたκ値(95%CI) | 解釈 |
---|---|---|
全体(ILDの放射線所見) | 0.56(0.49–0.63) | 中等度の一致 |
蜂巣肺 | 0.58(0.49–0.66) | 中等度の一致 |
すりガラス影 | 0.51(0.34–0.67) | やや低めの中等度 |
網状影 | 0.59(0.34–0.83) | やや高めの中等度 |
牽引性気管支拡張 | 0.56(0.33–0.78) | 中等度の一致 |
✅ポイント:
- 一番一致しにくいのは「すりガラス影」でした。非特異的な所見で、読影者の主観に左右されやすいようですね。
- ただし、個人的印象として、κ値0.5以上はけっこう良い数字のように思います。
🔸UIP診断におけるκ値
ガイドライン | κ値(95%CI) | 解釈 |
---|---|---|
2011年基準 | 0.55(0.44–0.66) | 中等度 |
2018年基準 | 0.66(0.51–0.81) | 高い一致度 |
✅ポイント:
- 2018年のガイドラインのほうが一致度が高く、読影者間のブレが少ないことが示唆されています。
🔸ICCによる「重症度・進行度の一致度」
評価項目 | ICC(範囲) | 解釈 |
---|---|---|
線維化の範囲(全肺の%) | 0.82〜0.96 | 非常に高い一致度 |
線維化スコア(視覚評価) | 0.63 | 中等度の一致 |
ILDの進行度(1研究) | κ = 0.87 | ほぼ完全な一致 |
✅ポイント:
- 進行度に関しては、一部の研究でかなり高い一致度が得られており、定量化・スコアリングの工夫が成功している例もあるようです。
🔹考察と臨床への示唆
この研究は、「放射線科医でもHRCTの評価はそこそこ一致しますが、完全ではない」ということを示していますね。
特に「微妙な初期所見」や「解釈が分かれるグレーゾーン」は、診断の不確実性を高める要因です。
☑️ だからこそ、以下の工夫が重要になります:
- 📘共通の読影アトラスや用語集(Fleischner Society Glossaryなど)の活用
- 🧑💻AIによる自動スコアリングやパターン分類
- 🧑⚕️呼吸器内科・放射線科・病理医とのMDD(多職種カンファ)
🔚まとめ
この研究からわかるのは:
- HRCT読影には「中等度のズレ」がある
- UIP診断はガイドラインにより精度が向上している
- AIやアトラスの導入でさらなる改善が見込まれる
- 進行度の評価はまだ発展途上。今後の標準化が期待される
臨床では、「CTだけではなく、MDDや他の臨床情報とあわせて判断する」ことがやはり大切ですね。