統計

統計

Immortal time bias ってなあに?

臨床研究のデザインにおいて、Immortal time biasは非常に重要な概念です。Immortal time biasは、「不滅の時間」や「不死の時間」バイアスとも呼ばれます。このバイアスがあると、薬の効果が実際よりも良く見えてしまうことがあるんです。この記事では、なるべくわかりやすく説明していきます!ここ数年では、特発性肺線維症(IPF)における抗線維化薬(ピルフェニドンとニンテダニブ)と死亡率に関する後ろ向き研究において、このバイアスが話題に挙がりましたね。<こちら>不死時間とは不死時間とは、ある患者が診断あるいは適格性を満たしてから治療を受けるまでの期間です。IPFを例に挙げると、IPFと診断され、その1年後に抗線維化薬を開始したとすると、この1年間が不死時間です。多くの後ろ向き研究において、この期間中には観察対象のアウトカム(例えば死亡)が発生することはありません。なぜならば、研究デザインの時点で、この期間に観察対象のアウトカムが発生した患者さんは除外されるからです。また、アウトカムが死亡であった場合には、この間は文字通り不死です。つまり、多くの後ろ向き研究では、この期間...
0
間質性肺疾患

有機粉塵への曝露後の過敏性肺炎およびその他の間質性肺疾患のリスク(Iversen IB, et al.Thorax. 2024)

Risk of hypersensitivity pneumonitis and other interstitial lung diseases following organic dust exposure.引用文献有機粉塵は、細菌、真菌、花粉など、微生物、植物、動物由来の粒子で構成されています。1こうした粉塵への曝露は、農業、木材加工、繊維産業といった職場で多く見られるのですが、2 3実は職場以外でも鳥やカビなどを通じて曝露が発生する場合があるそうです。4有機粉塵の中でも、特に注目されるのが「エンドトキシン」です。これはグラム陰性細菌の外膜に存在するリポ多糖であり、吸入により肺内の免疫細胞に作用して炎症を引き起こしうることが知られています。具体的には、エンドトキシンが主に肺のマクロファージや気道上皮細胞にあるToll-like receptor 4(TLR4)に結合し、核内因子であるNF-κBが誘導され、炎症性サイトカイン(IL-1β、IL-6、TNF-αなど)が放出され、それによって肺の炎症や線維化を促しうることが考えられています。農業などの現場ではエンドトキシンの濃度が非常に...
0
統計

Fine-Gray比例ハザード解析(Fine-Gray subdistribution hazard model)ってなあに?

Fine-Grayモデルは、競合リスクを考慮した統計モデルです。Cox比例ハザードモデルと同じく、生存時間分析に用いられますが、競合イベント(例:異なる原因の死亡、治療中止など)が存在する状況で、特定のイベントの発生確率を直接的に評価できる点が特徴です。Fine-GrayモデルとCoxモデルとの違いCoxモデルとFine-Grayモデルは、基本的な考え方や使用するデータ形式が似ています。したがって、大まかな概念は、Coxモデルのページを参照してください<こちら>。ちなみに、両モデルには次のような違いがあります:Coxモデル: 特定のイベントの「ハザード比」を評価する。競合リスクを考慮しない。Fine-Grayモデル: 特定のイベントの「累積発生率」(Cumulative Incidence Function: CIF)を評価する。競合リスクを考慮する。この違いにより、Fine-Grayモデルは競合リスクを含むデータでの解析に適しています。競合リスクについてはこちらのページを参照してください。Fine-Gray解析に必要なデータFine-Grayモデルを適切に解析するには、以下のデータが...
0
統計

Cox比例ハザード解析(Cox Proportional Hazards Model)ってなあに?

Cox比例ハザード解析は、ある出来事(イベント)が発生するまでの時間を、さまざまな要因がどのように影響しているかを調べる統計解析の方法です。呼吸器内科では、例えば患者の死亡や症状悪化といったイベントが研究対象になります。Cox比例ハザード解析の概要何を解析するか?Cox比例ハザードモデルは、どの要因(例:年齢、性別、喫煙歴)が、興味あるイベント(例:死亡、発作)の発生リスクにどのように影響を与えるか?を解析するモデルです。特に、時間に対するリスク(ハザード)の相対的な影響(ハザード比)を評価します。解析に必要なデータ影響を与える要因(共変量)患者の基本情報(例:年齢、性別、病状)を「共変量」として使用します。共変量は、イベント(例:死亡、発作)が発生するリスクにどのように影響を与えるかを解析するための変数です。例:年齢、性別、病気の重症度(FEV1、酸素飽和度)、喫煙歴など。Coxモデルでは、基本的にベースライン共変量(観察開始時点での固定された値)を使用しますが、特定の解析では時間依存性共変量(時間とともに変化する値)を含めることも可能です。後者は上級者向けです。イベントの有無:解析...
0
統計

競合イベント(Competing Events)ってなあに?

競合イベント(Competing Events)は、研究で関心のあるイベントが発生する前に、他のイベント(競合イベント)が発生することで、興味あるイベントが発生不可能になる状況を指します。例えば、慢性閉塞性肺疾患(COPD)患者の急性増悪に関心がある場合、患者が急性増悪を経験する前に死亡した場合、その患者では急性増悪の発生を評価できなくなります。これが競合イベントの典型的な例です。なぜ競合イベントを考慮する必要があるのか?競合イベントを考慮しないと、興味あるイベントの発生確率が過大評価される可能性があります。たとえば、死亡を無視した解析では、「全員が生存している」と仮定するため、実際の臨床現場で観察される確率とかけ離れた結果になります。具体例と競合イベントになる理由COPD患者の急性増悪の累積発症率興味あるイベント: 急性増悪の発生競合イベント: 死亡理由: 死亡した患者は急性増悪を経験することができないため、興味あるイベントが発生不可能になる。IPF患者の肺癌発生の累積発症率興味あるイベント: 肺癌の発生競合イベント: 死亡理由: 死亡すると肺癌の発生を確認する機会が失われるため。肺...
0
統計

一般化可能性(Generalizability)と過適合(overfitting)ってなあに?

臨床研究などである疾患におけるリスク因子を同定するとき(例えば、IPFにおける死亡リスク因子)やバイオマーカーやAI、診断モデルの開発では、「開発(探索)コホート」と「検証コホート」を分けて解析を行うことが一般的です。まず、開発コホートでリスク因子の同定やモデル構築を行い、検証コホートでそれが機能するかどうかを確かめます。その目的は、モデルや結果の一般化可能性を確保し、過適合を防ぐことにあります。以下では、これらの概念を解説します。一般化可能性(Generalizability)とは?一般化可能性とは、モデルや研究結果が新しいデータや異なる集団に対しても同じように適用できる能力を指します。つまり、「特定のデータセットや環境だけでなく、他の状況でも有効に機能するか」を評価する概念です。なぜ一般化可能性が重要なんでしょうか?一般化可能性が高い研究やモデルは、リアルワールドのさまざまな状況で有用であり、信頼性の高い結果を提供します。逆に、一般化可能性が低い場合、そのモデルや結論は特定の環境に依存しており、新しいデータでは役に立たない可能性があります。具体例臨床研究例: ある薬の効果を調べる臨...
0
統計

開発コホートと検証コホートってなあに?

臨床研究などである疾患におけるリスク因子を同定するとき(例えば、IPFにおける死亡リスク因子)やバイオマーカーやAI、診断モデルの開発では、「開発(探索)コホート」と「検証コホート」を分けて解析を行うことが一般的です。まず、開発コホートでリスク因子の同定やモデル構築を行い、検証コホートでそれが機能するかどうかを確かめます。その目的は、モデルや結果の一般化可能性を確保し、過適合を防ぐことにあります。以下では、これらの概念を解説しながら、その重要性を順を追って説明します。開発コホートと検証コホートとは?開発コホートリスク因子の同定やモデルの構築、バイオマーカーの選定を行うためのデータセットです。検証コホート同定したリスク因子や開発したモデル、選定したバイオマーカーが別のデータセットでも有効かを確認するために使用されるデータセットです。ちなみに、開発コホート・検証コホートは以下のような表現を使うことがあります。開発コホート(Development Cohort)日本語での言い換え:学習用コホート:モデルを「学習」させるためのデータセットとして強調する場合に使われる。構築用データ:モデルの構築...
0
統計

<その4>Cox比例ハザード解析やロジスティック解析における多変量解析: 多重共線性とはなんぞや

<その3>Cox比例ハザード解析やロジスティック解析における多変量解析では、組み入れることができる変数の数はどれくらい? の続きになります。見ていない方は、こちらへ。多重共線性の重要性多重共線性(Multicollinearity)とは、複数の独立変数が強い相関関係を持つ場合に発生する問題で、回帰分析のようなモデルにおいて以下の影響を及ぼします。独立変数の影響の正確な推定が難しくなる:回帰係数の分散が増加し、信頼区間が広くなる。解析結果の不安定性:サンプルや変数選択によって結果が大きく変わる。予測モデルの解釈性の低下:どの変数が実際にモデルに寄与しているかを判断しにくくなる。簡単にいうと、Coxやロジスティックモデルを用いた多変量解析で、複数の変数を組み入れるとき、相関係数が高い変数同士をモデルに入れると統計がおかしくなる可能性があるということです。多重共線性の確認方法と統計1.相関行列(Correlation Matrix):変数間の単純相関を確認する。相関係数(PearsonまたはSpearman)を計算し、高い値(一般的に0.7以上)が多重共線性の指標となる。2. VIF(Var...
0
統計

<その3>Cox比例ハザード解析やロジスティック解析における多変量解析では、組み入れることができる変数の数はどれくらい?

<その2>Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか? の続きになります。見ていない方は、こちらへ。多変量解析に組み入れることのできる変数の種類はいくつまで?多変量解析において、モデルが過剰適合(overfitting)するのを避けるためには、サンプルサイズと変数数のバランスが重要です。10~20イベント/変数(EPV: Events Per Variable)が一般的な目安です。例えば、100のイベントがある場合、5~10変数が推奨されます。イベント数が少ない場合、モデルの信頼性が低下します。イベントが少ない場合、Lasso回帰や縮小推定などの正則化手法を使用して変数を絞り込むことが推奨されます。具体例を挙げます。IPFの死亡率に関連する解析を行う場合、あなたのデータで30例の死亡があったとしましょう。年齢と性別、FVC、DLCO、喫煙歴、KL-6、体重などの7つのベースライン変数の中から死亡リスク因子となりうる変数を同定する多変量Cox解析を行うとします。死亡イベントが30しかないので、7つのベースライン変数を組み込むことはできませ...
0
論文の書き方

<その2>Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか?

<その1>Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか? の続きになります。見ていない方は、こちらへ。どうしても変数選択が必要な場合には何を使う?1. 事前知識に基づく変数選択(Clinical Knowledge-Driven Selection)概要医学的な事前知識や先行研究に基づいて、解析に含める変数を選択します。メリット科学的妥当性が高い。過剰適合(overfitting)のリスクが低い。結果の解釈が容易。デメリット知識やエビデンスが乏しい分野では利用が難しい。潜在的な交絡因子を見逃す可能性がある。使い分け臨床研究や治療介入試験で、主要な因子を特定する際に使用。使用例臨床研究: 特定の疾患の主要なリスク因子を調査する研究。治療介入試験: 介入効果に影響を与える可能性のある因子(年齢、性別など)を調整。2. 全変数投入(Enter Method, Forced Entry)概要全ての候補変数をモデルに含め、変数の独立した影響を評価します。メリット変数選択による偏りが生じない。結果が再現性高く解釈が簡単。デメリット過剰適合のリスクがあ...
0
タイトルとURLをコピーしました