論文の書き方統計

Cox比例ハザード解析(Cox Proportional Hazards Model)ってなあに?

Cox比例ハザード解析は、ある出来事(イベント)が発生するまでの時間を、さまざまな要因がどのように影響しているかを調べる統計解析の方法です。呼吸器内科では、例えば患者の死亡や症状悪化といったイベントが研究対象になります。

Cox比例ハザード解析の概要

何を解析するか?

Cox比例ハザードモデルは、
どの要因(例:年齢、性別、喫煙歴)が、興味あるイベント(例:死亡、発作)の発生リスクにどのように影響を与えるか?を解析するモデルです。
特に、時間に対するリスク(ハザード)の相対的な影響(ハザード比)を評価します。

解析に必要なデータ

  1. 影響を与える要因(共変量)
    • 患者の基本情報(例:年齢、性別、病状)を「共変量」として使用します。
    • 共変量は、イベント(例:死亡、発作)が発生するリスクにどのように影響を与えるかを解析するための変数です。例:年齢、性別、病気の重症度(FEV1、酸素飽和度)、喫煙歴など。
    • Coxモデルでは、基本的にベースライン共変量(観察開始時点での固定された値)を使用しますが、特定の解析では時間依存性共変量(時間とともに変化する値)を含めることも可能です。後者は上級者向けです。
  2. イベントの有無
    • 解析の対象となるイベント(例:死亡、発作)の発生有無のでデータが必要です。
      1. イベントの発生有無
        • Coxモデルでは、観察期間中にイベントが1回だけ発生することを前提としています。
        • イベントが観察期間中に複数回発生する場合には、最初のイベントを解析対象とし、その1回目のイベントまでの期間を解析に組み込みます。
      2. イベントが発生しなかった場合
        • 観察期間中にイベントが発生しなかった場合、そのデータは打ち切り(Censoring)データとして扱われます。
        • 打ち切りデータでは、観察開始から打ち切り時点までの期間が解析に組み込まれます。
      • 死亡:死亡した場合は「有」、生存して観察期間を終えた場合は「無」。
      • 発作:1回以上発作が発生した場合は「有」、発生しなかった場合は「無」。
  3. 観察期間
    • 観察期間とは、Cox比例ハザードモデルで解析に使用される期間で、以下の2つに分けられます:
      1. 観察開始時点からイベントが発生するまでの時間。
      2. イベントが発生しなかった場合は、打ち切り時点(観察終了時点、または途中離脱時点)までの時間。
    • 具体例
      1. ケース1:5年間の観察期間がある研究で、患者Aが観察終了時点(5年目)までイベントが発生しなかった場合、この5年間が解析に使用されます(打ち切りデータ)。
      2. ケース2:患者Bが3年目で転居し、イベント発生の追跡ができなくなった場合、この3年間が解析に使用されます(打ち切りデータ)。
      3. ケース3:患者Cが1年目でイベント(例えば死亡)が発生した場合、この1年間が解析に使用されます(イベント発生データ)。

以上のデータを収集し、エクセルや統計ソフトに入力し、統計ソフトで解析していきます。

時間依存性変数とは、解析対象期間中にその値が変化する変数を指します。これらの変数は、Cox比例ハザードモデルやFine-Grayモデルにおいて、観察期間中の要因の変化がリスクに与える影響を評価するために使用されます。

以下は、時間依存性変数の具体例です:

  1. 肺癌患者における新規脳転移の出現が死亡率に与える影響の調査
    • 状況:肺癌患者を対象に、ベースライン(観察開始時点)以降で新たに脳転移が発生したかどうかを時間依存性変数としてモデルに組み込みます。
    • 目的:新規脳転移の出現が、その後に発生する死亡リスクの上昇と関連するかどうかを評価します。
  2. IPF患者における急性増悪の発生が死亡率に与える影響の調査
    • 状況:IPF患者を対象に、ベースライン以降で発生した急性増悪が時間依存性変数として扱われます。
    • 目的:急性増悪の発生が、その後の死亡リスクの上昇と関連するかどうかを評価します。

新規脳転移や急性増悪をベースライン変数として通常のCoxモデルに組み込むと、変数が観察期間中のリスク変化を正しく反映しないため、おかしな結果(過小評価または過大評価)になる可能性があります。そのため、時間依存Coxモデルや時間依存性のFine-Grayモデルを解析に使用するのが一般的です(EZRで可能です。)

打ち切り(Censoring)とは?
イベントが観察期間中に起きなかった場合、その患者のデータは打ち切りと呼ばれます。
例:研究終了時に生存している患者、観察期間中に連絡が取れなくなった患者。

解析前の注意点

  1. 打ち切りデータの扱い
    打ち切りデータを正確に記録しておく。
  2. 欠損データの処理
    欠損値がある場合は適切に補完(例:多重代入法)するか、解析から除外します。
  3. 比例ハザード仮定の確認
    Coxモデルは「リスクの比率が時間によらず一定(比例)」という仮定に基づいています。この仮定が成立しているかを確認する必要があります。

比例ハザード性の評価方法とは?
比例ハザード性とは、Cox比例ハザードモデルが成り立つために必要な仮定で、「リスクの比率(ハザード比)が時間によらず一定である」という性質を指します。

比例ハザード性を確認する主な方法は以下の通りです:

  1. Schoenfeld残差(推奨)
  2. 時間との相互作用モデル
  3. Kaplan-Meier曲線の目視評価
  4. ログマイナスログプロット

初心者では、Kaplan-Meier生存曲線の目視評価が理解しやすく、データの特徴を直感的に捉えるのに適しています。

手順

  1. 説明変数(例:喫煙歴の有無、治療群など)ごとにグループを分ける。
  2. 各グループの生存曲線を描く。
  3. 生存曲線が平行しているかを確認。

結果の解釈

  • 曲線が平行している → 比例ハザード性が成立。
  • 曲線が交差している → 比例ハザード性が成立しない可能性がある。

可能であれば、RやPythonなどの統計ソフトでSchoenfeld残差検定を行ってください。


Cox比例ハザード解析結果の解釈方法

ハザード比(HR, Hazard Ratio)

  • ハザード比(HR)は、特定の要因がリスク(イベント発生率)に与える相対的な影響を示します。
  • HRの解釈
    • HR > 1:リスクが増加している。
      例:喫煙者の死亡リスクが非喫煙者の2倍(HR = 2)。
    • HR < 1:リスクが減少している。
      例:新薬Aの使用により、従来薬より死亡リスクが30%減少(HR = 0.7)。
    • HR = 1:リスクに影響がない。

95%信頼区間(CI, Confidence Interval)

  • 信頼区間は、真のハザード比がどの範囲にあるかを示します。
  • 解釈のポイント
    • 1を含まない場合:統計的に有意。
      例:HR = 2.0, 95% CI [1.5, 2.5] → リスク増加が統計的に有意。
    • 1を含む場合:統計的に有意でない。
      例:HR = 0.8, 95% CI [0.5, 1.2] → 結果は統計的に有意ではない。

p値(p-value)

  • p値は、観測された結果が偶然である確率を示します。
  • 解釈のポイント
    • p < 0.05:一般的に統計的に有意とみなされる。
    • p値の限界
      • 最近では、95%信頼区間の方が重視される傾向があります。
      • p値は結果の有意性を示すのみで、リスクの方向性や大きさについての情報は提供しません。

呼吸器内科領域での具体例


例1:COPD患者における死亡イベント

  • 目的:喫煙歴や肺機能(FEV1)が死亡リスクにどう影響するかを調べる。
  • データの構造
    • ベースライン変数:年齢、性別、喫煙歴、FEV1。
    • イベント:死亡したかどうか。
    • 時間:診断日から死亡日、または打ち切り日までの日数。
  • 解析結果の例
    • 喫煙者のハザード比が2.0なら、非喫煙者より2倍の死亡リスクがある。

例2:IPF患者における死亡イベント

  • 目的:特定の治療法が死亡リスクを減らすかを調べる。
  • データの構造
    • ベースライン変数:年齢、性別、酸素療法の有無。
    • イベント:死亡。
    • 時間:診断日から死亡日、または打ち切り日までの日数。
  • 解析結果の例
    • 治療Aのハザード比が0.7なら、治療Bより死亡リスクが0.7倍になる。言い換えると0.3下がる、つまり30%死亡リスクが低い。

例3:若年者喘息患者における喘息発作

  • 目的:環境要因が喘息発作リスクに与える影響を調べる。
  • データの構造
    • ベースライン変数:ペットの有無、吸入薬の使用。
    • イベント:喘息発作。
    • 時間:観察開始日から発作が起こる日までの日数、または打ち切り日。
  • 解析結果の例
    • ペットがいる環境のハザード比が1.5なら、発作リスクが1.5倍に上昇する。

単変量解析と多変量解析の違い

  1. 単変量解析
    • 1つの要因(例:喫煙歴)のみを解析。
    • 結果:喫煙者のハザード比がわかる。
  2. 多変量解析
    • 複数の要因(例:喫煙歴+年齢+性別)を同時に解析。
    • 結果:各要因の独立した影響を評価可能。

Cox比例ハザード解析では、単変量解析と多変量解析を行います。
単変量解析で統計的有意とされた要因が多変量解析では有意でなくなることはよくあります。
この現象は、データ構造や統計モデルの特性に起因します。
以下では、交絡因子多重共線性サンプルサイズなどの影響を含めて、解説します。


交絡因子(Confounding Factors)

交絡因子とは?

交絡因子とは、解析対象の要因とイベントの両方に影響を与える別の要因です。これにより、単変量解析では誤った関連が見える場合があります。

  • 解析対象:喫煙歴が死亡リスクに与える影響
  • 交絡因子:肺機能(FEV1)
    • 喫煙者は肺機能が低い傾向があり、肺機能は死亡リスクに直接影響する。
    • 単変量解析では、喫煙歴が死亡リスクと関連しているように見える。
    • 多変量解析で肺機能を調整すると、喫煙歴の影響は薄れる。

ポイント

交絡因子を調整するために多変量解析を行うことが重要です。単変量解析は「スクリーニング」の目的で使い、多変量解析の結果を重視します。


多重共線性(Multicollinearity)

多重共線性とは?

複数の説明変数(共変量)が互いに強い相関を持つと、多重共線性が発生します。この場合、どの変数がイベントに影響しているのかが不明瞭になります。これに関しては別の記事<こちら>で詳しく説明しています

  • 解析対象:年齢と肺機能(FEV1)が死亡リスクに与える影響
    • 年齢が高いほど肺機能が低い傾向がある。
    • 単変量解析では、年齢も肺機能もそれぞれ死亡リスクと有意に関連する。
    • 多変量解析では、これらが互いに相関しているため、片方の影響が薄れる。

ポイント

  • 多重共線性がある場合、統計モデルが不安定になります。
  • 対処法
    • 共線性の程度を確認(例:ピアソンやスペアマンの相関係数を評価)。
    • 強い相関のある変数を1つに絞るか、因子分析を行う。

サンプルサイズの影響

サンプルサイズが小さい場合

サンプルサイズが小さいと、多変量解析では説明変数が増えるため、統計的有意性が検出されにくくなります。

  • 少数のIPF患者を対象に、年齢と治療法が死亡リスクに与える影響を解析。
    • 単変量解析では年齢が有意。
    • 多変量解析では治療法を含めると年齢のp値が上昇し、有意でなくなる。
    • サンプルが少ないため、変数間のわずかな影響を検出できない。

ポイント

  • 十分なサンプルサイズが必要です。
  • 目安:説明変数1つにつき少なくとも10–20のイベントが必要。

その他の要因

モデルの複雑さ

多変量解析ではモデルが複雑になるため、変数間の影響が相殺される場合があります。

説明変数のカテゴリの分割

説明変数を細かく分割すると、データが分散し有意性が低下することがあります。
例:BMIを「低」「中」「高」と細かく分類すると、各グループのサンプル数が減少。

説明変数の分布

説明変数が偏った分布(例えばほとんどの患者が同じ治療を受けている)だと、有意性を検出するのが難しくなります。


単変量と多変量の結果をどのように解釈していくか?

ステップ1:単変量解析の結果を確認

  • 単変量解析で有意な変数をリストアップします。
  • 注意:単変量解析の結果は「仮説形成」の材料であり、過信しない

ステップ2:多変量解析の結果を確認

  • 多変量解析では、変数間の影響を調整した結果を重視します。
  • どのような変数を多変量解析に組み込むべきかは別途解説していますこちら>。
  • 有意性が失われた場合、以下のように考えます:
    • 他の要因と関連している(交絡因子や多重共線性)。
    • サンプルサイズが小さい。

ステップ3:臨床的意義を考慮

  • 統計的有意性だけでなく、臨床的意義も重要です。
  • 例:ハザード比がわずかでも重要な臨床的示唆を持つ場合があります。

競合イベントの問題

  • 例えば、IPF患者が死亡以外の原因(心臓病など)でイベントが起こる場合、競合リスクモデルが必要になることがあります。詳細な対処法は別途説明しますこちら>。

まとめ


Cox比例ハザード解析は、呼吸器内科領域で患者の死亡リスクや発作リスクを評価するために重要な方法です。必要なデータ(ベースライン変数、イベント有無、時間)を正確に収集し、打ち切りデータや欠損値を適切に扱うことで、信頼性の高い結果を得られます。単変量解析で要因を個別に評価し、多変量解析で複数の要因の独立した影響を評価します。正しい仮定と解釈で、臨床研究に大いに役立てられます。

スマートフォンをご利用の皆さまへ
他の記事をご覧になりたい場合は、画面左上の「メニュー」からジャンルを選択してお楽しみいただけます。
また、画面右下の「サイドバー」を使って、気になる話題を検索することもできますので、ぜひご活用ください。
PCをご利用の皆さまへ
他の記事をご覧になりたい場合は、画面上部のメニューバーや画面右側のサイドバーをご利用いただき、気になる話題をお探しください。

タイトルとURLをコピーしました