<その3>Cox比例ハザード解析やロジスティック解析における多変量解析では、組み入れることができる変数の数はどれくらい? の続きになります。見ていない方は、こちらへ。
多重共線性の重要性
多重共線性(Multicollinearity)とは、複数の独立変数が強い相関関係を持つ場合に発生する問題で、回帰分析のようなモデルにおいて以下の影響を及ぼします。
独立変数の影響の正確な推定が難しくなる:
- 回帰係数の分散が増加し、信頼区間が広くなる。
解析結果の不安定性:
- サンプルや変数選択によって結果が大きく変わる。
予測モデルの解釈性の低下:
- どの変数が実際にモデルに寄与しているかを判断しにくくなる。
簡単にいうと、Coxやロジスティックモデルを用いた多変量解析で、複数の変数を組み入れるとき、相関係数が高い変数同士をモデルに入れると統計がおかしくなる可能性があるということです。
多重共線性の確認方法と統計
1.相関行列(Correlation Matrix):
- 変数間の単純相関を確認する。
- 相関係数(PearsonまたはSpearman)を計算し、高い値(一般的に0.7以上)が多重共線性の指標となる。
2. VIF(Variance Inflation Factor:分散拡大因子):
- 各変数が他の変数によってどの程度説明されるかを測る指標。
- 目安:
- VIF > 5: 中程度の多重共線性の疑い。
- VIF > 10: 強い多重共線性の疑い。
3. 条件指数(Condition Index):
- 固有値分解に基づく指標で、複数の変数間の共線性を評価。
- 条件指数が30以上の場合、多重共線性の可能性が高い。
私自身の経験ではありますが、
通常の臨床研究の場合、1.相関行列の相関係数で多重共線性を評価するだけでOKです。
「2. VIF」や「3. 条件指数」を使ったことはありません。
査読者からは何も言われたことはありません。
相関係数の値と多重共線性のリスク
相関係数の値 | 多重共線性のリスク | 説明 |
---|---|---|
0.3以下 | 低リスク | 多重共線性をほとんど考慮しなくてよい。 |
0.3~0.5 | 中程度のリスク | 注意が必要。場合によっては確認が必要。 |
0.5~0.7 | 高リスク | 多重共線性が解析結果に影響を与える可能性があるため、対処を検討する。 |
0.7~0.8 | 強いリスク | 必要に応じて変数を削除または統合することを検討。 |
0.8以上 | 非常に強いリスク | 変数間の情報がほぼ重複しているため、片方の変数を除外するなどの対応が必要。 |
相関係数がどのくらいになったら多重共線性のリスクが増すのかといった目安を上の表に示します。
基本的には0.5や0.7以上の相関係数を示す変数同士は多重共線性リスクありと考えてどちらか一方を多変量解析モデルに含めないほうがよいでしょう。
しかし、0.3以上の相関係数を示す変数同士も多重共線性リスクありと考える方がよいと言っている統計家もいます。
一般的には多重共線性には、ピアソンかスペアマンの相関係数を見ればよいでしょう。
例えば、%FVCと%DLCO、喫煙歴と気腫の有無などはかなり相関します。相関係数0.5~0.9くらいはあるのではないでしょうか?
そのため、これらを多変量モデルに同時に組み込むと多重共線性の問題が懸念されます。
多変量モデルにはどちらか一方(データ欠損が少ない方もしくは臨床的意義が高い方)を組み込むだけでよいでしょう。
つまり、ILD関連の論文では、FVCとDLCOを同じモデルに入れない方がよいということになります。
査読者から指摘されたら「多重共線性の問題に対処したのでやむを得ないのです」とお返事してください。
ちなみに、ピアソンかスペアマンは連続変数しか相関係数が出せませんが、
性別や喫煙ありなしなどのカテゴリー変数は、「男0・女1」や「喫煙なし0・あり1」など連続変数に変換することで相関係数を評価することが可能です。
多重共線性への対処法
- 相関の高い変数を削除:
- 高相関の変数のうち一方をモデルから削除。
- 例: 身長と体重が高い相関を持つ場合、片方を削除。
- 変数の統合:
- 高相関の変数を統合して新たな指標を作成。
- 例: 身長と体重からBMIを算出。
- 主成分分析(PCA):
- 高相関の変数を主成分に変換し、非相関な変数として扱う。
- データの解釈性は低下するが、数学的に解決可能。
- 正則化手法(Lasso回帰、Ridge回帰):
- モデルの罰則項を追加して、多重共線性を軽減。
- 特に高次元データやビッグデータ解析で有効。
- VIFを用いた変数選択:
- VIFが高い変数を段階的に削除または統合。
- モデルの再設計:
- 仮説の修正や別の分析手法(例: 分散分析など)の検討。
- データ収集の改善:
- サンプルサイズを増やすことで、変数間の影響を軽減。
対処法の具体例
臨床研究:
- 年齢と加齢関連疾患(例: 血圧や骨密度)の高相関により、多重共線性が発生する可能性。
- 対処法: 加齢を層別化するか、年齢のみをモデルに含める。
バイオマーカー探索:
- 相関の高い複数の遺伝子発現量により多重共線性が発生。
- 対処法: PCAや正則化手法(Lasso回帰、Ridge回帰)を利用して主成分に変換。
治療介入試験:
- BMIと体重が高相関の場合、BMIのみをモデルに含める。
対処方の具体例を挙げます。
多重共線性の影響を軽減するには、解析の目的やデータの特性に応じた方法を選択することが重要です。
PCAや正則化手法(Lasso回帰、Ridge回帰)についてはまたどこかで解説したいと思います。