<その1>Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか? の続きになります。見ていない方は、こちらへ。
どうしても変数選択が必要な場合には何を使う?
1. 事前知識に基づく変数選択(Clinical Knowledge-Driven Selection)
概要
医学的な事前知識や先行研究に基づいて、解析に含める変数を選択します。
メリット
- 科学的妥当性が高い。
- 過剰適合(overfitting)のリスクが低い。
- 結果の解釈が容易。
デメリット
- 知識やエビデンスが乏しい分野では利用が難しい。
- 潜在的な交絡因子を見逃す可能性がある。
使い分け
- 臨床研究や治療介入試験で、主要な因子を特定する際に使用。
使用例
- 臨床研究: 特定の疾患の主要なリスク因子を調査する研究。
- 治療介入試験: 介入効果に影響を与える可能性のある因子(年齢、性別など)を調整。
2. 全変数投入(Enter Method, Forced Entry)
概要
全ての候補変数をモデルに含め、変数の独立した影響を評価します。
メリット
- 変数選択による偏りが生じない。
- 結果が再現性高く解釈が簡単。
デメリット
- 過剰適合のリスクがある。
- 不要な変数を含むとモデルが複雑になる。
使い分け
- サンプルサイズが十分に大きい場合や全ての変数を考慮すべき場合。
使用例
- バイオマーカー探索: 候補分子の網羅的解析。
- ビッグデータ解析: 多数の候補因子を含む解析。
3. ステップワイズ法(Stepwise Selection)
概要
変数を逐次的に追加または除去して最適なモデルを選択します(前進選択法・後退消去法・双方向法)。
メリット
- 計算効率が高い。
- 自動的に重要な変数を選定。
デメリット
- モデルの過剰適合が起こりやすい。
- 変数間の多重共線性を無視する可能性。
使い分け
- 仮説生成や予測モデル構築。
使用例
- 臨床研究: 予測因子を特定する。
- 遺伝子解析: 多数の遺伝子候補を含む研究。
4. Lasso回帰(L1正則化)
概要
正則化手法を用いて、影響が小さい変数を自動的にゼロにする。
メリット
- 変数選択とモデル推定を同時に行える。
- 高次元データに適している。
デメリット
- モデルが複雑で解釈が難しい。
- 選択された変数の信頼性が低い場合がある。
使い分け
- 高次元データやバイオマーカー探索。
使用例
- バイオマーカー探索: 網羅的オミックスデータ解析。
- 遺伝子解析: SNPや遺伝子発現データ。
5. ランダムフォレストや決定木を用いた選択(Feature Importance Based on ML Models)
概要
機械学習モデルを利用して変数の重要度を評価。
メリット
- 非線形関係を考慮できる。
- 高次元データに適している。
デメリット
- 解釈性が低い。
- 過剰適合のリスクが高い。
使い分け
- 予測モデル構築やビッグデータ解析。
使用例
- ビッグデータ解析: 患者のプロファイリング。
- 遺伝子解析: 遺伝子間相互作用の解析。
6. 相関係数や単変量解析による事前スクリーニング
概要
候補変数の相関係数や単変量解析の結果をもとに変数を絞り込む。
メリット
- 初期スクリーニングとして有用。
- 計算負荷が少ない。
デメリット
- 真の交絡因子を見逃す可能性。
- 変数間の相互作用を考慮できない。
使い分け
- 仮説生成やデータ削減が目的の場合。
使用例
- 臨床研究: 初期の因子スクリーニング。
- 治療介入試験: 候補因子の絞り込み。
学会発表や臨床論文では、仮説駆動型選択、全変数モデル、ステップワイズ選択、単変量解析による事前スクリーニングなどがよいでしょう。
以下にまとめます。
手法 | 妥当性 | 主な利用場面 | 使用例 |
---|
事前知識に基づく選択 | 高 | 臨床研究、介入試験 | リスク因子特定 |
全変数投入 | 中 | バイオマーカー探索、ビッグデータ | 網羅的解析 |
ステップワイズ法 | 中 | 仮説生成、予測モデル | 臨床研究、遺伝子解析 |
Lasso回帰 | 高 | 高次元データ、バイオマーカー探索 | オミックス解析 |
ランダムフォレスト | 中 | ビッグデータ解析、予測モデル | 遺伝子発現解析 |
相関係数・単変量解析 | 低 | 初期スクリーニング | 臨床研究 |