Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択は、研究の目的やデータ特性によって異なりますが、一般的な選択基準の妥当性が高い順に以下のように整理できます。
1.事前に定義された研究目的や仮説に基づく選択(優先度:高)
目的: 既存の知見や文献レビューから、研究目的に合致する重要な変数を明確にする。
利点:
- 研究の焦点を絞り込む。
- 過剰なデータ操作による誤った結果を防ぐ。
例:
- 臨床的に重要とされるリスク因子(例: 年齢、性別、基礎疾患)。
- 研究の仮説を検証するために必要な変数。
2.文献やガイドラインに基づく選択(優先度:中-高)
目的: 過去の研究でリスク因子として確認されている変数を考慮。
利点:
- 信頼性が高い。
- 既存知見と結果を比較しやすい。
注意点:
- ガイドラインや文献は地域や患者特性によって異なる場合があるため、対象集団に合うか検討が必要。
3.専門家の意見や臨床的知見に基づく選択(優先度:中)
目的: 研究者や専門家が臨床的に重要と考える変数を選ぶ。
利点:
- 実務的な意味のある結果を得られる可能性が高い。
課題: 主観的な偏りが生じるリスクがある。
4.データ駆動型アプローチによる選択(優先度:中-低)
目的: 多くの変数を探索的に検討し、有意な変数を特定。
手法:
- 単変量解析で有意な変数を選定。
- 変数選択法(ステップワイズ法、LASSO、エラスティックネットなど)を用いる。
利点:
- 新しいリスク因子の発見につながる可能性。
課題:
- 過適合(overfitting)や偶然の関係を導くリスクがある。
- 発見された変数が臨床的に意味を持たない場合がある。
5.すべての変数を含める(優先度:低)
目的: 包括的な分析を試みる。
利点:
- 網羅的に検討可能。
課題:
- サンプルサイズに対して変数が多すぎるとモデルが不安定になる。
- 臨床的妥当性が低い結果を生む可能性。
どうやって変数選択の優先順位を決めるか?
特定の変数がリスク因子であるかを検証したい場合:
- 仮説や文献に基づく変数選択を優先。
探索的に新しいリスク因子を特定したい場合:
- データ駆動型アプローチやすべての変数を含める方法を使用。
モデルの予測性能を最大化したい場合:
- ステップワイズ法やLASSOなどの変数選択法を活用。
まとめます。
自分が興味をもっている因子Aが、リスク因子(例えば死亡のリスク因子)となるかどうかを解析したい場合:
因子Aと、すでに報告されている死亡のリスク因子(年齢やILDでいうとFVCなど)、臨床的に重要な因子(性別など)を多変量モデルに含めます。そうすると、既知のリスク因子や臨床的に重要な因子で調整しても因子Aが統計学的に有意なリスク因子になるかどうかわかります。
このような目的での解析では、「単変量解析で有意だった変数を多変量モデルに組み込んだ(4.データ駆動型アプローチによる選択)」という解析は適切ではありません。
したがって、研究仮説にもよりますが、上記の1 > 2 > 3が妥当な手法に思います。
まったくリスク因子がわかっていない探索的な研究の場合:
4.データ駆動型アプローチによる選択でよいでしょう。しかし、この場合でも既知のリスク因子や臨床的に重要な変数を組み入れることで、解析の妥当性が上がるでしょう。