＜その1＞Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか？

Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択は、研究の目的やデータ特性によって異なりますが、一般的な選択基準の妥当性が高い順に以下のように整理できます。

1.事前に定義された研究目的や仮説に基づく選択（優先度：高）

目的: 既存の知見や文献レビューから、研究目的に合致する重要な変数を明確にする。

利点:

例:

目的: 過去の研究でリスク因子として確認されている変数を考慮。

利点:

注意点:

目的: 研究者や専門家が臨床的に重要と考える変数を選ぶ。

利点:

課題: 主観的な偏りが生じるリスクがある。

目的: 多くの変数を探索的に検討し、有意な変数を特定。

手法:

利点:

課題:

目的: 包括的な分析を試みる。

利点:

課題:

特定の変数がリスク因子であるかを検証したい場合:

探索的に新しいリスク因子を特定したい場合:

モデルの予測性能を最大化したい場合:

まとめます。

自分が興味をもっている因子Aが、リスク因子（例えば死亡のリスク因子）となるかどうかを解析したい場合：

因子Aと、すでに報告されている死亡のリスク因子（年齢やILDでいうとFVCなど）、臨床的に重要な因子（性別など）を多変量モデルに含めます。そうすると、既知のリスク因子や臨床的に重要な因子で調整しても因子Aが統計学的に有意なリスク因子になるかどうかわかります。

このような目的での解析では、「単変量解析で有意だった変数を多変量モデルに組み込んだ（4.データ駆動型アプローチによる選択）」という解析は適切ではありません。

したがって、研究仮説にもよりますが、上記の1 ＞ 2 ＞ 3が妥当な手法に思います。

まったくリスク因子がわかっていない探索的な研究の場合：

4.データ駆動型アプローチによる選択でよいでしょう。しかし、この場合でも既知のリスク因子や臨床的に重要な変数を組み入れることで、解析の妥当性が上がるでしょう。