<その2>Cox比例ハザード解析やロジスティック解析における多変量解析の変数選択はどのように行うべきか? の続きになります。見ていない方は、こちらへ。
多変量解析に組み入れることのできる変数の種類はいくつまで?
多変量解析において、モデルが過剰適合(overfitting)するのを避けるためには、サンプルサイズと変数数のバランスが重要です。
10~20イベント/変数(EPV: Events Per Variable)が一般的な目安です。
- 例えば、100のイベントがある場合、5~10変数が推奨されます。
- イベント数が少ない場合、モデルの信頼性が低下します。
イベントが少ない場合、Lasso回帰や縮小推定などの正則化手法を使用して変数を絞り込むことが推奨されます。
具体例を挙げます。
IPFの死亡率に関連する解析を行う場合、あなたのデータで30例の死亡があったとしましょう。
年齢と性別、FVC、DLCO、喫煙歴、KL-6、体重などの7つのベースライン変数の中から死亡リスク因子となりうる変数を同定する多変量Cox解析を行うとします。
死亡イベントが30しかないので、7つのベースライン変数を組み込むことはできません。
この場合、通常は、最大3つの変数を組み入れるのが妥当でしょう。
モデルタイプ | 変数数の目安 |
---|
Cox比例ハザードモデル | 10~20イベント/変数 |
ロジスティック回帰 | 10~20イベント/変数 |
Lasso回帰・Elastic Net | サンプル数以上も可能(正則化) |
機械学習モデル | サンプル数が十分なら多数変数を扱える |
変数を増やすとモデルが複雑になるため、解析の目的に応じて変数選択を適切に行うことが重要です。
例えば、臨床研究では信頼性を重視し、変数の数を制限する一方、ビッグデータ解析では網羅的に解析することが求められる場合があります。
どうしてもイベント数以上の変数を組み入れたい場合には、研究のモデル・目的に応じてLasso回帰や機械学習モデルも考慮してもよいかもしれませんが、注意が必要です。