前向き・後ろ向きを問わず、臨床研究では「A群とB群の年齢の比較」など、複数の群間における興味ある変数の比較が重要ですね。このような解析のときには、そのような変数は平均値で表した方がよいのか?それとも中央値で表した方がよいのかどちらがよいのでしょうか?
あと聞きたいんですが、興味ある変数の群間比較にはt検定とかマン・ホイットニーとかがありますが、どれを使えばいいんですか?
その前に、まずは目的の変数が正規分布しているかどうかを評価しよう
平均値で表した方がよいのか、それとも中央値で表した方がよいのかを決めるときには、
まず、その変数が正規分布かどうかを判別します。その時には、主に以下の方法を使用します。
(1) 視覚的な確認
- ヒストグラムを作成して、データが正規分布に従っているかを視覚的に確認します。
(まずは見た目で。)
(2) 統計検定
- シャピロ・ウィルク検定やコルモゴロフ・スミルノフ検定を用いて、データが正規分布に従っているかを検定します。
- 帰無仮説:データは正規分布に従う。
- 検定結果のp値が0.05未満の場合、正規分布ではないと判断します。
シャピロ・ウィルク検定(Shapiro-Wilk Test)とは?
- 概要: 小~中規模のサンプルサイズ(n < 50)に適しており、正規分布の検定として最もよく用いられます。
- 帰無仮説: データは正規分布に従う。
- 判断基準:
- p値 ≥ 0.05 → 正規分布を棄却できない(正規分布とみなせる)。
- p値 < 0.05 → 正規分布ではない。
(コルモゴロフ・スミルノフ検定(Kolmogorov-Smirnov Test, K-S Test)とは?
- 概要: 大規模データセット(n > 50)や、他の分布(例: 指数分布)に適しており、正規分布の検定にも用いられます。
- 帰無仮説: データは正規分布に従う。
- 判断基準:
- p値 ≥ 0.05 → 正規分布を棄却できない(正規分布とみなせる)。
- p値 < 0.05 → 正規分布ではない。
(3) 検定結果の解釈
- p値が0.05以上の場合
→ データは正規分布とみなして問題ありません。ただし、「正規分布である」と断定するわけではなく、「正規分布でないとは言えない」という形で解釈します。 - p値が0.05未満の場合
→ データは正規分布ではないと判断されます。この場合、非正規分布用の解析手法(例: マン・ホイットニーU検定やクラスカル・ウォリス検定)を検討する必要があります。
(4) 検定の実施における注意点
- 視覚的確認を併用する
ヒストグラムなどを用いて、データの分布を視覚的に確認することで、正規分布の有無を補足的に評価できます。 - サンプルサイズの影響
小規模データでは、統計的検定が正確な結果を示さない場合があります。そのため、検定結果だけでなく、データの性質を考慮することが重要です。 - 外れ値の影響
外れ値があると正規性が損なわれる可能性があるため、事前に外れ値の影響を確認することも必要です。
(5) まとめ
正規分布を評価する際は、以下を組み合わせて判断するのがおすすめです:
- シャピロ・ウィルク検定(小規模データに最適)
- コルモゴロフ・スミルノフ検定(大規模データに対応)
- 視覚的確認(ヒストグラムなど)
統計解析の前段階として正規性を確認することで、解析結果の信頼性を高めることができます。
正規分布かどうかを確認したら中央値と平均値の使い分けよう
(1) データが正規分布に近い場合
平均値を用いるのが適切です。例えば、疾患がある患者さんとない患者さんの年齢が正規分布している場合、平均年齢を比較することでグループ間の違いを捉えやすくなります。
年齢のような連続変数を解析する際、中央値か平均値のどちらを用いるべきかは、データの分布によります。
(2) データが非正規分布の場合
中央値を用いるべきです。外れ値(非常に若い患者さんや高齢の患者さん)が多い場合、平均値が偏る可能性があります。この場合、中央値の方がデータの中心傾向を正確に反映します。
群間比較に適した検定方法は??
(1) カテゴリカルデータ(性別や併存率)
- 2群間比較: カイ二乗検定またはフィッシャーの正確確率検定を用います。
例: A群とB群における「性別の割合(%)の違い」や「ある疾患が併存しているかしていないかの割合(%)の違い」など - 注意点: サンプルサイズが小さい場合は、フィッシャーの正確確率検定を使うのが安全です。
- 3群間以上の比較:カイ二乗検定を用います。
(2) 連続データ(年齢、血液検査データ、呼吸機能検査データなど)
- データが正規分布の場合
- 2群間ではt検定を、3群以上では一元配置分散分析(ANOVA)を使用します。
- データが非正規分布の場合
- 2群間ではマン・ホイットニーU検定、3群以上ではクラスカル・ウォリス検定を用います。
(3) 分散の等質性の確認
- 正規分布である場合、ルビーン検定を用いて分散が等しいかどうかを確認します。
- 分散が等しくない場合は、修正されたt検定(ウェルチのt検定)を使用します。
ありがとうございま~す!!