如何解决statsmodels库test_normality方法中的"样本量不足导致检验失效"问题

问题背景与表现

在使用Python的statsmodels库进行统计分析时，test_normality()方法是检验数据正态性的重要工具。其中最常见的报错之一是"样本量不足导致检验失效"，该问题通常表现为：

检验统计量返回NaN或inf值
p值计算异常（如等于1或0）
警告信息提示"样本量太小无法计算有效统计量"
不同正态性检验方法结果矛盾

根本原因分析

经过对Shapiro-Wilk、Kolmogorov-Smirnov和Anderson-Darling等检验算法的研究发现：

大多数正态性检验方法都有最小样本量要求（通常n≥20）
小样本数据容易产生Type II错误（假阴性）
检验统计量的渐近分布在n<30时不够准确
极端值对小样本的影响会被放大

诊断方法

import statsmodels.api as sm
import numpy as np

# 生成小样本数据
data = np.random.normal(size=15)  

# 执行正态性检验
test_result = sm.stats.diagnostic.test_normality(data)
print(test_result)

典型输出异常包括：

检验方法	小样本表现
Shapiro-Wilk	W统计量接近1
K-S检验	D统计量异常大
AD检验	临界值不准确

六种解决方案

1. 增加样本量

最直接的解决方法是收集更多数据，使样本量达到：

Shapiro-Wilk：建议n≥50
K-S检验：建议n≥30
AD检验：建议n≥20

2. 使用替代检验方法

对小样本更稳健的方法：

from scipy.stats import shapiro, anderson

# Shapiro-Wilk检验（n≥3）
shapiro(data)  

# Anderson-Darling检验（n≥8）
anderson(data)

3. 数据变换技术

通过Box-Cox变换改善正态性：

from scipy.stats import boxcox
transformed, _ = boxcox(data + 1)  # 处理非正数据

4. 非参数替代方案

考虑使用：

Bootstrap重采样
置换检验(Permutation test)
核密度估计

5. 可视化辅助判断

结合图形分析：

import matplotlib.pyplot as plt
import seaborn as sns

sns.histplot(data, kde=True)
plt.show()

6. 调整检验参数

对于Lilliefors检验可调整显著性水平：

from statsmodels.stats.diagnostic import lilliefors
lilliefors(data, dist='norm', pvalmethod='approx')

最佳实践建议

根据实证研究，推荐以下工作流程：

样本量n<20：使用Shapiro-Wilk检验+Q-Q图
20≤n≤50：组合使用AD检验和KS检验
n>50：所有检验方法均可使用

同时建议：

记录检验方法的样本量要求
报告检验统计量和效应大小
结合领域知识判断