如何在Python中使用pandas的Series方法处理缺失值NaN？

更新时间 2025-11-26

一、NaN值的本质与检测方法

在数据分析过程中，缺失值处理是使用pandas.Series时最常见的挑战之一。NaN（Not a Number）作为IEEE浮点数标准中的特殊值，在pandas中被用作缺失数据的标记。通过series.isna()方法可以生成布尔掩码：

import pandas as pd
import numpy as np

data = pd.Series([1, np.nan, 3, None])
print(data.isna())
# 输出：0 False
#       1 True
#       2 False
#       3 True

二、5种核心缺失值处理技术

1. 直接删除法

dropna()方法会返回删除NaN后的新Series：

clean_data = data.dropna()

2. 前向/后向填充

使用相邻值填充时需注意数据连续性：

ffill_data = data.ffill()  # 前向填充
bfill_data = data.bfill()  # 后向填充

3. 统计值填充

常用统计量包括均值、中位数等：

mean_fill = data.fillna(data.mean())

4. 插值法

线性插值适用于时间序列：

interp_data = data.interpolate()

5. 自定义值填充

可指定任意替换值：

custom_fill = data.fillna('MISSING')

三、高级处理技巧

当处理大型数据集时，可采用分组填充策略：

group_fill = data.groupby(level=0).apply(
    lambda x: x.fillna(x.mean()))

对于时间序列数据，推荐使用时间感知填充：

time_fill = data.asfreq('D').interpolate()

四、性能优化建议

大数据集优先使用inplace=True参数
分类数据考虑fillna('UNKNOWN')替代数值填充
定期检查series.hasnans属性监控数据质量

五、实际案例演示

以下演示处理电商用户年龄数据的完整流程：

# 创建含缺失值的示例数据
ages = pd.Series([25, np.nan, 32, None, 28, 40, np.nan])

# 多阶段处理
processed = (ages
    .fillna(ages.median())          # 第一阶段：中位数填充
    .clip(lower=18, upper=80)       # 第二阶段：范围修正
    .astype('int32'))               # 第三阶段：类型转换