如何解决pandas rank方法在处理NaN值时遇到的排序问题？

更新时间 2025-11-09

问题现象与复现

在使用pandas.DataFrame.rank()进行数据排序时，当遇到NaN值会出现以下典型问题：

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [0.5, np.nan, 1.2, 3]
})
print(df.rank())

输出结果中，NaN值默认会被赋予最高排名（数值最大），这与业务场景中期望的排除或特殊处理NaN的需求不符。

方法	代码示例	适用场景	性能影响
参数调优法	`df.rank(na_option='bottom')`	需要保留NaN但调整位置	O(nlogn)
预处理过滤法	`df.dropna().rank()`	完全排除NaN记录	O(n)
占位替换法	`df.fillna(-np.inf).rank()`	需要区分原值与缺失值	O(n)
分组处理法	`df.groupby(pd.notna(df['A'])).rank()`	需要分条件排序	O(nlogn)
自定义排名法	`df.apply(lambda x: x.rank() if x.notna().all() else ...)`	复杂业务逻辑	O(n²)

当处理多列联合排名时，需要组合使用axis和method参数：

# 按行方向计算百分位排名
df.rank(axis=1, method='max', pct=True)