如何解决pandas的pivot_table方法出现"ValueError: Index contains duplicate entries"错误？

问题现象与原因分析

当使用pandas.pivot_table()方法时，开发者经常会遇到以下报错：

ValueError: Index contains duplicate entries, cannot reshape

这个错误发生在尝试创建数据透视表时，输入的索引组合（index+columns）存在重复值。根本原因是pivot_table需要唯一标识符来确定每个单元格的位置，而重复的索引会破坏这种确定性关系。

最简单的解决方案是指定aggfunc参数：

df.pivot_table(index='category', columns='month', 
               values='sales', aggfunc='sum')

常用聚合函数包括：'sum', 'mean', 'count', 'max'等。

通过reset_index()创建辅助列：

df['unique_id'] = df.groupby(['category','month']).cumcount()
df.pivot_table(index=['category','unique_id'], columns='month')

删除可能导致冲突的重复记录：

df.drop_duplicates(subset=['index_col','column_col'], keep='first')

调整index和columns参数组合，确保其唯一性：

# 原始错误配置
df.pivot_table(index='product_id', columns='date')
# 修正方案
df.pivot_table(index=['product_id','region'], columns='date')

对于简单情况可用groupby+unstack组合：

df.groupby(['category','month'])['sales'].mean().unstack()

执行以下检查脚本：

duplicates = df.duplicated(subset=['col1','col2'], keep=False)
print(df[duplicates].sort_values(['col1','col2']))

创建层次化索引解决冲突：

df.set_index(['category','subcategory','month'], inplace=True)

对连续值进行离散化处理：

df['price_bin'] = pd.qcut(df['price'], q=10)