使用scikit-learn的Isomap方法时如何解决"ValueError: array must not contain infs or NaNs"错误

问题现象与背景

当使用scikit-learn的Isomap进行非线性降维时，许多开发者会遇到"ValueError: array must not contain infs or NaNs"错误。该错误发生在调用fit_transform()方法时，表明输入数据包含非法数值（无限值或缺失值）。Isomap作为流形学习算法，对数据质量尤其敏感，因为其核心依赖于测地距离计算和多维缩放(MDS)。

根本原因分析

原始数据问题：输入矩阵包含np.inf/-np.inf或np.nan
距离矩阵异常：邻接图构建过程中产生无限距离
参数设置不当：n_neighbors值过大导致孤立点
数据标准化缺失：特征尺度差异引发数值不稳定

6种解决方案详解

1. 数据清洗预处理

from sklearn.impute import SimpleImputer
import numpy as np

# 替换无限值为NaN
X[X == np.inf] = np.nan
X[X == -np.inf] = np.nan

# 使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')
X_clean = imputer.fit_transform(X)

2. 特征标准化处理

推荐使用RobustScaler处理离群值：

from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X_clean)

3. 调整n_neighbors参数

经验公式：n_neighbors = min(5%样本量, 50)

4. 添加微小扰动

X += np.random.normal(0, 1e-10, X.shape)

5. 使用自定义距离度量

from sklearn.metrics import pairwise_distances
def safe_dist(X):
    dist = pairwise_distances(X, metric='euclidean')
    np.fill_diagonal(dist, 0)  # 避免自距离问题
    return np.nan_to_num(dist)

isomap = Isomap(metric=safe_dist)

6. 降维前异常值检测

使用IsolationForest识别异常样本：

from sklearn.ensemble import IsolationForest
clf = IsolationForest()
outliers = clf.fit_predict(X) == -1
X_clean = X[~outliers]

最佳实践建议

始终检查np.isnan().any()和np.isinf().any()
可视化原始数据分布（箱线图/Q-Q图）
考虑使用TSNE或UMAP作为替代方案
监控dissimilarity_matrix的数值范围

数学原理说明

Isomap的核心是通过最短路径算法计算测地距离矩阵$D_G$：

$$ D_G(i,j) = \min_{p \in P_{ij}} \sum_{k=1}^{|p|-1} d(p_k,p_{k+1}) $$

当存在无限值时，会导致Floyd-Warshall算法或Dijkstra算法无法收敛。