使用sample_borderline_smote时如何解决"ValueError: Found array with 0 sample(s)"错误？

更新时间 2025-11-23

问题现象与根源分析

当开发者调用sample_borderline_smote方法处理不平衡数据集时，常会遇到以下报错：

ValueError: Found array with 0 sample(s) (shape=(0, n_features)) while a minimum of 1 is required

该错误的核心原因是SMOTE算法需要至少2个少数类样本才能执行插值生成新样本。在以下场景会触发此问题：

数据预处理阶段误删所有少数类样本
分类阈值设置不当导致样本过滤
交叉验证时的数据分割异常
特征选择后维度不匹配

5种解决方案

1. 数据完整性检查

在执行过采样前添加验证逻辑：

from collections import Counter
y_counter = Counter(y)
if min(y_counter.values()) < 2:
    raise ValueError("Minority class needs at least 2 samples")

2. 调整采样策略

改用RandomOverSampler作为备用方案：

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42)
X_res, y_res = ros.fit_resample(X, y)

3. 修改分类边界参数

调整kind参数为更宽松的模式：

smote = BorderlineSMOTE(kind='borderline-2', random_state=42)

4. 分层抽样保障

使用StratifiedKFold确保数据分割合理性：

from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5)

5. 样本权重调整

对极端不平衡数据采用class_weight参数：

from sklearn.svm import SVC
clf = SVC(class_weight='balanced')

3个预防措施

数据质量监控：实现自动化样本数量检查管道
参数验证：对kind参数进行枚举值校验
日志记录：记录每个处理阶段的样本分布变化

性能优化建议

参数	推荐值	作用
k_neighbors	3-5	控制生成的样本质量
sampling_strategy	auto	自动平衡目标分布

通过以上方法，开发者可以系统性地解决边界SMOTE算法的空样本问题，同时提升模型在类别不平衡场景下的鲁棒性。