如何解决使用LIME的get_text_explanation方法时出现的"预测函数返回格式错误"问题？

问题现象与诊断

当开发者使用Python的LIME（Local Interpretable Model-agnostic Explanations）库进行文本解释时，经常会遇到"ValueError: Prediction function returned wrong format"的错误提示。这个错误通常发生在调用get_text_explanation方法时，表明用户提供的预测函数输出格式不符合LIME的预期要求。

根本原因分析

该问题主要由以下几个因素导致：

预测函数返回值维度不匹配：LIME要求预测函数返回的是二维概率数组（对于分类任务）或一维数值数组（对于回归任务）
多分类与二分类混淆：二分类问题需要返回形状为(n_samples, 2)的数组，而开发者可能只返回正类的概率
自定义模型接口不规范：当使用非scikit-learn风格的模型时，预测函数可能返回字典等非标准格式
文本预处理不一致：解释器使用的tokenizer与原始模型的预处理流程不匹配

解决方案与代码示例

方案1：标准化预测函数输出

# 错误示例
def bad_predict_fn(texts):
    return model.predict_proba(texts)[:, 1]  # 只返回正类概率

# 正确示例
def correct_predict_fn(texts):
    probas = model.predict_proba(texts)
    # 对于二分类确保返回(n_samples, 2)
    if probas.shape[1] == 1:  # 某些模型只返回正类概率
        return np.hstack([1-probas, probas])
    return probas

方案2：使用LIME的文本预处理一致性

确保解释器与模型使用相同的文本预处理：

from lime.lime_text import LimeTextExplainer

explainer = LimeTextExplainer(
    class_names=['negative', 'positive'],
    split_expression=lambda x: x.split(),  # 与模型tokenizer一致
    bow=False  # 如果模型不使用词袋表示
)

方案3：处理自定义模型封装

对于非标准API的模型（如TensorFlow/Keras）：

def keras_predict_fn(texts):
    # 先进行与训练时相同的文本预处理
    sequences = tokenizer.texts_to_sequences(texts)
    padded = pad_sequences(sequences, maxlen=MAX_LEN)
    return model.predict(padded)

进阶调试技巧

验证预测函数独立运行：在传入LIME前单独测试预测函数
检查输出形状：确保返回值是numpy数组且维度正确
处理多标签分类：多标签场景需要返回(n_samples, n_classes)矩阵
日志记录：添加调试输出检查中间结果

性能优化建议

优化方向	具体措施	效果提升
批处理预测	将多个样本一次性传入预测函数	减少IO开销30-50%
缓存机制	对重复解释的样本缓存结果	显著降低计算负载

最佳实践总结

为了避免get_text_explanation方法出现预测格式错误，建议：

编写预测函数时严格遵循(n_samples, n_classes)输出格式
保持预处理流程的一致性
对复杂模型进行适当的封装适配
添加类型检查和维度验证代码