如何解决Gensim中similarity方法返回NaN值的问题？

更新时间 2025-11-22

问题现象描述

在使用Gensim计算文本相似度时，开发者经常会遇到similarity方法返回NaN（Not a Number）的特殊情况。这种异常通常发生在以下场景：

通过分析Gensim源码发现，similarity方法底层依赖余弦相似度计算，其数学公式为：

cosθ = (A·B) / (||A|| * ||B||)

当出现以下情况时会导致分母为零：

from gensim.matutils import unitvec
normalized_vec = unitvec(raw_vector)

def safe_similarity(vec1, vec2):
    if np.all(vec1 == 0) or np.all(vec2 == 0):
        return 0.0  # 自定义默认值
    return model.similarity(vec1, vec2)

检查词向量模型是否包含目标词汇：

assert word in model.wv.key_to_index, f"{word} not in vocabulary"

使用scipy的余弦相似度实现：

from scipy.spatial.distance import cosine
1 - cosine(vec1, vec2)

推荐采用防御性编程策略组合解决方案：