为什么在使用spacy的blank方法时会遇到"ValueError: [E002] Can't find factory for 'tokenizer'&qu

问题现象与背景

当开发者使用spacy.blank()方法创建空白语言模型时，经常会遇到如下报错：

ValueError: [E002] Can't find factory for 'tokenizer'

这个错误通常发生在尝试加载或使用新创建的空白模型时，特别是在配置了自定义管道组件但未正确处理基础组件依赖的情况下。根据spacy官方文档统计，这属于blank方法使用过程中最高频的报错之一。

该错误的核心原因是spacy的组件工厂系统未能找到创建tokenizer所需的工厂函数。具体涉及以下技术细节：

最基本的解决方法是创建空白模型时显式声明语言：

nlp = spacy.blank("en")  # 明确使用英语

这会使spacy自动加载对应语言的默认tokenizer工厂。

对于自定义语言场景，需要手动注册tokenizer工厂：

from spacy.language import Language
@Language.factory("tokenizer")
def create_tokenizer(nlp, name):
    return nlp.tokenizer

确保项目中的config.cfg包含正确的tokenizer配置段：

[components.tokenizer]
factory = "tokenizer"

某些版本(如3.0-3.2)存在已知的工厂注册问题，建议：

pip install spacy==3.5.0  # 稳定版本

采用标准化的模型创建流程：

from spacy.lang.en import English
nlp = English()  # 替代blank方法

spacy的组件工厂系统采用延迟加载机制，tokenizer作为基础组件具有特殊地位：

为避免此类问题，推荐以下开发规范：

理解此错误有助于处理其他组件类似问题：