如何解决PyYAML库add_multi_representer方法中的自定义类型序列化问题？

问题背景

在使用Python的PyYAML库进行数据序列化时，add_multi_representer方法是一个强大的工具，它允许开发者为多个类或类型注册自定义的YAML表示方法。然而，当处理复杂的自定义类型时，开发者经常会遇到序列化失败或输出不符合预期的情况。

常见问题表现

自定义类实例被序列化为简单的Python字典，丢失类型信息
嵌套对象结构无法正确递归序列化
特殊数据类型（如datetime对象）的表示不符合需求
循环引用导致无限递归问题
多继承场景下的类型识别错误

问题根源分析

这些问题通常源于以下几个原因：

类型注册不完整：未为所有相关类型注册representer
递归处理缺失：自定义representer未正确处理嵌套结构
标记保存不足：YAML标签(!tag)未正确保留类型信息
多态性处理不当：对继承体系中的子类处理不完善

解决方案

1. 完整类型注册

def custom_representer(dumper, data):
    return dumper.represent_mapping('!MyClass', data.__dict__)

yaml.add_multi_representer(MyBaseClass, custom_representer)
for subclass in MyBaseClass.__subclasses__():
    yaml.add_multi_representer(subclass, custom_representer)

2. 递归处理实现

对于包含嵌套结构的对象，representer需要显式处理每个属性：

def recursive_representer(dumper, data):
    if isinstance(data, (list, tuple)):
        return dumper.represent_sequence('!MyList', data)
    elif isinstance(data, dict):
        return dumper.represent_mapping('!MyDict', data)
    # 其他类型处理...

3. 保留类型信息

通过YAML标签确保类型信息不丢失：

def tagged_representer(dumper, data):
    mapping = {'__class__': data.__class__.__name__}
    mapping.update(data.__dict__)
    return dumper.represent_mapping(f'!{data.__class__.__name__}', mapping)

高级技巧

处理循环引用

使用对象ID标记已序列化的对象：

def cyclic_representer(dumper, data):
    if id(data) in dumper.represented_objects:
        return dumper.represent_scalar('!ref', str(id(data)))
    dumper.represented_objects[id(data)] = None
    # 正常序列化逻辑...

多态类型处理

通过类注册表实现动态类型识别：

class_registry = {}

def polymorphic_representer(dumper, data):
    actual_class = data.__class__
    if actual_class not in class_registry:
        yaml.add_multi_representer(actual_class, polymorphic_representer)
        class_registry[actual_class] = True
    # 序列化逻辑...

最佳实践

为基类和所有已知子类显式注册representer
在representer中实现完整的递归处理
保留足够的类型信息以便反序列化
对可能存在的循环引用进行特殊处理
编写对应的constructor以完成双向转换