PyYAML常见问题：如何解决"YAML解析时出现不安全的反序列化警告"？

1. 问题现象与背景

当开发者使用PyYAML的yaml.load()方法解析不可信YAML数据时，控制台会出现醒目警告：

Warning: The yaml.load() API can be dangerous if used with untrusted data.
Consider using yaml.safe_load().

这个警告源于CVE-2017-18342漏洞，攻击者可通过构造恶意YAML利用Python的!!python/object标签实现任意代码执行。PyYAML 5.1+版本默认禁用不安全特性，但开发者仍需理解其风险本质。

YAML标准支持类型标签系统（Type Tags），PyYAML实现包括：

示例攻击载荷：

!!python/object/apply:os.system
args: ["rm -rf /"]

最直接方案是将所有load()替换为safe_load()：

import yaml
data = yaml.safe_load(open('config.yml'))

限制：仅支持标准YAML类型（str, list, dict等），无法反序列化自定义类。

继承yaml.SafeLoader并注册白名单类：

class SafeLoader(yaml.SafeLoader):
    pass

SafeLoader.add_constructor(
    'tag:yaml.org,2002:python/object',
    lambda loader, node: None
)

PyYAML 5.1+推荐方式：

from yaml import YAML
yaml = YAML(typ='safe')  # 等价于safe_load
data = yaml.load(stream)

生产环境不推荐但应急方案：

import warnings
warnings.filterwarnings('ignore', category=yaml.YAMLLoadWarning)

结合正则表达式预检测危险标签：

import re
danger_pattern = re.compile(r'!!python/\w+')

if danger_pattern.search(yaml_content):
    raise ValueError("Unsafe YAML detected")

根据OWASP建议：

对于需要自定义类序列化的场景，建议采用JSON Schema + 中间DTO模式，既能保证安全又维持灵活性。