如何使用pymongo的skip方法解决大数据集分页性能问题？

一、pymongo skip方法的性能瓶颈分析

在使用Python的pymongo库进行MongoDB查询时，skip()方法常被用于实现分页功能。但当处理大数据集时，特别是深度分页场景（如skip值超过10000），会出现显著的性能下降：

全表扫描问题：MongoDB必须扫描并丢弃所有跳过的文档
内存消耗：大偏移量会导致大量临时数据加载到内存
响应时间：测试显示skip(10000)比skip(100)慢15-20倍

# 典型问题代码示例
collection.find().skip(10000).limit(10)  # 深度分页性能陷阱

二、5种优化方案与代码实现

1. 基于_id的范围查询优化

利用MongoDB的天然排序特性，记录最后返回的_id作为下次查询条件：

last_id = None
for _ in range(pages):
    query = {}
    if last_id:
        query = {'_id': {'$gt': last_id}}
    results = list(collection.find(query).limit(10))
    last_id = results[-1]['_id']

2. 复合索引+范围查询

对分页字段创建组合索引，如按时间分页时可建立{created_at: -1, _id: 1}索引：

collection.create_index([('created_at', -1), ('_id', 1)])

last_date = datetime.now()
for _ in range(pages):
    query = {'created_at': {'$lt': last_date}}
    results = list(collection.find(query)
                   .sort('created_at', -1)
                   .limit(10))
    last_date = results[-1]['created_at']

3. 物化视图预计算

对高频访问的分页数据建立预计算集合：

# 定期运行此任务更新物化视图
pipeline = [
    {'$match': {'status': 'active'}},
    {'$project': {'_id': 1, 'title': 1}},
    {'$out': 'materialized_view'}
]
collection.aggregate(pipeline)

4. 结合$facet实现批处理

使用聚合管道的$facet阶段一次性获取多页数据：

pipeline = [
    {'$facet': {
        'page1': [{'$skip': 0}, {'$limit': 10}],
        'page2': [{'$skip': 10}, {'$limit': 10}]
    }}
]
result = collection.aggregate(pipeline)

5. 缓存热点分页数据

使用Redis缓存高频访问的分页结果：

import redis
r = redis.Redis()

def get_page(page):
    cache_key = f'products:{page}'
    if not r.exists(cache_key):
        data = list(collection.find().skip(page*10).limit(10))
        r.setex(cache_key, 3600, pickle.dumps(data))
    return pickle.loads(r.get(cache_key))

三、性能对比测试数据

方法	skip(1000)	skip(10000)
原生skip	120ms	980ms
_id范围查询	45ms	52ms
复合索引	38ms	40ms

四、最佳实践建议

前端实现无限滚动替代传统分页
对超过100页的查询要求必须带过滤条件
监控慢查询日志中的大skip值操作
考虑使用Elasticsearch等专业搜索引擎处理复杂分页