假设Redis有1亿个key，其中10w个以某个固定已知的前缀开头，如何将其全部找出？

FOX 2025-11-06 10:08:56

这是一个非常经典的 Redis 面试题，它考察的不仅仅是你知不知道某个命令，更是你对 Redis 底层原理、性能影响以及生产环境实践的综合理解。

我会分层次地回答这个问题，从“错误答案”到“标准答案”，再到“加分答案”。

层级一：错误或有严重风险的答案 (KEYS)

最直接、最容易想到的方法是使用 KEYS 命令：

KEYS "your_prefix:*"

为什么这是错误的答案？

在面试中，如果你只回答这个，基本就结束了。因为KEYS命令是一个阻塞式操作。

单线程模型：Redis 的主要命令处理是单线程的。一个命令在执行时，其他所有客户端的请求都必须等待。
全量遍历：KEYS为了找出所有匹配的 key，会遍历数据库中的全部 1 亿个 key。在遍历完成之前，Redis 无法处理任何其他命令。
生产环境灾难：在一个有 1 亿 key 的实例上执行KEYS，会导致 Redis 服务卡顿数十秒甚至数分钟，所有依赖 Redis 的业务都会出现超时和雪崩，这是严重的生产事故。

结论：KEYS 命令只能在调试或 key 总量极少的场景下使用，严禁在线上生产环境对大规模实例使用。

层级二：标准且安全的答案 (SCAN)

正确的操作应该使用 SCAN 命令，它是为解决 KEYS 的阻塞问题而设计的。

# 第一次执行，从游标 0 开始SCAN 0 MATCH "your_prefix:*" COUNT 1000
# Redis 返回结果# 1) "1762"  <-- 这是下一次迭代要用的新游标# 2) 1) "your_prefix:key1"#    2) "your_prefix:key2"#    ... (返回一批 key)
# 第二次执行，使用上一次返回的新游标 "1762"SCAN 1762 MATCH "your_prefix:*" COUNT 1000
# ... 重复这个过程，直到返回的游标为 "0" 时，表示遍历完成。

为什么SCAN是标准答案？

非阻塞式（渐进式）迭代：SCAN命令不是一次性返回所有结果。它每次只扫描一小部分数据，然后返回一个游标（cursor）。你下次调用时传入这个游标，Redis 就会从上次结束的地方继续扫描。这个过程是无锁的。
对业务无影响：由于每次扫描的计算量很小（可以把一次SCAN看作 O(1) 操作），它不会长时间阻塞 Redis 主线程，对线上服务的影响极小。
COUNT参数：COUNT只是一个建议值，告诉 Redis 你希望每次迭代返回大约多少个 key。它不是精确的，有时多有时少，但可以用来控制单次扫描的粒度。

实现方式：

你需要在你的客户端代码中（例如 Java, Python, Go）编写一个循环，不断调用SCAN，直到返回的游标为 "0"，并将每次返回的结果聚合起来。

层级三：更优的架构设计（加分答案）

面试官问这个问题，其实也想考察你是否具备良好的数据结构设计能力。一个优秀的架构师会思考：“我们是否可以从根源上避免这种全量扫描的需求？”

如果你能提出以下方案，会非常加分：

方案一：使用集合 (Set) 或哈希 (Hash) 作为索引

这是最优的解决方案。在写入数据时，除了存储原始的 key-value，我们还应该维护一个“索引”。

具体做法：

写入时：

当你创建一个 key，例如SET "your_prefix:123" "some_value"
同时，将这个 key 的唯一部分（如123）添加到一个固定的Set中。
SADD "index:your_prefix" "123"

查找时：

不再需要SCAN。直接读取索引 Set 的所有成员。
SMEMBERS "index:your_prefix"
这个命令会立即返回所有your_prefix后缀的 key（"123","456", ...），时间复杂度是 O(N)，其中 N 是 Set 中的成员数量（10w），而不是数据库的总 key 数（1亿）。这非常快。

删除时：