博客

超低延迟在线游戏：延迟从何而来——以及网络实际上能解决什么

Table of contents

为什么“ping”很少能解释玩家的真实感受
网络“魔法”的边界——以及游戏自身工作的起点
三类常见问题——以及真正有效的基础设施杠杆
影响网络设计的平台细节
我们在网络可控部分能提供什么
要点总结

在线游戏中最令人沮丧的一些情况，往往看起来根本不像是基础设施故障。高峰时段投诉增加，玩家报告橡皮筋效应、微卡顿或输入延迟，但服务器端看起来一切正常：CPU 余量充足，对局服务器在线，也没有明显的故障。在许多情况下，根本原因并不是服务器负载或游戏逻辑，而是数据包路径本身变得不稳定——因为队列堆积、互联过载、对等连接薄弱，或 BGP 将流量切换到更差的路径上。

对于这种问题，主要杠杆在于基础设施和连接性：服务器部署位置、与合适 ISP 和交换点的距离、通过 IP Transit、互联 / IX 和 DIA 的接入方式，以及如何通过私有跨站连接、交叉连接或专用电路 / 波长，将关键游戏流量与大量内部流量隔离。我们在 72 个数据中心和 228 个地点拥有覆盖，包括中国香港等亚洲选项，可支持这一层面的需求。

关键点是：游戏不仅仅关乎 ping，还关乎 RTT、抖动和丢包。抖动（延迟变化）和丢包，才是将可接受的平均 RTT 变成糟糕玩家体验的真正原因。

为什么“ping”很少能解释玩家的真实感受

一个数据包会经过家庭路由器、ISP 最后一公里、跨自治系统跳数、骨干或传输网络，然后到达你的数据中心边缘和游戏服务器——再返回。最危险的因素通常不是距离，而是排队：当某处容量不足或缓冲管理不当时，数据包在继续前进前会排队等待。对玩家来说，这表现为延迟尖峰，即使平均 RTT 几乎没有变化。

这就是为什么要超越单一数值，关注尾部行为：p95 和 p99 RTT、高峰时段抖动，甚至微小但持续的丢包。这些正是基础设施设计和部署可以改善的方面——前提是通往服务器的路径短、稳定，并且不会被迫经过错误的互联。

网络“魔法”的边界——以及游戏自身工作的起点

有些事情网络无法解决：玩家的 Wi-Fi、家庭缓冲膨胀、你的网络代码、伺服器刷新率或延迟补偿。但很多问题由基础设施驱动：通往服务器的路径、互联质量、与互联网交换点的距离、直连主要 ISP 的能力，以及将流量从劣化路径转移的能力。

本文其余部分将重点讨论这一基础设施侧：当问题在于路由和稳定性，而不是服务器负载时该如何应对。

三类常见问题——以及真正有效的基础设施杠杆

大多数表现为“延迟”的问题，并不是由单一故障链路引起的。它们发生的原因是网络在负载下按其本质运作：路径变化、互联过载、错误位置产生队列。好消息是，这些问题通常是可复现且可诊断的。

1）你上线了一个新区域，但对许多玩家来说它“比预期更远”

这是一个典型陷阱：数据中心在地理上是正确的，但在网络上不是。对某些 ISP 来说路径短且干净；对另一些来说，路径会绕行额外的传输网络、命中拥塞的对等链路，或走奇怪的 BGP 绕路。同一城市，不同 ISP 体验差异巨大。

解决方法主要在于站点选择和路由策略。选择区域不仅看地图，还要看其周围的连接生态。你需要附近的 IX、快速到达目标网络的能力，以及合适的 IP Transit 与远程 IX / 远程互联组合。有时最大的杠杆不是“更多服务器”，而是更好的路由：正确的传输组合和 BGP 策略可以减少不必要的跳数和晚高峰的异常。

2）平台增长，内部流量开始影响游戏流量

随着规模扩大，你会增加复制、备份、构建分发、大版本发布、分析以及更多服务间的东西向流量。网络开始“呼吸”。如果这些流量与对局流量共享路径，队列不可避免。玩家并不关心为什么带宽被堵——他们只会看到橡皮筋效应和延迟尖峰。

这时架构纪律至关重要：分离流量类型，并为关键跨站流提供可控传输。实践中，这通常意味着使用如 EoMPLS Pseudowire 等技术和其他私有互联模型，使路径更可预测，并降低同步流量干扰游戏流量的概率。重点不在于术语，而在于可预测路径、QoS，以及足够的容量余量，避免队列在错误位置堆积。

3）“平均值正常”，但晚间每天都更差

如果投诉像时钟一样准时出现，通常不是游戏漏洞，而是高峰时段拥塞和排队。一些 ISP 的对等链路过载，一些传输路径变热，有时路由变化导致路径切换。结果不一定是高 RTT，而是抖动和丢包的突发。

此时数据胜过直觉。识别哪些 ISP 和城市出现退化，traceroute 在哪里发生变化，以及 RTT、抖动或丢包哪个是主要症状。然后进行外科手术式修复：调整入口、优化 BGP 策略、迁移到更干净的 DIA 互联网接入，或在特定地理或路径需要更严格控制时使用专门的低延迟路由。目标不是“整体优化网络”，而是修正不稳定出现的具体位置。

影响网络设计的平台细节

当基础问题得到控制后，下一步是让网络与游戏实际行为对齐。并非所有游戏对同一种故障模式敏感，正确架构取决于玩家最先感知的问题。

不同类型，不同痛点

在射击游戏中，对抖动极其敏感：微小的延迟变化和丢包会迅速影响命中判定和操作手感。在 MOBA 中，大规模团战期间偶发但剧烈的延迟尖峰，往往比平均多出十几毫秒更糟——尾延迟比平均值更重要。在 MMO 中，长时间稳定性和服务间可靠性更关键，因为组件更多、东西向流量更多，问题出现的路径也更多——包括背包、聊天和副本。

重点是实用而非理论：不同游戏需要不同的区域布局和对路径不稳定性的不同容忍度。

UDP vs TCP vs QUIC：为什么游戏需要传输控制

实时模拟通常使用 UDP，因为它不会因丢包而阻塞数据流，并允许游戏自行决定处理方式——重传、预测或丢弃。TCP 在实时游戏中体验可能更差，因为丢包会阻塞后续传输。QUIC 是基于 UDP 的现代传输协议，适用于认证、API 和遥测等服务通道，但核心模拟通常仍由应用完全控制可靠性。

无论使用何种传输，不稳定路径仍然有害。如果网络路径噪声很大，仅靠协议无法拯救玩家体验。

中继模式：当直连路径不可行

CGNAT 和复杂的家庭网络会使某些 UDP 路径不可靠甚至不可用。许多平台采用回退模型：优先直连，不行则切换到中继节点。中继只有在部署得当时才有效——在网络意义上接近玩家，具备良好的对等和交换覆盖，并与目标区域良好连接。

这正是边缘存在的重要性。部署在正确 PoP 和数据中心的中继，更有可能降低抖动和丢包，而不是成为新的劣质跳点。

在不增加延迟的情况下防御 DDoS

DDoS 会在入口处产生队列或使瓶颈饱和。糟糕的缓解同样有害：如果合法流量被绕行到远端清洗中心再返回，服务虽然技术上在线，但由于额外 RTT 和波动，游戏可能变得无法游玩。

一个实用原则是尽可能在边缘进行过滤，并分割流量域，使某一层的攻击不会拖垮其他部分。这也是低延迟防护的重要性所在：防护层必须在不拉长合法路径的前提下保护服务，这正是 DDoS 缓解需要权衡的点。

SLO 与 SLI：衡量玩家真正感受到的体验

在定义尾部之前，“低延迟”意义不大。在真实事件中，平均 RTT 可能保持稳定，而 p95 和 p99 却急剧上升，高峰时段抖动增加，或出现持续的小幅丢包。

一种有效方法是按区域和 ISP 跟踪 RTT、抖动和丢包，并将这些指标与断线率和玩家投诉关联。这使得对等、传输或部署的调整从猜测转变为可测量的工程迭代——尤其是在最佳路经等可视化工具支持下。

我们在网络可控部分能提供什么

我们并不声称可以消除所有延迟。我们能做的是改善网络真正可控的部分：部署位置、路径质量、互联网接入、跨站可预测性，以及运维响应能力。
这包括覆盖广泛的全球机柜托管、具备亚洲覆盖的区域部署选项，以及让扩展和维护更轻松的运维模式——从轻量级存在的虚拟 PoP，到无需人员到场即可快速变更基础设施的远程手操作。

对于较小规模的低延迟敏感场景，LagBlaster 可以作为该体系的轻量补充，而不是完整的基础设施重构。正确理解下，它不是“更多带宽”，而是通过以低延迟连接和端口管理为核心的即插即用方式，改善 PlayStation、Xbox、PC 和 Mac 等终端的游戏流量路径。

要点总结

游戏 QoE 由尾延迟驱动：p95 和 p99 RTT、高峰时段抖动和丢包——而不仅仅是平均 ping。
橡皮筋效应和微卡顿通常由排队以及退化的互联或路径引起，而不仅仅是距离。
部署不仅是城市选择：IX 距离、对等质量和真实 ISP 路径同样重要。
当内部流量与对局流量竞争且需要可预测性时，私有跨站连接非常有用。
低延迟 DDoS 缓解只有在边缘部署正确且合法流量路径保持短时才有效。
讨论低延迟的正确方式是通过 SLO、SLI 和测量，而不是口号。

检视全部