NetQ 4.1.0 最近发布,引入了网络内的网络延迟和缓冲区占用分析功能,以及许多其他增强功能。有关所有新功能的更多信息,请参阅 NetQ 4.1.0 用户指南 。
这篇文章描述了以下功能:
- 基于流的网络内延迟和缓冲区占用分析(新增)
- 故障快照(WJH)仪表板(新)
- 通用 webhook 通知(新)
- 验证改进
- gNMI streaming 增强功能
网络内的延迟和缓冲区占用分析
NetQ 首次通过使用实时应用程序流量,提供了网络范围的网络延迟和缓冲区占用分析,来解决影响应用程序性能的网络问题。NetQ 与 Cumulus Linux 协同,对匹配 4 元组和 5 元组应用程序流的数据包进行采样,分析并报告每个交换机的延迟(最大、最小、平均)以及流路径上的缓冲区占用详细信息。
NetQ 图形用户界面会报告所有可能的路径、正在使用的路径以及每个路径的详细信息(图 1)。在每个交换机上,都可以看到最小延迟、最大延迟和平均延迟。
WJH 是一种始终开启的全数据包检查工具,用于以线路速率检测网络问题,包括数据包丢失、拥塞和延迟问题。通过与 WJH 协同,流式遥测可以按需对匹配特定流的流量进行深入分析和故障排除。
将这些功能结合使用,网络工程师可以主动发现并溯源服务器和应用程序问题,并将可能的中断或性能影响通知服务器或应用程序管理员。
图 1 . 流遥测
这与 sFlow 有什么不同?
NetQ 的流遥测技术使您能够使用数据包的 5 元组或 4 元组信息(包括 VXLAN 内部或外部头)选择要分析的流。
sFlow 没有这种级别的灵活性,通常在物理端口级别进行监控。sFlow 还提供特定的设备属性,而不与网络中的对等设备关联,因此无法提供数据来构建网络拓扑。
这和 traceroute 有什么不同?
在 traceroute 的情况下,主机生成一个穿越网络的数据包,用于收集跟踪数据。NetQ 流遥测分析使用实际的应用程序数据包来构建跟踪数据。从基于流遥测中获得的数据包括硬件提供的延迟和缓冲区占用。Traceroute 返回延迟的 ping 级别精度,这比硬件级别的延迟精度低很多。
这与带内流量分析有何不同?
带内流分析本质上是侵入性的,因为数据经过的每一跳的数据面都会向数据包添加元数据。这会造成网络开销。
NetQ 流遥测不会改变数据平面数据包结构。
故障快照事件仪表盘
NetQ 4.1 引入的新 What Just Happened(WJH)仪表板显示了 WJH 事件的时间线视图、生成 WJH 事件最多的交换机、最多的事件类型等等。这使您能够快速从网络中所有交换机收集的 WJH 事件数据中获取对网络状况的洞察。WJH 事件详细信息可用于触发前面描述的流遥测分析。
图 2 . 故障快照仪表盘
以下是如何充分利用 WJH :发现问题、解决问题和个性化。
发现问题
将所有交换机的 WJH 事件集中收集到 NetQ 中。这使您能够查看网络中发生的丢包、拥塞、ACL 和其他协议事件。
NetQ 仪表盘按丢包类别组织:
- L1
- L2
- 路由器
- 隧道
- 缓冲区
- 访问控制列表
解决问题
WJH 将问题告知网络、服务器和存储管理员。按优先顺序解决 WJH 发现的网络问题。
个性化
将 NetQ 上的 WJH 过滤器设置为只接收选定的 WJH 事件。例如,在 ACL 的下一次修订更新之前,您可能不希望收到 ACL 丢包事件。这会将事件的数量减少到可以处理的程度。
NetQ 还提供了接收特定事件类型或具有特定严重性的事件的灵活性。NetQ 还提供在 WJH 事件上设置跨越阈值警报,这些警报可以与 PagerDuty、Slack 和其他通知工具集成。
验证增强
在生产网络中,NetQ 验证提供了对网络实时状态的洞察,并有助于主动监控和故障排除。作为 NetQ 4.1.0 的一部分,对验证检查进行了重新设计,从而显著提高了性能。
- 根据数据中心网络中运行的协议,可以启用或禁用每小时网络验证检查。
- 全局验证检查过滤器应用于 NetQ 4.1.0 的每小时网络验证检查,使网络管理员能够建立与网络中运行的内容匹配的干净网络验证状态。
当这个基线建立后,使用 NetQ 很容易检测到任何偏差。
在 NetQ 4.1 中,添加了分组概念,以在站点内创建多个验证范围。使用此功能,在单个站点中具有多个网络的客户可以按需对每个网络运行验证,以及按计划进行验证。
图 3 . NetQ 验证检查
图 4 . 验证设备组
gNMI streaming 增强功能
NetQ 4.1.0 支持 gNMI gRPC 网络管理接口,除了 Cumulus Linux 之外,还可以从 SONiC 上的 NetQ 代理收集 WJH 数据。
对于 Cumulus Linux 交换机,可以使用 gNMI 传输系统资源和接口计数器。用户指南中提供了 YANG 模型的详细信息。
通用 webhook 通知支持
NetQ 4.1.0 除了电子邮件、syslog、PagerDuty 和 Slack 事件通知分发选项外,还引入了对通用 webhook 通知的支持。通用 webhook 使 NetQ 能够使用 JSON 格式的事件负载信息与定制应用程序集成。
总结
在本文中,您已经看到了 NetQ 4.1.0 提供的新功能的概述。您可以使用 NVIDIA Air 进一步探索 NetQ 4.1.0 。有关更多信息,请参阅使用 NetQ 对网络进行故障排除 。