本文简单描述了InfiniBand 程直接访问(RDMA)是什么,以及在实践中如何配置InfiniBand网络硬件。外,本文档解了如何配置与 InfiniBand 相关的服本文请参考“配置InfiniBand和RDMA网络”。
下载链接:

1、InfiniBand和 RDMA介绍
InfiniBand 代表个不同的因素:
  • 1、InfiniBand 的物理协议 
  • 2、InfiniBand Verbs APIRDMAremote direct memory access)技的一个实现。
RDMA 可在不涉及算机操作系的情况下,从一个算机访问另一台算机的内存。此技术启用了高吞 吐量和低延迟联网,且 CPU 使用率低。 
在典型的 IP 数据传输中,当机器中的某个用程序向一台机器上的用程序送数据,在接收层时 会出以下情况: 
  • 1. 内核必接收数据。
  • 2. 内核必确定数据是否属于该应用程序。 
  • 3. 内核用程序。
  • 4. 内核会等待用程序行系统调用到内核。
  • 5. 用程序将内核本身的内部内存空数据复制到用程序提供的冲中。 
程意味着,如果主机适配器使用直接内存访问(DMA),或者至少次,大多数网流量会被复制 到系的主内存中。外,算机行很多上下文开关以在内核和用程序上下文间进行切些上下 文切都可能造成高流量率的 CPU 负载,并可能造成其他任的性能下降。 
RDMA 绕过内核在程中的干和普通的 IP 不同少 CPU RDMA 协议 让主机适配器知道数据包何来自网用程序应该接收它,并在用程序的内存空中保存数据包。对 于 InfiniBand,主机适配器不将数据包送到内核,然后将其复制到用户应用程序的内存中,而是,主机适 配器将数据包的内容直接放置在用程序的冲中。此程需要独的 APIInfiniBand Verbs API用 程序必支持API才能使用 RDMA。 
Red Hat Linux同时支持 InfiniBand 硬件和 InfiniBand Verbs API外,Red Hat Enterprise Linux 支持以下技,以便在非 InfiniBand 硬件中使用 InfiniBand Verbs API: 
  • 网广域 RDMA 协议(iWARP):通过 IP 络实施 RDMA 的网络协议。 
  • RDMA over Converged Ethernet(RoCE),也称以太网的 InfiniBand(IBoE):通以太网实现 RDMA 的网络协议
2、配置 ROCE
比如 MellanoxBroadcom 和 QLogic 都提供 RoCE 硬件。配置细节,请参看“配置InfiniBand和RDMA网络”。
RoCE 是一种网络协议,可实现以太网的程直接访问(RDMA)。以下是不同的 RoCE 版本: 
  • RoCE v1 
RoCE 版本 协议有 ethertype 0x8915 的以太网层协议,它允同一以太网广播域中任何两 个主机之间进行通信。
情况下,在使用 Mellanox ConnectX-3 适配器Red Hat Enterprise Linux 使用 RoCE v1 作 为 RDMA 接管理器(RDMA_CM)。
  • RoCE v2 
RoCE 版本 协议在 IPv4 或 IPv6 协议的 UDP 上存在。RoCE v2 保留 UDP 端口号 4791。默情况下,在使用 Mellanox ConnectX-3 ProConnectX-4 Lx 或 ConnectX-5 适配器Red Hat Enterprise LinuxRoCE v2 用于 RDMA_CM,但硬件支持 RoCE v1 和 RoCE v2。 
RDMA_CM 置客端和服器之用来传输数据的可靠接。RDMA_CM 建立接提供了一个与 RDMA 传输相关的接口。通信使用特定的 RDMA 设备,数据传输是基于消息的。
在客端使用 RoCE v2,在服器使用 RoCE v1 不被支持。在种情况下,将服器和客 端都配置过 RoCE v1 行通信。
不支持在客端和服器上的 RoCE v1 使用 RoCE v2 协议。如果您的服器中硬件只支持 RoCE v1将 您的客端配置使用 RoCE v1 与服器通信。部分述了如何在将 mlx5_0 驱动程序用于 Mellanox ConnectX-5 Infiniband 设备的客端上施 RoCE v1
Soft-RoCE 是 RDMA over Ethernet 的一个实现,它也称为 RXE。在没有 RoCE 主机道适配器 (HCA)的主机上使用 Soft-RoCE
Soft-RoCE 功能术预览提供。品服务级别协议SLA)不支持技术预览功 能,且其功能可能并不完善,因此帽不建在生产环境中使用它
配置细节,请参看“配置InfiniBand和RDMA网络”。
3、配置核心RDMA子系
情况下,内核命名 IP over InfiniBand(IPoIB)设备,如 ib0,ib1 等。避免冲突,帽建在 udev 设 备管理器中建一条规则建持久且有意的名称,如 mlx4_ib0
RDMA 操作需要固定物理内存。意味着内核不允把内存写入到 swap 中。如果用固定太多内 存,系会耗尽内存,并且内核会程来放更多内存。因此,内存固定是一个特操作。如果非 root 户运行大型 RDMA 用程序,可能需要增加些用可在系中的内存量。部分述 了如何为 rdma 配置无限内存。
配置RDMA务,rdma 在内核中管理RDMA。如果Red Hat Enterprise Linux 检测到 InfiniBandiWARP 或 RoCE 设备udev 设备管理器会指示 systemd 启动 rdma 配置细节,请参看“配置InfiniBand和RDMA网络”。
4、配置InfiniBand子网管理器
所有 InfiniBand 都必须运行子网管理器才能正常工作。即使台机器没有使用交机直接接, 也是如此。有可能有一个以上的子网管理器。在那种情况下,当主子网管理器出故障外一个作从网管理器 的系会接管。大多数 InfiniBand 机都包含一个嵌入式子网管理器。
但是,如果您需要一个更新的子网管理器,需使用 Red Hat Enterprise Linux 提供的 OpenSM 子网管理器。配置细节,请参看“配置InfiniBand和RDMA网络”。
5、配置 IPOIB
情况下,InfiniBand 不使用 IP 行通信。但是,IP over InfiniBand(IPoIB)在 InfiniBand 程直接访问 (RDMA)之上提供一个 IP 拟层许现有未修改的用程序通过 InfiniBand 络传输数 据,但性能低于用程序原生使用 RDMA 的数据。
网广域 RDMA 协议(iWARP)和 RoCE 已基于 IP。因此,您不能在 IWARP 或 RoCE 设备之上建 IPoIB 设备Mellanox 设备从 ConnectX-4 及更高版本开始,默使用 Enhanced IPoIB 模式(限数 据)。设备不支持接的模式。
IPOIB模式,在 Datagram 或 Connected 模式下配置 IPoIB 设备。不同之在,IPoIB 层试图使用什么型的 在通信的一端的机器中打开:
在 Datagram 模式中,系打开了一个不可靠、断开接的个模式不支持大于 InfiniBand link-layer 的最大传输单(MTU)件包。IPoIB 传输的 IP 数据包之上添加了一个 节 IPoIB 标头。因此,IPoIB MTU 需要比 InfiniBand link-layer MTU 小 。因为 2048 是一个常的 InfiniBand 层 MTU,数据数 报 模式中常的 IPoIB 设备 MTU 是 2044。 
在 Connected 模式中,系会打开一个可靠、接的。此模式允大于 InfiniBand 层 MTU 的消息,主机适配器理数据包分段和重新传输。因 此,InfiniBand 适配器以 Connected 模式送的 IPoIB 信息大小没有限制。但是,IP 数据包会受 size 字段和 TCP/IP 标头的限制。因此,Connected 模式中的 IPoIB MTU 最大为 65520 
接 模式模 的性能更高,但消耗的内核内存更多。 
如果系被配置使用 Connected 模式,它仍然会以 Datagram 模式送多播流量,因为 InfiniBand 交 机和光无法在 Connected 模式下传递多播流量。外,当与任何未在 Connected 模式中配置的主 机通信,系将返回 Datagram 模式。
行将多播数据送到接口上最大 MTU 用程序,您必将接口配置为 Datagram 模式,或者将 用程序配置以数据包大小数据包的大小封数据包送的大小。配置细节,请参看“配置InfiniBand和RDMA网络”。
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、未来网络白皮书——白盒交换机技术白皮书.pdf
4、协议无关交换机架构技术与应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf
转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击小程序链接获取架构师技术联盟书店电子书资料详情

继续阅读
阅读原文