No.172# Redis集群模式通信成本影响因素

引言

Redis集群模式节点之间通过Gossip协议彼此之间传递节点状态、槽等信息，没有依赖元数据组件来维护。简化了架构的同时，通信成本也限制了集群规模。

本文除了走查了通信开销影响因素，还梳理了节点扩缩容和请求路由的原理。主要内容有：

一、通信开销影响因素

二、扩缩容与槽位迁移

三、请求路由与重定向

一、通信开销影响因素

每秒从本地实例列表选择5个节点，在这5个节点中选择最久没有通信的实例，向该实例发送PING消息。

即：定时发送PING消息的节点数量=5。

避免一些实例节点一直选不到，会有一个定时任务扫描兜底措施。

集群内部每秒10次的固定频率扫描本地缓存节点列表，也就是每100ms一次。

如果节点：PONG更新时间node.pong_received>（cluster-node-timeout/2）立即向该节点发送PING消息，假设该数量为N。

即：兜底发送的节点数量=10 * N。

通过调大cluster_node_timeout可以减少通信的节点数量，例如：从15秒调整到30秒。

但是，cluster_node_timeout过大会影响故障发现的时间和新节点发现的时间。

一次通信包含消息头和消息体。

消息头：PING消息头相对固定，主要占用的发送节点负责的槽位（myslots[CLUSTER_SLOTS/8]）占用2KB。

消息体：会携带一定数量的其他节点信息，默认包含集群总节点数的1/10，最少包含集群的3个节点，最多包含集群总节点数-2。

消息体clusterMsgDataGossip各个字段字节大小，共计104个字节。

属性	大小
char nodename[CLUSTER_NAMELEN]	40字节
uint32_t ping_sent	4字节
uint32_t pong_received	4字节
char ip[NET_IP_STR_LEN]	46字节
uint16_t port	2字节
uint16_t cport	2字节
uint16_t flags	2字节
uint16_t pport	保留字段
uint16_t notused1	4字节
合计	104字节