Redis 事件循环器 (AE) 实现剖析
Redis 作为一个单线程高性能的内存缓存 Server 而被人熟知。作为一个典型的 Reactor 式网络应用,Redis 能够达到如此高的性能,必然要依靠足够可靠的事件循环库。
Redis 内置了一个高性能事件循环器,叫做 AE。其定义和实现可以在 ae*.h/cpp
这些文件中找到。
AE 本身就是 Redis 的一部分,所以整体设计原则就是够用就行。也正因为这个背景,AE 的代码才可以简短干净,非常适合阅读和学习。
本文将基于 Redis 5.0.6 的源码分析下其事件循环器 (AE) 的实现原理。
同时本人也提供了一个 Redis 注释版,用以辅助理解 Redis 的源码。
eventloop 的创建
Redis 通过以下接口进行 eventloop 的创建和释放。
1 | aeEventLoop *aeCreateEventLoop(int setsize); |
Redis 通过将对应事件注册到 eventloop 中,然后不断循环检测有无事件触发。目前 eventloop 支持超时事件和网络 IO 读写事件的注册。
我们可以通过 aeCreateEventLoop 来创建一个 eventloop。可以看到在创建 EventLoop 的时候,必须指定一个 setsize 的参数。
setsize 参数表示了 eventloop 可以监听的网络事件 fd 的个数(不包含超时事件),如果当前监听的 fd 个数超过了 setsize,eventloop 将不能继续注册。
我们知道,Linux 内核会给每个进程维护一个文件描述符表。而 POSIX 标准对于文件描述符进行了以下约束:
- fd 为 0、1、2 分别表示标准输入、标准输出和错误输出
- 每次新打开的 fd,必须使用当前进程中最小可用的文件描述符。
Redis 充分利用了文件描述符的这些特点,来存储每个 fd 对应的事件。
在 Redis 的 eventloop 中,直接用了一个连续数组来存储事件信息:
1 | eventLoop->events = zmalloc(sizeof(aeFileEvent)*setsize); |
可以看到数组长度就是 setsize,同时创建之后将每一个 event 的 mask 属性置为 AE_NONE(即是 0),mask 代表该 fd 注册了哪些事件。
对于 eventLoop->events
数组来说,fd 就是这个数组的下标。
例如,当程序刚刚启动时候,创建监听套接字,按照标准规定,该 fd 的值为 3。此时就直接在 eventLoop->events
下标为 3 的元素中存放相应 event 数据。
不过也基于文件描述符的这些特点,意味着 events 数组的前三位一定不会有相应的 fd 赋值。
那么,Redis 是如何指定 eventloop 的 setsize 的呢?以下是 Redis 创建 eventloop 的相关代码:
1 | server.el = aeCreateEventLoop(server.maxclients+CONFIG_FDSET_INCR); |
其中:
- maxclients 代表用户配置的最大连接数,可在启动时由
--maxclients
指定,默认为 10000。 - CONFIG_FDSET_INCR 大小为 128。给 Redis 预留一些安全空间。
也正是因为 Redis 利用了 fd 的这个特点,Redis 只能在完全符合 POSIX 标准的系统中工作。其他的例如 Windows 系统,生成的 fd 或者说 HANDLE 更像是个指针,并不符合 POSIX 标准。
网络 IO 事件
Redis 通过以下接口进行网络 IO 事件的注册和删除。
1 | int aeCreateFileEvent(aeEventLoop *eventLoop, int fd, int mask, |
aeCreateFileEvent 表示将某个 fd 的某些事件注册到 eventloop 中。
目前可注册的事件有三种:
- AE_READABLE 可读事件
- AE_WRITABLE 可写事件
- AE_BARRIER 该事件稍后在 “事件的等待和处理” 一节详细讲到。
而 mask 就是这几个事件经过或运算后的掩码。
aeCreateFileEvent 在 epoll 的实现中调用了 epoll_ctl 函数。Redis 会根据该事件对应之前的 mask 是否为 AE_NONE,来决定使用 EPOLL_CTL_ADD 还是 EPOLL_CTL_MOD。
同样的,aeDeleteFileEvent 也使用了 epoll_ctl,Redis 判断用户是否是要完全删除该 fd 上所有事件,来决定使用 EPOLL_CTL_DEL 还是 EPOLL_CTL_MOD。
定时器
AE 中最不值得分析的大概就是定时器了,因为实现的实在是太简单了,甚至可以说是简陋。
Redis 通过以下两个接口进行定时器的注册和取消。
1 | long long aeCreateTimeEvent(aeEventLoop *eventLoop, long long milliseconds, |
在调用 aeCreateTimeEvent 注册超时事件的时候,调用方需要提供两个 callback: aeTimeProc 和 aeEventFinalizerProc。
- aeTimeProc 很简单,就是当超时事件触发时调用的 callback。有点特殊的是,aeTimeProc 需要返回一个 int 值,代表下次该超时事件触发的时间间隔。如果返回 - 1,则说明超时时间不需要再触发了,标记为删除即可。
- finalizerProc 当 timer 被删除的时候,会调用这个 callback
Redis 的定时器其实做的非常简陋,只是一个普通的双向链表,链表也并不是有序的。每次最新的超时事件,直接插入链表的最头部。
当 AE 要遍历当前时刻的超时事件时,也是直接暴力的从头到尾遍历链表,看看有没有超时的事件。
当时我看到这里源码的时候,还是很震惊的。因为一般来说,定时器都会采用最小堆或者时间轮等有序数据结构进行存储,
为什么 Redis 的定时器做的这么简陋?
《Redis 的设计与实现》一书中说,在 Redis 3.0 版本中,只使用到了 serverCon 这一个超时事件。
所以这种情况下,也无所谓性能了,虽然是个链表,但其实用起来就只有一个元素,相当于当做一个指针在用。
虽然还不清楚 5.0.6 版本里面超时事件有没有增多,不过可以肯定的是,目前依然达不到花点时间去优化的程度。
Redis 在注释里面也说明了这事,并且给出了以后的优化方案:
用 skiplist 代替现有普通链表,查询的时间复杂度将优化为 O(1), 插入的时间复杂度将变成 O(log(N))
异常处理
虽然定时器做的这么简陋,但是对于一些时间上的异常情况,Redis 还是做了下基本的处理。具体可见如下代码:
1 | if (now < eventLoop->lastTime) { |
这段代码的意思是,如果当前时刻小于 lastTime, 那意味着时间有可能被调整了。
对于这种情况,Redis 是怎么处理的呢:
直接把所有的事件的超时时间都置为 0, te->when_sec = 0
。这样的话,接下来检查有哪些超时时间到期的时候,所有的超时事件都会被判定为到期。相当于本次遍历把所有超时事件一次性全部激活。
因为 Redis 认为,在这种异常情况下,与其冒着超时事件可能永远无法触发的风险,还不如把事情提前做了。
还是基于 Redis 够用就行的原则,这个解决方案在 Redis 中显然是被接受的。
但是其实还有更好的做法,比如 libevent 就是通过相对时间的方式进行处理这个问题。为了解决这个几乎不会出现的异常 case,libevent 也花了大量代码进行处理。
事件的等待和处理
Redis 中关于处理等待事件的函数有以下两个:
1 | int aeProcessEvents(aeEventLoop *eventLoop, int flags); |
aeMain 的实现很简单, 就是我们所说的事件循环了,真的就是个循环:
1 | void aeMain(aeEventLoop *eventLoop) { |
而 aeProcessEvents 代表处理一次事件循环,那么 aeProcessEvents 都做了那些事情呢?
- 取出最近的一次超时事件。
- 计算该超时事件还有多久才可以触发。
- 等待网络事件触发或者超时。
- 处理触发的各个事件,包括网络事件和超时事件
为什么要取出最近的一次超时事件?这是因为对于 epoll_wait 来说,必须要指定一个超时时间。以下是 epoll_wait 的定义:
1 | int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout); |
timeout 参数单位是毫秒,如果指定了大于 0 的超时时间,则在这段时间内即使如果没有网络 IO 事件触发,epoll_wait 到了指定时间也会返回。
如果超时时间指定为 - 1,则 epoll_wait 将会一直阻塞等待,直到网络事件触发。
epoll_wait 的超时时间一定要指定为最近超时事件的时间间隔,这样可以防止万一这段时间没有网络事件触发,超时事件也可以正常的响应。
同时,eventloop 还有两个 callback: beforesleep 和 aftersleep,分别会在 epoll_wait 之前和之后调用。
接着,我们看下 Redis 是怎么处理已触发的网络事件的:
一般情况下,Redis 会先处理读事件 (AE_READABLE),再处理写事件 (AE_WRITABLE)。
这个顺序安排其实也算是一点小优化,先读后写 可以让一个请求的处理和回包都是在同一次循环里面,使得请求可以尽快地回包,
前面讲到,网络 IO 事件注册的时候,除了正常的读写事件外,还可以注册一个 AE_BARRIER 事件,这个事件就是会影响到先读后写的处理顺序。
如果某个 fd 的 mask 包含了 AE_BARRIER,那它的处理顺序会是 先写后读。
针对这个场景,redis 举的例子是,如果在 beforesleep 回调中进行了 fsync 动作,然后需要把结果快速回复给 client。这个情况下就需要用到 AE_BARRIER 事件,用来翻转处理事件顺序了。
操作系统的适配
Redis 不仅支持 Linux 下的 epoll,还支持其他的 IO 复用方式,目前支持如下四种:
- epoll:支持 Linux 系统
- kqueue:支持 FreeBSD 系统 (如 macOS)
- select
- evport: 支持 Solaris
几个 IO 复用方式使用的判断顺序如下:
1 |
这个顺序其实也代表了四种 IO 复用方式的性能高低。
对于每种 IO 复用方式,只要实现以下 8 个接口就可以正常对接 Redis 了:
1 | int aeApiCreate(aeEventLoop *eventLoop); |
在这个 8 个接口下面,其实底层并没有做太多的优化,只是简单的对原有 API 封装而已。
总结
与其他通用型的事件循环库 (如 libevent) 不一样的是,Redis 的事件循环库不用考虑太多的用户侧因素:
- 不用考虑 ABI 兼容。因为 AE 本身就和 Redis 一起编译,所以无需像 libevent 一样考虑库的升级问题。
- 不支持 Windows 系统,只支持 unix like 的系统
- 指定了监听 fd 的个数的上限,默认支持 10000 个客户端连接。
参考
- 《Redis 的设计与实现》