epoll机制浅析

在linux的网络编程中,很长的时间都在使用select来做事件触发。在linux新的内核中,有了一种替换它的机制,就是epoll。相比于select,epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中,它是采用轮询来处理的,轮询的fd数目越多,自然耗时越多。有O(n)的无差别轮询复杂度,同时处理的流越多,没一次无差别轮询时间就越长。
并且,linux/posix_types.h头文件有这样的声明:
#define__FD_SETSIZE 1024
表示select最多同时监听1024个fd,当然,可以通过修改头文件再重编译内核来扩大这个数目,但这似乎并不治本。

epoll可以理解为event poll,不同于忙轮询和无差别轮询,epoll之会把哪个流发生了怎样的I/O事件通知我们。此时我们对这些流的操作都是有意义的。(复杂度降低到了O(1))

epoll的接口非常简单,一共就三个函数:

  • epoll_create 创建一个epoll对象,如efd = epoll_create()
  • epoll_ctl (epoll_add/epoll_del的合体),往epoll对象中增加/删除某一个流的某一个事件
  • epoll_wait(efd,…)等待直到注册的事件发生

(注:当对一个非阻塞流的读写发生缓冲区满或缓冲区空,write/read会返回-1,并设置errno=EAGAIN。而epoll只关心缓冲区非满和缓冲区非空事件)。

1、创建epoll句柄epoll_create

函数声明:

该函数生成一个epoll专用的文件描述符。它其实是在内核申请一空间,用来存放你想关注的socket fd上是否发生以及发生了什么事件。size就是你在这个epoll fd上能关注的最大socket fd数。随你定好了。只要你有空间。可参见上面与select之不同。
创建一个epoll句柄:

创建一个epoll的句柄,size用来告诉内核这个监听的数目一共有多大。这个参数不同于select()中的第一个参数,给出最大监听的fd+1的值。
需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值,在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。

2、修改epoll句柄epoll_ctl

将被监听的描述符添加到epoll句柄或从epoll句柄中删除或者对监听事件进行修改。

函数声明:

该函数用于控制某个epoll文件描述符上的事件,可以注册事件,修改事件,删除事件。
如果调用成功返回0,不成功返回-1
参数:
epfd:由 epoll_create()生成的epoll专用的文件描述符;
op:要进行的操作例如注册事件,可能的取值:

  • EPOLL_CTL_ADD 注册新的fd到epfd中、
  • EPOLL_CTL_MOD 修改已经注册的fd的监听事件、
  • EPOLL_CTL_DEL 从epfd中删除一个fd

fd:需要监听的关联的文件描述符;
event:指向epoll_event的指针,告诉内核需要监听什么事件,struct epoll_event结构如下:

events可以是以下几个宏的集合:

  • EPOLLIN: 触发该事件,表示对应的文件描述符上有可读数据。(包括对端SOCKET正常关闭);
  • EPOLLOUT:触发该事件,表示对应的文件描述符上可以写数据;
  • EPOLLPRI: 表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
  • EPOLLERR:表示对应的文件描述符发生错误;
  • EPOLLHUP:表示对应的文件描述符被挂断;
  • EPOLLRDHUP:表示对端断开连接;This flag is especially useful for writing simple code to detect peer shutdown when using Edge Triggered monitoring。
  • EPOLLET:将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
  • EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里。
  • EPOLLIN | EPOLLRDHUP,一般表示对端断开连接的异常就可以在底层进行处理了,不用再移交到上层。

如:

3、等待事件触发epoll_wait()

当超过timeout还没有事件触发时,就超时。
函数声明:

该函数用于轮询I/O事件的发生,返回需要处理的事件数目,如如返回0表示已超时。
返回的事件集合在events数组中,数组中实际存放的成员个数是函数的返回值。返回0表示已经超时。

参数:
epfd: 由epoll_create 生成的epoll专用的文件描述符;
events: 用于回传待处理事件的数组,即从内核得到事件的集合;
maxevents: 每次能处理的事件数,不能大于创建epoll_create()时的size;
timeout: 等待I/O事件发生的超时值(单位为毫秒);设置为-1相当于使函数无限期阻塞,设置为0则函数会直接返回,即使没有事件需要处理。一般用-1即可返回发生事件数。

epoll_wait运行的原理是等待注册在epfd上的socket fd的事件的发生,如果发生则将发生的sokct fd和事件类型放入到events数组中,并且将注册在epfd上的socket fd的事件类型给清空。

所以如果下一个循环你还要关注这个socket fd的话,则需要用
epoll_ctl(epfd, EPOLL_CTL_MOD, listenfd, &ev)
来重新设置socket fd的事件类型。
这时不用EPOLL_CTL_ADD,因为socket fd并未清空,只是事件类型清空。这一步非常重要。

4、epoll工作原理

epoll只告知那些就绪的文件描述符,而且当我们调用epoll_wait()获得就绪文件描述符时,返回的不是实际的描述符,而是一个代表就绪描述符数量的值,只需要去epoll指定的数组中依次取得相应数量的文件描述符即可,这里使用了内存映射(mmap)技术,这样便彻底省掉了这些文件描述符在系统调用时复制的开销。

另一个本质的改进在于epoll采用基于事件的就绪通知方式。在select/poll中,进程只有在调用一定的方法后,内核才对所有监视的文件描述符进行扫描,而epoll事先通过epoll_ctl()来注册一个文件描述符,一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。

5、epoll的2种工作方式-水平触发(LT)和边缘触发(ET)

LT(Level-Triggered)是epoll缺省的工作方式,并且同时支持block和no-block socket。在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你 的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表.

ET (Edge-Triggered)是高速工作方式,只支持no-block socket,它效率要比LT更高。ET与LT的区别在于,当一个新的事件到来时,ET模式下当然可以从epoll_wait调用中获取到这个事件,可是如果这次没有把这个事件对应的套接字缓冲区处理完,在这个套接字中没有新的事件再次到来时,在ET模式下是无法再次从epoll_wait调用中获取这个事件的。
而LT模式正好相反,只要一个事件对应的套接字缓冲区还有数据,就总能从epoll_wait中获取这个事件。
因此,LT模式下开发基于epoll的应用要简单些,不太容易出错。而在ET模式下事件发生时,如果没有彻底地将缓冲区数据处理完,则会导致缓冲区中的用户请求得不到响应。

6、示例代码

7、参考

————————————————————

原创文章,转载请注明: 转载自孙希栋的博客

本文链接地址: 《epoll机制浅析》

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Scroll Up