极客时间已完结课程限时免费阅读

21 | poll:另一种I/O多路复用

21 | poll:另一种I/O多路复用-极客时间

21 | poll:另一种I/O多路复用

讲述:冯永吉

时长11:15大小10.30M

你好,我是盛延敏,这是网络编程实战第 21 讲,欢迎回来。
上一讲我们讲到了 I/O 多路复用技术,并以 select 为核心,展示了 I/O 多路复用技术的能力。select 方法是多个 UNIX 平台支持的非常常见的 I/O 多路复用技术,它通过描述符集合来表示检测的 I/O 对象,通过三个不同的描述符集合来描述 I/O 事件 :可读、可写和异常。但是 select 有一个缺点,那就是所支持的文件描述符的个数是有限的。在 Linux 系统中,select 的默认最大值为 1024。
那么有没有别的 I/O 多路复用技术可以突破文件描述符个数限制呢?当然有,这就是 poll 函数。这一讲,我们就来学习一下另一种 I/O 多路复用的技术:poll。

poll 函数介绍

poll 是除了 select 之外,另一种普遍使用的 I/O 多路复用技术,和 select 相比,它和内核交互的数据结构有所变化,另外,也突破了文件描述符的个数限制。
下面是 poll 函数的原型:
int poll(struct pollfd *fds, unsigned long nfds, int timeout);
   
返回值:若有就绪描述符则为其数目,若超时则为0,若出错则为-1
这个函数里面输入了三个参数,第一个参数是一个 pollfd 的数组。其中 pollfd 的结构如下:
struct pollfd {
int fd; /* file descriptor */
short events; /* events to look for */
short revents; /* events returned */
};
这个结构体由三个部分组成,首先是描述符 fd,然后是描述符上待检测的事件类型 events,注意这里的 events 可以表示多个不同的事件,具体的实现可以通过使用二进制掩码位操作来完成,例如,POLLIN 和 POLLOUT 可以表示读和写事件。
#define POLLIN 0x0001 /* any readable data available */
#define POLLPRI 0x0002 /* OOB/Urgent readable data */
#define POLLOUT 0x0004 /* file descriptor is writeable */
和 select 非常不同的地方在于,poll 每次检测之后的结果不会修改原来的传入值,而是将结果保留在 revents 字段中,这样就不需要每次检测完都得重置待检测的描述字和感兴趣的事件。我们可以把 revents 理解成“returned events”。
events 类型的事件可以分为两大类。
第一类是可读事件,有以下几种:
#define POLLIN 0x0001 /* any readable data available */
#define POLLPRI 0x0002 /* OOB/Urgent readable data */
#define POLLRDNORM 0x0040 /* non-OOB/URG data available */
#define POLLRDBAND 0x0080 /* OOB/Urgent readable data */
一般我们在程序里面有 POLLIN 即可。套接字可读事件和 select 的 readset 基本一致,是系统内核通知应用程序有数据可以读,通过 read 函数执行操作不会被阻塞。
第二类是可写事件,有以下几种:
#define POLLOUT 0x0004 /* file descriptor is writeable */
#define POLLWRNORM POLLOUT /* no write type differentiation */
#define POLLWRBAND 0x0100 /* OOB/Urgent data can be written */
一般我们在程序里面统一使用 POLLOUT。套接字可写事件和 select 的 writeset 基本一致,是系统内核通知套接字缓冲区已准备好,通过 write 函数执行写操作不会被阻塞。
以上两大类的事件都可以在“returned events”得到复用。还有另一大类事件,没有办法通过 poll 向系统内核递交检测请求,只能通过“returned events”来加以检测,这类事件是各种错误事件。
#define POLLERR 0x0008 /* 一些错误发送 */
#define POLLHUP 0x0010 /* 描述符挂起*/
#define POLLNVAL 0x0020 /* 请求的事件无效*/
我们再回过头看一下 poll 函数的原型。参数 nfds 描述的是数组 fds 的大小,简单说,就是向 poll 申请的事件检测的个数。
最后一个参数 timeout,描述了 poll 的行为。
如果是一个 <0 的数,表示在有事件发生之前永远等待;如果是 0,表示不阻塞进程,立即返回;如果是一个 >0 的数,表示 poll 调用方等待指定的毫秒数后返回。
关于返回值,当有错误发生时,poll 函数的返回值为 -1;如果在指定的时间到达之前没有任何事件发生,则返回 0,否则就返回检测到的事件个数,也就是“returned events”中非 0 的描述符个数。
poll 函数有一点非常好,如果我们不想对某个 pollfd 结构进行事件检测,可以把它对应的 pollfd 结构的 fd 成员设置成一个负值。这样,poll 函数将忽略这样的 events 事件,检测完成以后,所对应的“returned events”的成员值也将设置为 0。
和 select 函数对比一下,我们发现 poll 函数和 select 不一样的地方就是,在 select 里面,文件描述符的个数已经随着 fd_set 的实现而固定,没有办法对此进行配置;而在 poll 函数里,我们可以控制 pollfd 结构的数组大小,这意味着我们可以突破原来 select 函数最大描述符的限制,在这种情况下,应用程序调用者需要分配 pollfd 数组并通知 poll 函数该数组的大小。

基于 poll 的服务器程序

下面我们将开发一个基于 poll 的服务器程序。这个程序可以同时处理多个客户端连接,并且一旦有客户端数据接收后,同步地回显回去。这已经是一个颇具高并发处理的服务器原型了,再加上后面讲到的非阻塞 I/O 和多线程等技术,基本上就是可使用的准生产级别了。
所以,让我们打起精神,一起来看这个程序。
#define INIT_SIZE 128
int main(int argc, char **argv) {
int listen_fd, connected_fd;
int ready_number;
ssize_t n;
char buf[MAXLINE];
struct sockaddr_in client_addr;
listen_fd = tcp_server_listen(SERV_PORT);
//初始化pollfd数组,这个数组的第一个元素是listen_fd,其余的用来记录将要连接的connect_fd
struct pollfd event_set[INIT_SIZE];
event_set[0].fd = listen_fd;
event_set[0].events = POLLRDNORM;
// 用-1表示这个数组位置还没有被占用
int i;
for (i = 1; i < INIT_SIZE; i++) {
event_set[i].fd = -1;
}
for (;;) {
if ((ready_number = poll(event_set, INIT_SIZE, -1)) < 0) {
error(1, errno, "poll failed ");
}
if (event_set[0].revents & POLLRDNORM) {
socklen_t client_len = sizeof(client_addr);
connected_fd = accept(listen_fd, (struct sockaddr *) &client_addr, &client_len);
//找到一个可以记录该连接套接字的位置
for (i = 1; i < INIT_SIZE; i++) {
if (event_set[i].fd < 0) {
event_set[i].fd = connected_fd;
event_set[i].events = POLLRDNORM;
break;
}
}
if (i == INIT_SIZE) {
error(1, errno, "can not hold so many clients");
}
if (--ready_number <= 0)
continue;
}
for (i = 1; i < INIT_SIZE; i++) {
int socket_fd;
if ((socket_fd = event_set[i].fd) < 0)
continue;
if (event_set[i].revents & (POLLRDNORM | POLLERR)) {
if ((n = read(socket_fd, buf, MAXLINE)) > 0) {
if (write(socket_fd, buf, n) < 0) {
error(1, errno, "write error");
}
} else if (n == 0 || errno == ECONNRESET) {
close(socket_fd);
event_set[i].fd = -1;
} else {
error(1, errno, "read error");
}
if (--ready_number <= 0)
break;
}
}
}
}
当然,一开始需要创建一个监听套接字,并绑定在本地的地址和端口上,这在第 10 行调用 tcp_server_listen 函数来完成。
在第 13 行,我初始化了一个 pollfd 数组,并命名为 event_set,之所以叫这个名字,是引用 pollfd 数组确实代表了检测的事件集合。这里数组的大小固定为 INIT_SIZE,这在实际的生产环境肯定是需要改进的。
我在前面讲过,监听套接字上如果有连接建立完成,也是可以通过 I/O 事件复用来检测到的。在第 14-15 行,将监听套接字 listen_fd 和对应的 POLLRDNORM 事件加入到 event_set 里,表示我们期望系统内核检测监听套接字上的连接建立完成事件。
在前面介绍 poll 函数时,我们提到过,如果对应 pollfd 里的文件描述字 fd 为负数,poll 函数将会忽略这个 pollfd,所以我们在第 18-21 行将 event_set 数组里其他没有用到的 fd 统统设置为 -1。这里 -1 也表示了当前 pollfd 没有被使用的意思。
下面我们的程序进入一个无限循环,在这个循环体内,第 24 行调用 poll 函数来进行事件检测。poll 函数传入的参数为 event_set 数组,数组大小 INIT_SIZE 和 -1。这里之所以传入 INIT_SIZE,是因为 poll 函数已经能保证可以自动忽略 fd 为 -1 的 pollfd,否则我们每次都需要计算一下 event_size 里真正需要被检测的元素大小;timeout 设置为 -1,表示在 I/O 事件发生之前 poll 调用一直阻塞。
如果系统内核检测到监听套接字上的连接建立事件,就进入到第 28 行的判断分支。我们看到,使用了如 event_set[0].revent 来和对应的事件类型进行位与操作,这个技巧大家一定要记住,这是因为 event 都是通过二进制位来进行记录的,位与操作是和对应的二进制位进行操作,一个文件描述字是可以对应到多个事件类型的。
在这个分支里,调用 accept 函数获取了连接描述字。接下来,33-38 行做了一件事,就是把连接描述字 connect_fd 也加入到 event_set 里,而且说明了我们感兴趣的事件类型为 POLLRDNORM,也就是套接字上有数据可以读。在这里,我们从数组里查找一个没有没占用的位置,也就是 fd 为 -1 的位置,然后把 fd 设置为新的连接套接字 connect_fd。
如果在数组里找不到这样一个位置,说明我们的 event_set 已经被很多连接充满了,没有办法接收更多的连接了,这就是第 41-42 行所做的事情。
第 45-46 行是一个加速优化能力,因为 poll 返回的一个整数,说明了这次 I/O 事件描述符的个数,如果处理完监听套接字之后,就已经完成了这次 I/O 复用所要处理的事情,那么我们就可以跳过后面的处理,再次进入 poll 调用。
接下来的循环处理是查看 event_set 里面其他的事件,也就是已连接套接字的可读事件。这是通过遍历 event_set 数组来完成的。
如果数组里的 pollfd 的 fd 为 -1,说明这个 pollfd 没有递交有效的检测,直接跳过;来到第 53 行,通过检测 revents 的事件类型是 POLLRDNORM 或者 POLLERR,我们可以进行读操作。在第 54 行,读取数据正常之后,再通过 write 操作回显给客户端;在第 58 行,如果读到 EOF 或者是连接重置,则关闭这个连接,并且把 event_set 对应的 pollfd 重置;第 61 行读取数据失败。
和前面的优化加速处理一样,第 65-66 行是判断如果事件已经被完全处理完之后,直接跳过对 event_set 的循环处理,再次来到 poll 调用。

实验

我们启动这个服务器程序,然后通过 telnet 连接到这个服务器程序。为了检验这个服务器程序的 I/O 复用能力,我们可以多开几个 telnet 客户端,并且在屏幕上输入各种字符串。
客户端 1:
$telnet 127.0.0.1 43211
Trying 127.0.0.1...
Connected to 127.0.0.1.
Escape character is '^]'.
a
a
aaaaaaaaaaa
aaaaaaaaaaa
afafasfa
afafasfa
fbaa
fbaa
^]
telnet> quit
Connection closed.
客户端 2:
telnet 127.0.0.1 43211
Trying 127.0.0.1...
Connected to 127.0.0.1.
Escape character is '^]'.
b
b
bbbbbbb
bbbbbbb
bbbbbbb
bbbbbbb
^]
telnet> quit
Connection closed.
可以看到,这两个客户端互不影响,每个客户端输入的字符很快会被回显到客户端屏幕上。一个客户端断开连接,也不会影响到其他客户端。

总结

poll 是另一种在各种 UNIX 系统上被广泛支持的 I/O 多路复用技术,虽然名声没有 select 那么响,能力一点不比 select 差,而且因为可以突破 select 文件描述符的个数限制,在高并发的场景下尤其占优势。这一讲我们编写了一个基于 poll 的服务器程序,希望你从中学会 poll 的用法。

思考题

和往常一样,给你留两道思考题:
第一道,在我们的程序里 event_set 数组的大小固定为 INIT_SIZE,这在实际的生产环境肯定是需要改进的。你知道如何改进吗?
第二道,如果我们进行了改进,那么接下来把连接描述字 connect_fd 也加入到 event_set 里,如何配合进行改造呢?
欢迎你在评论区写下你的思考,也欢迎把这篇文章分享给你的朋友或者同事,一起交流一下。
分享给需要的人,Ta购买本课程,你将得18
生成海报并分享

赞 12

提建议

上一篇
20 | 大名⿍⿍的select:看我如何同时感知多个I/O事件
下一篇
22 | 非阻塞I/O:提升性能的加速器
unpreview
 写留言

精选留言(30)

  • 夏目
    2019-11-15
    老师,我还是没明白poll和select的本质区别是什么,能否指点一下

    作者回复: 两者只是编程接口的区别,从内核实现角度来讲,其实本质实现是差不多的,poll客服了select有限文件描述字的缺陷,适用的范围更广一些。

    共 5 条评论
    26
  • 徐凯
    2019-09-25
    1.采用动态分配数组的方式 2.如果内存不够 进行realloc 或者申请一块更大的内存 然后把源数组拷贝过来

    作者回复: 鼓励动手来一个。

    20
  • 阿卡牛
    2019-10-24
    还有种信号驱动型I/O,老师可以讲解吗

    作者回复: 让内核在描述符就绪时发送SIGIO信号通知我们,这种模型为信号驱动式I/O(signal-driven I/O),说实话,这个模型在实战中用的是比较少的,作为一个知识点知道就可以了。

    11
  • Hale
    2019-09-26
    能讲讲为什么不用POLLIN来判断套接字可读?

    作者回复: POLLIN包括了OOB等带外数据的检测,POLLRDNORM则不包括这部分。 #define POLLIN 0x0001 /* any readable data available */ #define POLLRDNORM 0x0040 /* non-OOB/URG data available */

    共 4 条评论
    9
  • D
    2019-09-25
    老师可否简单讲下底层实现,比如底层是数组,队列,红黑树等。

    作者回复: 好问题,我收集一下素材。

    共 3 条评论
    9
  • fedwing
    2020-08-12
    老师,请教个问题,我看ready_number在29行的if里如果有会--,后面read for循环里,如果处理也--,我是不是可以这样理解,events_set[0]表示listen的套接字,这个套接字里如果有pollin,那么肯定是新连接(而不是普通套接字的读数据),所以这时就是获取对应的连接的文件描述符,将其加入到event_set数组里,用于后续poll的时候,多检测一个文件描述符,如果ready_number在前面的处理--后,还大于0,则表示events_set里其他的文件描述符也有待检测的事件触发,这些就是常规的双端连接对应的套接字,它们pollin的话,就是我们常规意义里的read数据了。
    展开

    作者回复: 是的。

    共 2 条评论
    5
  • Geek_68d3d2
    2019-12-11
    老师我看网络编程里面使用了各种函数,函数里面各种参数,您那里有没有什么文档参考手册啥的可供我们需要时翻阅,光靠脑子记,记不来啊。您平常都是怎么写代码啊,这些函数都是背下来了吗。

    作者回复: Linux下"man xxx",windows下看MSDN,当然,有一些常见的是要记下来的。

    5
  • Simple life
    2020-07-31
    我搞不懂,accept后的fd要加入event_set,然后再遍历取出,直接拿来读写不行吗?

    作者回复: 因为我们在同时处理多个I/O,一旦一个fd经过accept处理后加入event_set,之后就可以通过一个poll调用来获取多个不同的fd来加以处理。这是event_set的意义。

    共 3 条评论
    3
  • Tesla
    2020-03-05
    老师 poll不改变传入检测的event的状态,而是返回revent,是出于什么目的呢?

    作者回复: 这个设计很合理,一个是输入参数,一个是输出参数,只不多在同一个结构体内。如果只有一个参数,既是输入,也是输出,反到有点奇怪。

    2
  • 传说中的成大大
    2019-09-30
    第一问: 我觉得需要改进的原因在于他是一个固定死了的值,而很多时候我们都要考虑到扩容的问题,所以可以把所有的描述符push_back到一个vector等类似的容器当中,直接对容器取size就可以获得数量 第二问:把新连接上来的connfd添加进去,对上面问题的容器进行一次取size操作就行了 通过前面两个问题 我产生了第三个问题 我们都知道select 每次循环都需要向内核重新注册一次需要关心的描述符, 在Poll当中他是怎么处理的呢?也是每次都要注册一次吗?新增了描述放到集合当中肯定也需要通知内核啊 !
    展开

    作者回复: poll也是每次向内核注册了一个描述符集合,做法没有区别。你看到的这段代码,就是新增的描述符 //找到一个可以记录该连接套接字的位置 for (i = 1; i < INIT_SIZE; i++) { if (event_set[i].fd < 0) { event_set[i].fd = connected_fd; event_set[i].events = POLLRDNORM; break; } }

    2
  • LDxy
    2019-09-25
    为什么程序里使用POLLRDNORM而不是POLLIN呢?这两者又何不同?

    作者回复: #define POLLRDNORM 0x0040 /* non-OOB/URG data available */ #define POLLIN 0x0001 /* any readable data available */

    2
  • 郑祖煌
    2020-07-03
    1)第一道,可以用vector存储所有的连接描述符,然后当需要调用poll的时候,再用vector.size获取数组的大小,然后再创建出fd_set tmp[vector.size]存储所有需要的fd,将他传入到poll函数中。
    1
  • panda
    2020-02-04
    老师,什么情况下会使套接字数目多余select数目呢,我所理解的是一般服务端对一个套接字就会开一个线程,客户端一个进程也不会创建出很多套接字,感觉都不会导致数量过多的情况,求指点

    作者回复: 是这样的,当你写一个服务端程序,需要监听超过1024个客户端连接时,就会超过这个限制。客户端是没有问题的。

    1
  • JJj
    2020-01-16
    请问下,如果select同时关注可读、可写、异常。那是不是最多支持关注3*1024个IO事件

    作者回复: 你这样理解倒也是可以的。一个描述字可以对应三种不同的事件。

    1
  • 传说中的成大大
    2019-09-30
    我还是不太明白select和poll进行事件注册的区别,希望老师再给我指点指点

    作者回复: 区别是编程的接口不一样,原理基本一致,但是select一般来说有文件句柄的现在,poll则没有。我觉得你可以看代码体会一下。

    1
  • Jimmy Xiong
    2019-09-28
    请问老师,例子的全代码(可以直接运行起来)哪里可以找得到?

    作者回复: https://github.com/froghui/yolanda

    1
  • pippin
    2022-03-03
    套接字和文件描述符有什么区别

    作者回复: 在Linux系统里,所有都是文件,所以套接字也是文件描述符。当然,文件描述符,也可以有别的,比如说文件、目录等。

  • 菜鸡互啄
    2021-12-09
    老师 28行不是太明白 如果listen_fd有可读事件 为什么说明有连接要accept了?

    作者回复: 因为listen_fd是监听套接字。

    1
  • 你已经长大了,别皮
    2021-11-28
    老师服务器程序在49-68处理连接事件时,此时如果有新连接来,ready_number是否会++,这样是否会死循环?还是内核会存储起来,等待下一次poll时再往上报?

    作者回复: 等待下一次poll。

  • huadanian
    2021-11-21
    请问一下老师,上面代码第53行用于判断的revents的值,在第54行的read之后,是否需要清除掉,否则之后的循环会不会重复判断这个revents的值??

    作者回复: 不需要。每次poll之后,revents的值都是全新从内核拷贝到用户空间的。但是如果这个连接已经close了,需要把对应的fd置为-1。