极客时间已完结课程限时免费阅读

45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?

45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?-极客时间

45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?

讲述:冯永吉

时长07:17大小6.65M

你好,我是倪朋飞。
专栏更新至今,四大基础模块的最后一个模块——网络篇,我们就已经学完了。很开心你还没有掉队,仍然在积极学习思考和实践操作,热情地留言和互动。还有不少同学分享了在实际生产环境中,碰到各种性能问题的分析思路和优化方法,这里也谢谢你们。
今天是性能优化答疑的第五期。照例,我从网络模块的留言中,摘出了一些典型问题,作为今天的答疑内容,集中回复。同样的,为了便于你学习理解,它们并不是严格按照文章顺序排列的。
每个问题,我都附上了留言区提问的截屏。如果你需要回顾内容原文,可以扫描每个问题右下方的二维码查看。

问题 1:网络收发过程中缓冲区的位置

第一点,是网络收发过程中,收发队列和缓冲区位置的疑问。
关于 Linux 网络,你必须要知道这些 中,我曾介绍过 Linux 网络的收发流程。这个流程涉及到了多个队列和缓冲区,包括:
网卡收发网络包时,通过 DMA 方式交互的环形缓冲区
网卡中断处理程序为网络帧分配的,内核数据结构 sk_buff 缓冲区
应用程序通过套接字接口,与网络协议栈交互时的套接字缓冲区。
不过相应的,就会有两个问题。
首先,这些缓冲区的位置在哪儿?是在网卡硬件中,还是在内存中?这个问题其实仔细想一下,就很容易明白——这些缓冲区都处于内核管理的内存中。
其中,环形缓冲区,由于需要 DMA 与网卡交互,理应属于网卡设备驱动的范围。
sk_buff 缓冲区,是一个维护网络帧结构的双向链表,链表中的每一个元素都是一个网络帧(Packet)。虽然 TCP/IP 协议栈分了好几层,但上下不同层之间的传递,实际上只需要操作这个数据结构中的指针,而无需进行数据复制。
套接字缓冲区,则允许应用程序,给每个套接字配置不同大小的接收或发送缓冲区。应用程序发送数据,实际上就是将数据写入缓冲区;而接收数据,其实就是从缓冲区中读取。至于缓冲区中数据的进一步处理,则由传输层的 TCP 或 UDP 协议来完成。
其次,这些缓冲区,跟前面内存部分讲到的 Buffer 和 Cache 有什么关联吗?
这个问题其实也不难回答。我在内存模块曾提到过,内存中提到的 Buffer ,都跟块设备直接相关;而其他的都是 Cache。
实际上,sk_buff、套接字缓冲、连接跟踪等,都通过 slab 分配器来管理。你可以直接通过 /proc/slabinfo,来查看它们占用的内存大小。

问题 2:内核协议栈,是通过一个内核线程的方式来运行的吗

第二个问题,内核协议栈的运行,是按照一个内核线程的方式吗?在内核中,又是如何执行网络协议栈的呢?
说到网络收发,在中断处理文章中我曾讲过,其中的软中断处理,就有专门的内核线程 ksoftirqd。每个 CPU 都会绑定一个 ksoftirqd 内核线程,比如, 2 个 CPU 时,就会有 ksoftirqd/0 和 ksoftirqd/1 这两个内核线程。
不过要注意,并非所有网络功能,都在软中断内核线程中处理。内核中还有很多其他机制(比如硬中断、kworker、slab 等),这些机制一起协同工作,才能保证整个网络协议栈的正常运行。
关于内核中网络协议栈的工作原理,以及如何动态跟踪内核的执行流程,专栏后续还有专门的文章来讲。如果对这部分感兴趣,你可以先用我们提到过的 perf、systemtap、bcc-tools 等,试着来分析一下。

问题 3:最大连接数是不是受限于 65535 个端口

我们知道,无论 TCP 还是 UDP,端口号都只占 16 位,也就说其最大值也只有 65535。那是不是说,如果使用 TCP 协议,在单台机器、单个 IP 地址时,并发连接数最大也只有 65535 呢?
对于这个问题,首先你要知道,Linux 协议栈,通过五元组来标志一个连接(即协议,源 IP、源端口、目的 IP、目的端口)。
明白了这一点,这个问题其实就有了思路。我们应该分客户端和服务器端,这两种场景来分析。
对客户端来说,每次发起 TCP 连接请求时,都需要分配一个空闲的本地端口,去连接远端的服务器。由于这个本地端口是独占的,所以客户端最多只能发起 65535 个连接。
对服务器端来说,其通常监听在固定端口上(比如 80 端口),等待客户端的连接。根据五元组结构,我们知道,客户端的 IP 和端口都是可变的。如果不考虑 IP 地址分类以及资源限制,服务器端的理论最大连接数,可以达到 2 的 48 次方(IP 为 32 位,端口号为 16 位),远大于 65535。
所以,综合来看,客户端最大支持 65535 个连接,而服务器端可支持的连接数是海量的。当然,由于 Linux 协议栈本身的性能,以及各种物理和软件的资源限制等,这么大的连接数,还是远远达不到的(实际上,C10M 就已经很难了)。

问题 4: “如何优化 NAT 性能”课后思考

如何优化 NAT 性能 的最后, 我给你留了两个思考题。
MASQUERADE 是最常用的 SNAT 规则之一,通常用来为多个内网 IP 地址,提供共享的出口 IP。假设现在有一台 Linux 服务器,用了 MASQUERADE 方式,为内网所有 IP 提供出口访问功能。那么,
当多个内网 IP 地址的端口号相同时,MASQUERADE 还能正常工作吗?
内网 IP 地址数量或者请求数比较多的时候,这种使用方式有没有什么潜在问题呢?
对于这两个思考题,我来也、ninuxer 等同学,都给出了不错的答案:
先看第一点,当多个内网 IP 地址的端口号相同时,MASQUERADE 当然仍可以正常工作。不过,你肯定也听说过,配置 MASQUERADE 后,需要各个应用程序去手动配置修改端口号。
实际上,MASQUERADE 通过 conntrack 机制,记录了每个连接的信息。而在刚才第三个问题 中,我提到过,标志一个连接需要五元组,只要这五元组不是同时相同,网络连接就可以正常进行。
再看第二点,在内网 IP 地址和连接数比较小时,这种方式的问题不大。但在 IP 地址或并发连接数特别大的情况下,就可能碰到各种各样的资源限制。
比如,MASQUERADE 既然把内部多个 IP ,转换成了相同的外网 IP(即 SNAT),那么,为了确保发送出去的源端口不重复,原来网络包的源端口也可能会被重新分配。这样的话,转换后的外网 IP 的端口号,就成了限制连接数的一个重要因素。
除此之外,连接跟踪、MASQUERADE 机器的网络带宽等,都是潜在的瓶颈,并且还存在单点的问题。这些情况,在我们实际使用中都需要特别注意。
今天主要回答这些问题,同时也欢迎你继续在留言区写下疑问和感想,我会持续不断地解答。希望借助每一次的答疑,可以和你一起,把文章知识内化为你的能力,我们不仅在实战中演练,也要在交流中进步。
分享给需要的人,Ta购买本课程,你将得20
生成海报并分享

赞 11

提建议

上一篇
44 | 套路篇:网络性能优化的几个思路(下)
下一篇
46 | 案例篇:为什么应用容器化后,启动慢了很多?
unpreview
 写留言

精选留言(24)

  • 记忆
    2019-03-14
    老师你好,如果sk_buff 缓冲区 (socket buffer)不是套接字缓冲器区,那是不是还要进行一次数据的copy到套接字缓冲区,再通知应用程序有某个套接字数据可读了?那一帧数据到来,需要收包队列-->sk_buff-->套接字缓冲区-->应用程序空间内存里,拷贝了3次呢?

    作者回复: 这是两个不同的概念,具体到数据上,内核协议栈都是操作指针,并不会在不同协议层之间复制数据

    共 6 条评论
    17
  • 我来也
    2019-03-06
    [D45打卡] 四大模块学完了,接下来就是融会贯通了。😄 以前也知道socket连接是通过五元组唯一确定的,但实际写服务端程序时,还是会根据经验限定到65530。 现在想来,当时还是理解的不够透彻。 这个经验值当时是根据压力测试得来的,当时只用了一台机器去测连接数。🤦‍♂️如果用多个机器测可能好点。 另一个是服务器端单进程同时打开的文件数限制,平常限制的也是65535(可以继续调大)。一个进程默认还会打开2个文件,stdout stderr,所以需要再减2,如果有监听一个端口,还需要再减1。 有一次在生产环境中,同时连接数限制的是65535,结果到65533个连接时,把监听的端口给关闭了。(可能是所用框架导致的)虽然已有的连接未受影响,但之后就无法再接受新连接了。
    展开

    作者回复: 嗯,谢谢分享。不过线上环境也不推荐一直运行在达到资源极限的场景,最好是预留一些资源以便应对异常情况

    7
  • 剑衣清风
    2019-04-28
    老师你好,对于问题3我有个疑问 “对客户端来说,每次发起 TCP 连接请求时,都需要分配一个空闲的本地端口,去连接远端的服务器。由于这个本地端口是独占的,所以客户端最多只能发起 65535 个连接。” 那像 ab 这样的压测工具,是如何做到并发对服务端接口压测的?
    展开

    作者回复: 为客户端分配不同的端口去连接服务端,请求量大的时候还需要多机或多IP增大请求数

    共 3 条评论
    4
  • 划时代
    2019-03-06
    最近在广泛收集资料学习老师讲的C10K到C1000K的问题,打卡总结。
    3
  • 向南
    2020-05-24
    又是满满的干货,专栏的学习有一半的精华在评论区啊
    2
  • ninuxer
    2019-03-06
    打卡day47 很高兴一直没掉队,网络一直是我的短板,得补补
    2
  • 青石
    2019-03-21
    @记忆的问题“老师你好,如果sk_buff 缓冲区 (socket buffer)不是套接字缓冲器区,那是不是还要进行一次数据的copy到套接字缓冲区,再通知应用程序有某个套接字数据可读了?那一帧数据到来,需要收包队列-->sk_buff-->套接字缓冲区-->应用程序空间内存里,拷贝了3次呢?” 老师的回复是“这是两个不同的概念,具体到数据上,内核协议栈都是操作指针,并不会在不同协议层之间复制数据”。 我的理解是,收包队列、sk_buff、套接字缓冲区、应用程序空间内存,都是链接表结构,收保队列->sk_buff的过程,是sk_buff的指针指向收保队列的链头,再重新给收包队列分配空链表,内存上只是单纯的指针移动,并不涉及数据迁移。 不知道理解对不对,还请老师指正。
    展开

    作者回复: 可以简单这么理解,但实际上也不准确,对同一个网络报文来说,不同协议栈层处理的是同一个pkt不同位置的数据(同一个struct内部),而不是链表中的不同item。真要理解的话,还是推荐去看一下内核源码

    1
  • 腾达
    2019-03-06
    能不能再出一个有关TIME_WAIT、peer reset、socket read timeout、socket connect timeout 方面有关的案例? 类似java、php、nginx,做应用开发的会遇到很多这类问题。之前有网友提问:期待结合生产环境对这几个内核参数的讲解。目前生产环境下php服务器time_wait特别多,网络包的流程: NGINX代理<——>PHP服务器——>redis/mysql.. 高峰时期php服务器一共50k+的连接。49k+的time_wait。 我看到老师回复”后面会有的“。难道是《案例篇:如何优化NAT性能》里一笔带过的有关TIME_WAIT的东西? 能否专门出一个偏开发人员方面的网络案例? 网络篇里的案例大部分人都说不太跟的上,基础都不好,可能大部分人都是偏开发,网络接触的少,像NAT更是很少人接触了。希望再出一个偏开发人员适用的网络的案例
    展开

    作者回复: 后面的案例还会讲到timeout的

    1
  • 我来也
    2019-03-06
    试着回答下同学的提问。 nginx fork出来的子进程数是可以配置的。 有连接请求时,可能是选一个子进程响应连接请求(这个不太确定,也可能是主进程建立连接了交给子进程)。

    作者回复: 这是可配置的,也可以开启reuseport交给你系统来选择

    1
  • 胖子罗
    2022-09-15 来自上海
    服务端最大连接数不是和文件描述符有关系吗
  • lJ
    2022-05-09
    老师您好,关于“环形缓冲区,由于需要 DMA 与网卡交互,理应属于网卡设备驱动的范围” 我在 http://arthurchiao.art/blog/tuning-stack-rx-zh/ ->2 收包过程俯瞰 部分的第三点中说 网卡(通过 DMA)将包 copy 到内核内存中的 ring buffer 这一块有点糊涂了
    展开
    共 1 条评论
  • 王子虾
    2022-04-29
    老师,有个问题是,服务器能【同时】支持的最大连接数 不是有一个accept全连接队列么,是有128限制吧?这个和上面是不是和【而服务器端可支持的连接数是海量】矛盾啊,不是连接队列会爆么
  • 山岭小巨人
    2022-03-08
    老师你好,对于最大连接数会不会超过65535的问题,判断的依据应该是 五元组或四元组(不包含协议)吧? 客户端如果只连接同一台服务器的同一个端口时,连接上限是65535; 如果客户端与 ServerA+Port 1 已经建立5万个连接,同时这个客户端应该还可以 与 ServerB+Port2 再建立5万个连接。因为这10万个连接的 四元组 不同
  • tee
    2021-07-21
    遇到一个奇怪的问题 用scp传输数据 默认的22端口很慢,改掉ssh的端口到10000 传输速度就很快了,中间没有安全设备,iptables也没做限制。这个会是套接字的缓冲区在影响吗?
  • xingtianbj
    2021-03-29
    sk_buff 缓冲区和套接字缓冲区是不是一个东西,查了半天资料也没找到这两者的区别
  • 卡拉肖克
    2021-03-10
    老师您好,这边遇到个问题,数据卡在send-Q,发送不出去,连接过一会也断开了,这个问题应该从哪入手呢?
  • Geek_03056e
    2020-09-16
    缓冲区有几个,在什么阶段,这个问题,困扰了很长时间了
    共 2 条评论
  • jorin@zou
    2020-06-09
    接跟踪、MASQUERADE 机器的网络带宽等,都是潜在的瓶颈,并且还存在单点的问题? 这里的单点的问题具体是指?
    共 1 条评论
  • 胖胖虎
    2019-08-05
    老师,现在有很多零拷贝的技术比如dpdk,比较pf_ring_zc。我的理解是,这些技术通过内存映射的方法,直接把网卡设备环形缓冲里的数据直接拷贝到了用户态,省略了先拷贝到sk_buff,再到socket缓冲区,再到应用程序这个过程。不知道我这个理解是否准确。

    作者回复: 是的,除了内存拷贝优化,还减少了原来冗长的网络协议栈处理过程

    共 3 条评论
    1
  • 如果
    2019-04-11
    DAY45,打卡