当前位置：首页 > news >正文

高并发场景下，TCP/UDP丢包的隐藏陷阱

news 2025/8/19 5:13:33

在网络的世界里，网络丢包就像一颗随时可能引爆的炸弹，让看似坚固的网络连接瞬间陷入混乱。大家想必都有过这样的经历：满心欢喜地加载网页，却只等来一片空白；兴致勃勃地玩在线游戏，角色却突然卡顿，操作严重延迟；商务洽谈的视频会议中，声音和画面断断续续，沟通变得异常艰难。这些糟糕体验的背后，往往是网络丢包在作祟。

数据传输本应如丝般顺滑，可现实却常因丢包变得磕磕绊绊。在复杂的网络架构中，从内核调度，到网络协议栈的层层处理，再到网卡与网线间的信号交互，任何一个环节出现故障，都可能导致丢包，就像一条环环相扣的精密链条，一旦有一环断裂，整个传输过程就会受阻。今天，就让我们一同深入网络底层，从内核的核心运作，到网卡的物理收发，沿着数据传输的路径，全面拆解网络丢包的全链路，探寻其背后的真相与解决之道，为构建稳定高效的网络连接筑牢根基。

一、TCP 协议丢包原因

尽管 TCP 能够在不可靠的网络环境下实现可靠传输，但数据掉包的情况依然可能发生。当在通信过程中检测到数据缺失或丢包时，问题最有可能出在数据的发送或接收环节。

举例来说，当服务端需要向客户端传输大量数据，并以高频次调用 Send 函数进行发送时，Send 操作很容易出现异常。这些异常可能源于多个方面，比如程序的处理逻辑存在缺陷，或是多线程环境下的同步机制不完善，亦或是发生了缓冲区溢出等情况。倘若程序没有对 Send 操作的失败情况进行妥善处理，客户端实际接收到的数据量就会少于预期，进而引发数据丢失和丢包问题。

1.1应用层程序处理不当

在网络通信中，应用层程序就像是这场数据传输大戏的导演，它的一举一动都至关重要。如果导演 “指挥失误”，就可能导致数据传输出现问题，丢包也就随之而来。比如，程序逻辑错误就是一个常见的 “坑”。假设一个文件传输程序，在计算需要发送的数据量时出现了错误，少算了一部分数据，那么这部分数据就会被遗漏，接收方自然也就无法完整地收到文件，这就相当于在数据传输的舞台上，某些重要的 “演员” 被遗漏了。

多线程同步问题也是导致丢包的一个重要因素。在多线程环境下，不同线程可能同时访问和修改共享资源，如果没有正确的同步机制，就会出现数据竞争和不一致的情况。想象一下，有多个线程同时向 TCP 连接中写入数据，由于没有协调好顺序，可能会导致部分数据被覆盖或者丢失。就好像一场接力比赛，几个运动员同时拿着接力棒往前跑，却不知道该把接力棒交给谁，结果比赛就乱套了，数据传输也会出错。

缓冲区溢出更是一个危险的 “陷阱”。当应用层程序向 TCP 发送缓冲区写入的数据量超过了缓冲区的容量时，就会发生缓冲区溢出。这就好比一个杯子已经装满了水，你还在不断往里倒水，多余的水就会溢出来，而溢出的数据就可能丢失。例如，在一个视频直播应用中，如果发送端的缓冲区设置过小，而视频数据的产生速度又很快，就很容易导致缓冲区溢出，从而造成丢包，观众看到的视频就会出现卡顿、花屏等现象。

使用TCP socket进行网络编程的时候，内核都会分配一个发送缓冲区和一个接收缓冲区。

当我们想要发一个数据包，会在代码里执行send(msg)，这时候数据包并不是一把梭直接就走网卡飞出去的。而是将数据拷贝到内核发送缓冲区。而接收缓冲区作用也类似，从外部网络收到的数据包就暂存在这个地方，然后坐等用户空间的应用程序将数据包取走。

当接受缓冲区满了，它的TCP接收窗口会变为0，也就是所谓的零窗口，并且会通过数据包里的win=0，告诉发送端。一般这种情况下，发送端就该停止发消息了，但如果这时候确实还有数据发来，就会发生丢包。

1.2网络状况不佳

网络就像是数据传输的高速公路，而网络状况不佳就如同高速公路上出现了拥堵、事故或者路况变差等情况，这些都会严重影响数据的传输，导致 TCP 丢包。

网络拥塞是导致丢包的一个常见原因。当网络中的数据流量过大，超过了网络的承载能力时，就会发生拥塞。想象一下，高速公路上突然涌入了大量的车辆，道路变得拥挤不堪，车辆行驶速度变慢，甚至停滞不前。在网络中也是如此，当数据包大量涌入路由器等网络设备时，设备的缓冲区会被填满，新到达的数据包就会被丢弃。例如，在大型网络购物节期间，大量用户同时访问电商网站，网络流量剧增，就容易出现网络拥塞，导致用户在浏览商品、下单支付等过程中出现页面加载缓慢、操作失败等情况，这背后可能就是 TCP 丢包在作祟。

高延迟也会对 TCP 传输产生负面影响。网络延迟是指数据包从发送端到接收端所需要的时间。当网络延迟过高时，TCP 的重传机制可能会被频繁触发。比如，发送端发送一个数据包后，由于延迟过大，接收端不能及时确认收到，发送端就会认为数据包丢失，从而重新发送。如果这种情况反复发生，不仅会增加网络负担，还可能导致部分数据包因为重传超时被丢弃。就像你寄一封重要的信件，对方很久都没有收到，你只能不断地重寄，而在这个过程中，信件可能会因为各种原因丢失。

链路故障则是更为严重的问题。网络链路就如同高速公路的路段，如果某段链路出现故障，比如光纤被切断、网线损坏等，那么数据就无法通过这条链路传输，必然会导致丢包。例如，在城市建设过程中，如果施工不小心挖断了光纤，那么依赖这条光纤传输数据的网络服务就会中断，TCP 连接也会因为无法传输数据而丢包。

1.3 TCP自身机制局限

尽管 TCP 协议设计了一系列精妙的机制来保证数据传输的可靠性，但在一些极端情况下，这些机制也会存在局限性，从而导致丢包。

TCP 的重传机制是保证数据可靠传输的重要手段，但它并非万无一失。当网络出现严重拥塞或者长时间的高延迟时，重传机制可能会陷入困境。比如，发送端不断重传数据包，但由于网络状况太差，这些重传的数据包依然无法成功到达接收端，而发送端又不能无限制地重传下去，最终可能会因为重传超时，导致部分数据包被丢弃。就像你不断地给朋友打电话，但信号一直不好，对方始终听不到你的声音，你打了几次后，可能就会放弃，而这个电话就相当于被 “丢弃” 了。

拥塞控制机制在应对复杂网络环境时也可能出现问题。TCP 通过调整发送窗口的大小来控制数据发送速率，以避免网络拥塞。然而，在某些情况下，拥塞控制的调整可能不够及时或者不够准确。比如，当网络突然出现短暂的拥塞时，TCP 可能会过度降低发送窗口大小，导致数据传输速率大幅下降。而当网络恢复正常后，窗口大小的增加又比较缓慢，这就使得在一段时间内，数据传输效率低下，甚至可能因为发送窗口过小，无法及时发送数据，导致数据包在发送端积压，最终被丢弃。就像开车时，遇到前方有点拥堵，你就急刹车，等拥堵缓解了，你又慢悠悠地加速，结果不仅浪费了时间，还可能影响后面车辆的通行，在网络中，这就表现为丢包。

1.4三次握手时丢包

这个主要是由用户的listen的backlog参数决定的一个信息。其中的backlog表示可以有多少个连接完成三次握手而不执行accept，如果大于该值，则三次握手不能完成，这是一个准确值。相对来说还有个大概值，这个值也是根据backlog参数计算得到，只是按照2的幂数取整了，例如backlog为5，该值可能为8。它用来控制一个套接口可以同时最多接收多少个连接请求，这个请求准确的说是第一次握手，这个数值其实是和accept的限量是独立的。极端情况下，以listen参数为5说明，第一次握手可以有8个完成，而三次握手可以有5个。

①listen之backlog参数处理

inet_listen -->>>sk->sk_max_ack_backlog = backlog;这里的数值是对于完成三次握手而没有被accept的连接的限制。
inet_csk_listen_start--->>reqsk_queue_allocfor (lopt->max_qlen_log = 3;(1 << lopt->max_qlen_log) < nr_table_entries;lopt->max_qlen_log++);

该数值限制的是第一次握手的回应数量。

②第一次握手处理

int tcp_v4_conn_request(struct sock *sk, struct sk_buff *skb)/* TW buckets are converted to open requests without* limitations, they conserve resources and peer is* evidently real one.*/if (inet_csk_reqsk_queue_is_full(sk) && !isn) {这里判断listen中可以完成第一次握手的数量，如果大于限量，丢掉报文。
#ifdef CONFIG_SYN_COOKIESif (sysctl_tcp_syncookies) {want_cookie = 1;} else
#endifgoto drop;}/* Accept backlog is full. If we have already queued enough* of warm entries in syn queue, drop request. It is better than* clogging syn queue with openreqs with exponentially increasing* timeout.*/if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1)这里的young表示系统中还没有被重传的sync回应套接口。goto drop;
……
drop:return 0;

这里的连接丢掉并没有记录任何信息，所以我们并不知道系统拒绝了多少三次握手的第一次请求。

③第三次握手回应时丢包

struct sock *tcp_v4_syn_recv_sock(struct sock *sk, struct sk_buff *skb,struct request_sock *req,struct dst_entry *dst)
{struct inet_request_sock *ireq;struct inet_sock *newinet;struct tcp_sock *newtp;struct sock *newsk;
#ifdef CONFIG_TCP_MD5SIGstruct tcp_md5sig_key *key;
#endifif (sk_acceptq_is_full(sk))goto exit_overflow;
……
exit_overflow:NET_INC_STATS_BH(LINUX_MIB_LISTENOVERFLOWS);
exit:NET_INC_STATS_BH(LINUX_MIB_LISTENDROPS);

此时该信息有记录，可以通过/proc/net/snmp查看该信息。

二、UDP 协议丢包原因

UDP丢包主要存在于接收端无法及时处理对方发送的数据，这些数据以报文的形式在系统中暂时存储，但是如果这些未接受的报文太多，操作系统就会将新到来的报文丢掉，从而避免一个套接口对整个系统资源耗光；这个逻辑和思路都比较简单，也是因为UDP本身是一个相对比较简单的传输控制协议。

这里大致看一下相关代码：

__udp4_lib_rcv--->>>udp_queue_rcv_skbif ((rc = sock_queue_rcv_skb(sk,skb)) < 0) {/* Note that an ENOMEM error is charged twice */if (rc == -ENOMEM)UDP_INC_STATS_BH(UDP_MIB_RCVBUFERRORS, up->pcflag);goto drop;}
而接收函数中处理为
int sock_queue_rcv_skb(struct sock *sk, struct sk_buff *skb)
{int err = 0;int skb_len;/* Cast skb->rcvbuf to unsigned... It's pointless, but reducesnumber of warnings when compiling with -W --ANK*/if (atomic_read(&sk->sk_rmem_alloc) + skb->truesize >=(unsigned)sk->sk_rcvbuf) {err = -ENOMEM;goto out;}

这里如果达到一个套接口的限量，则返回错误，上层记录到UDP丢包状态中，这个状态可以通过/proc/net/snmp文件查看，例如我的系统：

Udp: InDatagrams NoPorts InErrors OutDatagrams RcvbufErrors SndbufErrors
Udp: 672 0 0 670 0 0

这个功能在2.6.17--2.6.21之间的一个版本添加，小于2.6.17的版本一定没有。

2.1无连接与不可靠特性

UDP 作为一种无连接的传输协议，就像一位潇洒的独行侠，在数据传输时无需与接收方建立像 TCP 那样的三次握手连接。它只管将数据包一股脑地发送出去，却不关心对方是否能够成功接收，也不会像 TCP 那样对数据包进行确认和重传。这就好比你给朋友寄信，不确认朋友是否收到，也不考虑信件是否会在途中丢失。这种特性使得 UDP 在传输过程中缺乏对数据包的有效管控，一旦网络出现波动，数据包就很容易迷失在网络的茫茫海洋中，从而导致丢包。例如，在实时视频会议中，如果使用 UDP 传输视频数据，当网络信号不稳定时，部分视频数据包可能会丢失，导致画面出现卡顿、马赛克等现象。

2.2缓冲区相关问题

UDP 的接收缓冲区就像是一个有限容量的小仓库，用来暂存接收到的数据包。当发送方发送数据的速度过快，或者接收方处理数据的速度过慢时，就会导致接收缓冲区被迅速填满。此时，新来的数据包就无处可放，只能被无情地丢弃，就像小仓库装满了货物，新到的货物只能被扔在外面。

如果缓冲区本身的容量设置得过小，而要接收的数据量又较大，比如要接收一个大文件，每个数据包都像一个个小包裹，小仓库根本装不下这么多包裹，那么就会有部分数据包因为无法进入缓冲区而丢失。就好比你用一个小袋子去装大量的物品，物品肯定装不下，只能散落一地。在一些监控视频传输场景中，如果 UDP 接收缓冲区设置过小，而监控视频的数据量又很大，就容易出现丢包现象，导致监控画面不完整。

2.3发送策略不当

发送策略不当也是导致 UDP 丢包的一个重要原因。如果发送的 UDP 包过大，超过了网络的最大传输单元（MTU），数据包就需要在网络层进行分片处理。想象一下，你要把一个超大的箱子通过狭窄的通道，就必须把箱子拆开分成几个小部分才能通过。在网络中，数据包分片后，每个分片都需要独立传输并在接收端重新组装。但在这个过程中，如果有任何一个分片丢失，整个数据包就无法正确组装，从而导致丢包。比如，在一个基于 UDP 的文件传输应用中，如果发送的文件数据包过大，经过网络传输时被分片，一旦某个分片在传输过程中丢失，接收端就无法完整地恢复文件，导致文件传输失败。

发送频率过快同样会引发问题。当发送方以极高的频率发送 UDP 包时，就像机关枪连续扫射一样，接收方可能来不及处理如此大量的数据。这会导致接收缓冲区迅速被填满，进而引发丢包。比如在实时游戏中，如果玩家的操作频繁，游戏客户端向服务器发送大量的 UDP 数据包，而服务器处理能力有限，就可能出现丢包，导致玩家的操作指令无法及时传达给服务器，游戏出现卡顿、延迟等情况。

三、TCP 丢包解决方案

3.1优化应用层程序

要解决应用层程序处理不当导致的丢包问题，首先需要对程序逻辑进行全面审查和优化。开发人员应仔细检查代码，确保数据发送和接收的逻辑正确无误。可以使用单元测试、集成测试等手段，对程序的关键功能进行验证，及时发现并修复潜在的逻辑错误。对于多线程同步问题，可以采用锁机制、信号量、条件变量等同步工具，确保不同线程在访问共享资源时的顺序和安全性。比如，在 Java 中，可以使用synchronized关键字来实现线程同步，或者使用ReentrantLock类提供更灵活的锁控制。

针对缓冲区溢出问题，合理设置缓冲区大小至关重要。可以根据应用场景和数据量的预估，动态调整缓冲区的大小。例如，在一个网络爬虫程序中，根据目标网站的页面大小和下载频率，设置合适的接收缓冲区大小，避免因为缓冲区过小而导致数据丢失。同时，要建立有效的缓冲区管理机制，及时清理已处理的数据，释放缓冲区空间。

3.2调整 TCP 参数

调整 TCP 参数是解决丢包问题的重要手段之一。重传次数和超时时间是两个关键参数。在 Linux 系统中，可以通过修改/etc/sysctl.conf文件来调整相关参数。比如，增加重传次数可以通过设置net.ipv4.tcp_retries2的值来实现，默认值可能是 15，根据网络情况，可以适当增大这个值，以提高在网络不稳定情况下的可靠性。而调整超时时间则可以通过修改net.ipv4.tcp_retries1（首次重传超时时间）和net.ipv4.tcp_retries2（最大重传超时时间）等参数来实现。选择合适的拥塞控制算法也能有效提升网络性能。

不同的拥塞控制算法适用于不同的网络环境。Linux 内核支持多种 TCP 拥塞控制算法，如 CUBIC、BBR 和 RENO。CUBIC 算法是 Linux 的默认算法，它在大多数网络环境下都能表现出较好的性能；BBR 算法则适合高带宽、低延迟的网络环境，它能够更准确地探测网络带宽和延迟，从而实现更高效的数据传输。可以通过sysctl命令来查看和设置当前的拥塞控制算法，如sysctl net.ipv4.tcp_congestion_control查看当前算法，sysctl -w net.ipv4.tcp_congestion_control=bbr将算法设置为 BBR。

⑴增加重传次数和超时时间：可以通过调整内核参数来增加 TCP 的重传次数和超时时间，以提高在网络不稳定情况下的可靠性

# 增加重传次数
sudo sysctl -w net.ipv4.tcp_retries2=15# 增加超时时间
sudo sysctl -w net.ipv4.tcp_fin_timeout=30

⑵调整拥塞控制算法：选择合适的拥塞控制算法可以改善网络性能。Linux 提供了多种拥塞控制算法，如reno、cubic、bbr等

# 查看当前使用的拥塞控制算法
sysctl net.ipv4.tcp_congestion_control# 设置为 BBR（ Bottleneck Bandwidth and RTT）
sudo sysctl -w net.ipv4.tcp_congestion_control=bbr

3.3网络优化措施

改善网络带宽是解决丢包问题的根本方法之一。可以通过升级网络设备、增加网络线路带宽等方式来实现。例如，将老旧的百兆路由器升级为千兆路由器，或者将网络带宽从 100Mbps 提升到 1000Mbps 甚至更高，这样可以有效提高网络的传输能力，减少因带宽不足导致的丢包。减少网络拥塞需要合理规划网络流量。可以采用 QoS（Quality of Service，服务质量）策略，对不同类型的流量进行分类和优先级设置。

使用网络监控工具（如 Wireshark、tcpdump）来监控和分析网络流量，及时发现和解决问题。

# 使用 tcpdump 抓包
sudo tcpdump -i eth0 -w capture.pcap

比如，将语音、视频等实时性要求高的流量设置为高优先级，确保它们在网络拥塞时能够优先传输，而将文件下载、邮件收发等对实时性要求较低的流量设置为低优先级。在企业网络中，可以使用流量整形技术，限制某些应用程序的带宽使用，避免个别应用占用过多带宽导致其他应用丢包。优化网络拓扑结构也能减少丢包。合理布局网络设备，减少网络层次和跳数，能够降低网络延迟和丢包率。例如，在一个大型园区网络中，采用分层的网络拓扑结构，核心层负责高速数据交换，汇聚层将多个接入层设备连接到核心层，接入层为用户提供网络接入。通过合理规划各层设备的连接和配置，可以提高网络的可靠性和性能，减少丢包现象的发生。

四、UDP 丢包解决方案全解析

4.1前向纠错码（FEC）技术

FEC 技术就像是一位未雨绸缪的智者，在数据传输这场旅途中提前为可能出现的意外做好准备。其基本原理是在发送端对原始数据进行编码，生成冗余数据，然后将原始数据和冗余数据一起发送给接收端。就好比你要寄一份重要文件，为了防止文件在运输过程中丢失部分内容，你多复印了几份关键页面一起寄过去。在接收端，如果部分数据丢失，就可以通过解码过程，利用冗余数据来恢复丢失的数据。

在实际应用中，FEC 技术有多种编码方式，如奇偶校验码、循环冗余校验（CRC）等。奇偶校验码通过在数据中添加一位校验位，使数据中 1 的个数为奇数或偶数，接收端根据校验位来判断数据是否出错；CRC 则是通过特定的算法对数据进行计算，生成一个校验和，接收端通过验证校验和来判断数据的完整性。以视频会议为例，华为基于 FEC 技术，通过配置流策略的方式，对报文丢包进行优化。它通过流分类拦截指定数据流，增加携带校验信息的冗余包，并在接收端进行校验。如果网络中出现了丢包或者报文损伤，则通过冗余包还原报文。这种技术相比 TCP 的重传机制，不需要对报文重传，实时性高，而且使用 RS 算法，相比 XOR 算法可以还原分组内的多个丢包，从而抵抗网络突发丢包。

然而，FEC 技术并非十全十美。它增加了数据传输的延迟和开销，因为要生成和传输冗余数据，这可能会影响传输效率。就像多寄的那些文件会增加邮寄的成本和时间。所以在实际应用中，需要根据具体情况，如网络带宽、延迟要求等，来谨慎选择是否使用 FEC 技术。

4.2应用层重传机制

由于 UDP 本身不具备可靠的重传机制，在应用层实现重传机制就成为了保障数据可靠传输的重要手段。这就好比你和朋友约定通过快递寄东西，快递不保证一定能送到，那你就只能自己想办法，如果朋友没收到，你就再寄一次。

在应用层实现重传机制，通常需要发送方在发送数据包时，记录下每个数据包的发送时间和编号，并启动一个定时器。当接收方收到数据包后，会向发送方发送确认消息。如果发送方在定时器超时之前没有收到确认消息，就认为数据包丢失，会重新发送该数据包。为了避免不必要的重传，还可以设置重传次数的上限，当重传次数达到上限后，就不再重传，而是向应用程序报告丢包情况。比如在一些基于 UDP 的游戏应用中，当玩家操作指令发送后，如果服务器没有及时确认收到，客户端就会在一定时间后重发该指令，确保服务器能接收到玩家的操作。但重传机制也会带来一些问题，如增加网络流量和延迟，因为重传的数据包会占用额外的网络带宽，而且重传过程需要时间，可能会导致数据传输的延迟增加。所以在设计重传机制时，需要合理设置重传超时时间和重传次数，平衡数据可靠性和传输效率之间的关系。

4.3优化接收端处理

优化接收端的处理方式可以有效减少 UDP 丢包的影响。当接收端收到 UDP 包后，不要立即进行复杂的处理，而是先将包存入一个缓冲区，就像把收到的快递先放在一个暂存区，然后迅速返回继续接收新的数据包。这样可以避免因为处理当前数据包而导致新到达的数据包被丢弃，保证接收的连续性。然后，再从缓冲区中取出数据包进行处理，处理的速度要尽可能快，以减少缓冲区的积压。

为了进一步提高接收效率，可以采用多线程或异步处理的方式。多线程处理就像是安排多个工作人员同时处理缓冲区中的数据包，每个线程负责一部分工作，这样可以加快处理速度，减少数据包在缓冲区中的停留时间。异步处理则是让数据包的接收和处理在不同的线程或任务中进行，接收线程专注于接收数据包，处理线程在空闲时从缓冲区中取出数据包进行处理，两者互不干扰，提高了系统的并发性能。在一个实时音频传输应用中，接收端可以使用多线程处理音频数据包，一个线程负责接收音频数据并存入缓冲区，其他线程从缓冲区中取出数据进行解码和播放，确保音频的流畅播放，减少因为丢包导致的音频卡顿现象。

4.4合理设置 socket 参数

socket 是应用程序与网络之间的接口，合理设置 socket 参数可以显著提升 UDP 传输的稳定性。设置合适的 socket 接收缓冲区大小至关重要。如果缓冲区过小，当大量数据包快速到达时，缓冲区很容易被填满，导致新到达的数据包被丢弃。就像一个小仓库，放不下太多货物，多余的货物就只能被拒之门外。可以通过 setsockopt 函数来设置接收缓冲区大小，在 Linux 系统中，可以先查看系统默认的 UDP 接收缓冲区大小，如通过cat /proc/sys/net/core/rmem_default查看默认值，然后根据实际需求进行调整。如果应用程序需要接收大量的 UDP 数据，可以适当增大缓冲区大小，如设置为setsockopt(sockfd, SOL_SOCKET, SO_RCVBUF, &recv_size, sizeof(recv_size));，其中recv_size为设置的缓冲区大小。

调整发送策略也是优化的关键。避免发送过大的 UDP 包，要根据网络的 MTU（最大传输单元）来合理控制数据包的大小。可以在发送前对数据进行分片处理，将大数据包拆分成多个小数据包进行发送，确保每个数据包都能顺利通过网络。要控制发送频率，避免发送过快导致接收端处理不过来。可以采用流量控制算法，根据接收端的反馈信息动态调整发送速率，使发送速率与接收端的处理能力相匹配。在一个基于 UDP 的远程监控系统中，合理设置 socket 参数，控制好数据包大小和发送频率，能够有效减少丢包现象，保证监控画面的实时性和稳定性。

查看全文

http://www.lqws.cn/news/599563.html