ZDNet至顶网软件频道消息:某农商总行生产前置机无法从人行生产服务器下载更新数据(约1M),而开发前置机却能从开发服务器上正常下载数据,开发和生产前置交换机访问服务器的路径基本一致。
总行前置机访问人行服务器的数据走向为:前置机经过总行网络,访问到分行网络,然后由分行网络转发到人行网络,最后访问人行服务器。根据故障现象,选择在分行到总行的核心交换机出口部署科来网络回溯分析系统进行捕包分析。
案例分析
(一)故障通讯分析
对生产前置机下载更新数据的TCP会话进行解码分析,发现前置机发起请求数据包后,生产服务器马上响应了3个数据包,其中第一个携带60字节应用数据,第二、三个为1448字节,而客户端只是对第一个数据包进行了确认。
图 1数据包交易时序图
当服务器发出携带1030字节的第四个响应包后,前置机依然是对第一个数据包进行重复确认。根据TCP的重传机制,可以肯定当前置机收到第四个响应数据包时,并没有收到第二个1448字节的数据包,因此服务器对此数据包进行了重传,但经过多次重传客户端依然没有收到此包。
从对故障会话的数据包交互过程来看,前置机无法收到服务器的第二个响应数据包,导致无法完整更新数据。前置机却能收到第一个和第四个响应包,从数据包大小来看,这两个包携带的应用层数据较小,而第二个包携带的应用层数据为1448字节。从会话的TCP三次握手数据包来看,生产前置机和服务器协商的MSS值为1460字节,加上数据包头,数据包的总长度为1500字节。
由于从数据捕获点到前置机之间没有防火墙,不会对包进行过滤,因此怀疑是中间设备的MTU值较小,导致大包数据无法正常传输。
(二)开发前置机通讯分析
对开发前置机正常通讯数据进行分析,从三次握手过程看到开发前置机和服务器所协商的MSS值为1380字节。而后续的数据传输过程中,数据包的载荷数据都只有1368字节,但是这些数据却能够正常的发送到开发前置机。因此结合前面对生产前置机的故障会话分析,可以肯定中间某个设备的MTU值较小,导致数据包无法分片被丢弃,从而影响生产前置机的正常数据下载。
(三)恢复正常后的会话数据分析
根据所定位的故障原因,再修改生产前置机的MTU值为1300字节后,数据通讯恢复正常,能够正常的下载更新数据包。
案例分析结论
总行网络中某台网络设备的MTU值设置较小,导致大包数据无法正常传输,从而影响更新数据包的下载。
好文章,需要你的鼓励
在2025年KubeCon/CloudNativeCon北美大会上,云原生开发社区正努力超越AI炒作,理性应对人工智能带来的风险与机遇。随着开发者和运营人员广泛使用AI工具构建AI驱动的应用功能,平台工程迎来复兴。CNCF推出Kubernetes AI认证合规程序,为AI工作负载在Kubernetes上的部署设定开放标准。会议展示了网络基础设施层优化、AI辅助开发安全性提升以及AI SRE改善可观测性工作流等创新成果。
维吉尼亚理工学院研究团队对58个大语言模型在单细胞生物学领域的应用进行了全面调查,将模型分为基础、文本桥接、空间多模态、表观遗传和智能代理五大类,涵盖细胞注释、轨迹预测、药物反应等八项核心任务。研究基于40多个公开数据集,建立了包含生物学理解、可解释性等十个维度的评估体系,为这个快速发展的交叉领域提供了首个系统性分析框架。
DeepL作为欧洲AI领域的代表企业,正将业务拓展至翻译之外,推出面向企业的AI代理DeepL Agent。CEO库蒂洛夫斯基认为,虽然在日常翻译场景面临更多竞争,但在关键业务级别的企业翻译需求中,DeepL凭借高精度、质量控制和合规性仍具优势。他对欧盟AI法案表示担忧,认为过度监管可能阻碍创新,使欧洲在全球AI竞争中落后。
西湖大学王欢教授团队联合国际研究机构,针对AI推理模型内存消耗过大的问题,开发了RLKV技术框架。该技术通过强化学习识别推理模型中的关键"推理头",实现20-50%的内存缩减同时保持推理性能。研究发现推理头与检索头功能不同,前者负责维持逻辑连贯性。实验验证了技术在多个数学推理和编程任务中的有效性,为推理模型的大规模应用提供了现实可行的解决方案。