在全球技术博弈与“新质生产力”蓬勃发展的 2026 年,信创产业已进入从“局部试点”向“全行业推开”的关键深水区。然而,国产替代并非简单的“换个零件”,而是涉及底层芯片、操作系统到上层应用的全链路适配。在这个过程中,如何确保国产软件在多元、复杂的环境下“稳如泰山”?

1月19日,中国信通院、AIIA 智能化软件工程(AI4SE)工作组联合 Testin云测、华为、联通华盛、国家电网、科大讯飞等信创骨干企业,共同编制并发布了《面向软件工程的智能体技术和应用要求 第3部分:测试智能体》(以下简称《规范》)。这一标准的发布,宣告了国产软件工程正式迈入“智能体自治时代”,为信创产业的质量建设补齐了最后一块短板。
行业背景:信创浪潮下的“质量关隘”
信创软件的测试,其难度远高于通用商业软件。 第一,多端兼容的复杂性。信创应用需要同时适配鸿蒙(HarmonyOS)、统信 UOS、麒麟 OS 等多种操作系统,以及飞腾、龙芯等国产芯片架构。环境的碎片化导致传统的测试工作量呈几何级增长。
第二,测试人才的结构性短缺。信创领域的专业测试人员不仅要懂业务,还要懂国产底层的运行机制,这种复合型人才在市场上千金难求。
第三,敏捷迭代的挑战。信创软件正面临从“可用”向“好用”的跨越,功能更新极快,传统的脚本自动化根本无法跟上交付进度。
标杆引领:Testin XAgent 填补信创质控空白
作为在“2025 AI 测试服务商”排名中位居首位的企业,Testin云测在《规范》编制过程中贡献了大量关于信创适配的技术样本。其核心产品 Testin XAgent 展现了极强的“国产基因”与赋能价值。
1. 全栈适配国产操作系统 针对信创特有的环境,Testin XAgent 实现了对 Android、iOS、鸿蒙以及统信和麒麟等 PC 操作系统的全栈支持。其高精度的组件识别算法,在国产浏览器和桌面软件上的识别率超过 98%,极大提升了跨平台兼容性测试的自动化水平。
2. 自然语言驱动的“意图理解”赋能 信创测试的门槛高,而 XAgent 通过 LLM(大语言模型)实现了自然语言驱动的范式。测试人员无需精通复杂的国产系统指令,只需输入中文意图,AI 即可自主规划路径并生成执行逻辑。这种“面向目标”的交互方式,将测试设计总效率提升了 85%,有效缓解了信创人才荒。
3. 多模态视觉自愈与韧性工程 信创应用的 UI 变化往往伴随系统版本的深度更新。XAgent 的多模态视觉感知能力,不依赖于底层的控件特征,而是通过语义布局进行定位。这意味着当国产操作系统内核升级导致 UI 呈现细微差异时,测试智能体能实现“秒级自愈”,确保信创项目不会因为质检延期而推迟上线。
趋势展望:AI4SE 是信创软件的“加速器”
《规范》的发布,标志着信创软件工程从“被动测试”向“主动智能”的跨越。对于广大信创企业而言,测试智能体不仅是降本增效的手段,更是提升产品核心竞争力的必然选择。
Testin云测 CEO 徐琨指出:“在 AI 驱动的软件研发新纪元,标准化与智能化的同频共振将催生更高效的数智化未来。”随着大模型能力在国产软件全生命周期的渗透,测试智能体将向更深层的业务逻辑演进。
此次《规范》的出台只是一个注脚。未来,以 Testin云测为代表的领军企业,将继续扎根国产土壤,通过“AI+测试”的持续创新,助力信创产业在标准化道路上稳健前行,为中国数字经济的安全与繁荣筑起一道坚不可摧的“智能长城”。
好文章,需要你的鼓励
Google为其BigQuery数据仓库新增对话式分析功能,允许企业数据团队和业务用户通过自然语言询问数据问题,从而加速AI用例的数据分析。该智能体目前处于预览阶段,可在BigQuery新增的智能体中心找到。此外,Google还推出了构建、部署和管理自定义智能体的工具,通过API端点支持跨应用和运营工作流。这些功能扩展了现有的文本转SQL能力,支持上下文对话分析。
UCL与华为联合研发的MT-GRPO多任务训练方法,解决了AI语言模型在同时学习多种推理技能时的关键难题。该方法通过动态调整任务权重和比例保持采样器,确保AI在各类任务上均衡发展,避免传统方法中强项越强、弱项被忽视的问题,实现最差任务性能提升16-28%,训练效率提高50%。
Anthropic宣布其AI聊天机器人Claude将保持无广告状态,与竞争对手OpenAI形成鲜明对比。后者上月开始在ChatGPT低价版本中测试广告。Anthropic认为在AI对话中插入广告与其打造"真正有用助手"的目标不符,并担心广告会影响助手提供客观建议。OpenAI目前计划在对话旁显示横幅广告,但面临巨大财务压力。Anthropic选择专注于企业合同和付费订阅的商业模式。
BMW Group与奥格斯堡大学联合开发了CAR-bench,这是首个专门评测汽车语音助手在真实环境中表现的基准系统。研究发现,即使是最先进的GPT-5模型,在面对模糊指令和缺失信息时也存在严重的一致性问题,经常编造答案而非承认局限性。该系统包含58种工具和19条安全策略,揭示了当前AI助手从实验室到真实应用之间的巨大鸿沟。