ZD至顶网软件频道消息: 监控之于运维,就像眼睛之于大脑。随着“互联网+”业务不断深化,传统的APM已经远不能满足业务需要,为了最好的用户体验,是时候该对APM升级换代了。
用户主权时代体验为王
众所周知,在“互联网+”时代,互联网思维的核心之一就是强调客户体验,这对于传统企业向“互联网+”转型来说,不仅意味着一种思路的改变,更直接的是,意味着产品和服务响应模式的改变。
企业在互联网以及移动互联网上构筑自己的业务体系,首先要满足客户不断变化的需求,因此也就要求支持“互联网+”业务的IT应用适应更迅捷的变化。
另外一方面,在这种需求的刺激下,企业的IT资源开始云化、各种大数据分析架构、应用、工具随之涌现,微服务、容器等支持应用的更灵活的架构和技术得到市场的广泛认可,开发团队和运维团队之间的界限越来越模糊,敏捷开发、DevOps等开发模式也逐渐成为“互联网+”业务的“标配”。这些变化不断加速了产品的迭代速度和效率,也加速了企业业务的互联网化进程。
这种情况下,对于企业来说,应用的复杂性所带来的管理难度也越来越大,尤其是对于企业IT运维来说,传统的面向数据中心的监控方式在遇到问题时往往“失明”,而即便构建了面向应用监控的新平台,快速有效地对每一个用户实现从用户端设备到企业IT背后的全链路监控,快速定位问题,提出解决方案也不是一件容易的事情。
2016年,Gartner对于APM的分析标准进行了重新规划,新的标准中第一条就是数字化体验监控(DEM)。Gartner认为DEM要支持对操作体验和数字化探针、人和机器的行为优化,并能与企业的应用和服务交互,支持包括基于网络和移动端最终用户的真实用户监控(RUM)和综合事务监控(STM)。
第二个关键是要实现应用分析(AA),Gartner认为APM需要自动检测Java和.NET服务端应用支持的HTTP/S事务的性能异常的来源(或根本原因)。
除此之外,Gartner认为APM要实现应用发现、追踪和诊断(ADTD),了解服务端应用之间的关系,能将事务映射到节点上,并对方法和其他资源进行深度的检查。这是一系列过程,关注点均在问题的修复,且是相互关联的,包括应用程序拓扑发现和可视化,用户定义的事务处理,应用组件的深度钻取。
Gartner认为,APM的核心功能是能够基于应用去做问题的发现与诊断,但同时,对于网络和移动端最终用户的真实用户体验监测也应该作为核心功能之一。
APM全面升级
基于以上变化和用户需求,2016年,听云推出了全栈溯源解决方案实现了全端、跨应用监控。2017年,听云又对该解决方案进行了全面升级,升级后的听云全栈溯源从一个个不同的监测工具实现了平台化的整合,新的全栈溯源平台基于用户体验,可以对应用性能问题更加深入的追踪与诊断,以解决现阶段全栈环境,以其定位问题的复杂化问题。
听云产品副总裁Moca表示,传统APM是面向应用的监控,新的APM全栈溯源则是以用户体验为主导,基于事务请求进行全栈的问题定位和追踪,全栈溯源的方向是从外向内的,包括:APP端事务请求全栈溯源、浏览器页面事务请求全栈溯源、拨测事务请求全栈溯源、单用户全栈溯源。
“全栈溯源跟性能的关联比较大,也和业务有关系。简单来说,全栈溯源关注的不是企业用户流失,而是用户流失的问题是不是应用的性能问题所造成,在业务关键流程中是不是性能出了问题等。”
据了解,听云全栈溯源的价值就在于通过一个统一平台,将包括运维、研发、业务、管理者在内的企业不同角色串联起来,并且满足了像DevOps这种新的开发运维模式。
而这里提到的统一平台可以为各部门提供统一的信息平台,展示各种应用的用户体验细节指标,包括用户前端响应时间、网络响应指标细节,以及后端各API接口,每个服务的健康状况,识别每条性能曲线上是否存在突发点等。一旦出现问题,平台可以将问题用户隔离,并界定问题发生的位置,是前端、后端、网络,还是数据库,并且将以业务部门看懂的方式,即可视化的图表展示出来。
过去,性能问题是分布在不同系统和不同部门下的,当遇到客户投诉后,首先要分类是哪类型的产品,然后联系产品部门,产品部门反馈给后台的研发和运维,然后开始查。查询问题的时候也很麻烦,在各个后台间利用排除法逐一排查,但是这种排查方式只能发现30%的问题。发现问题之后就要定位错误原因,一般情况下定位原因也是需要跨部门合作的,效率非常低。从分析判断问题是如何发生的、运维研发介入直到最终解决,这一过程往往要经历至少一周以上的时间,甚至可能是数周。
Moca表示:“听云全栈溯源是基于客户关键业务的自动质量控制平台,将把以周为单位的解决问题时间缩短为几分钟。同时,当发生严重问题时,系统会进行自动响应,及时告警。”
据了解,全栈溯源平台可以实现代码级别的问题定位,无论是某个程序的某段代码,或者是相关的SQL语句,还是DNS解析异常,甚至是前端图片的异常加载,这些无需专业人员来操作,就能够以简单明白的报表的方式,展示给各个部门。在这种情况下,各部门不仅可以直接在平台报表里找到问题的根本原因,同时还能共同讨论目前应用发生的问题,以及解决方案。
此外,听云还提供相应的咨询服务,提供专业的修复建议。Moca介绍道,一般情况下,客户使用了全栈溯源后会直接将问题定位到SQL原生语句,但是却不确定是什么原因造成的,这时可能就需要专业的咨询师提供相应的帮助。
听云认为,在秒级时代,企业需要构建以用户体验为核心的业务质量监控管理体系,新的全栈溯源基于新型的IT运维模式, 能够更好的满足当前新型的IT运维模式,从而帮助传统企业更加轻松的实现数字化转型。
好文章,需要你的鼓励
这项研究介绍了一种名为FlowPathAgent的神经符号代理系统,用于解决流程图归因问题。研究团队提出了流程图精细归因这一新任务,构建了FlowExplainBench评估基准,并开发了结合视觉分割、符号图构建和基于代理的图形推理的方法。实验表明,该方法在归因准确性上比现有基线提高了10-14%,特别在处理复杂流程图时表现出色,为提升人工智能系统在处理结构化视觉-文本信息时的可靠性和可解释性提供了新途径。
这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
这份来自向量研究所、康奈尔大学和格罗宁根大学研究团队的综述分析了基于大语言模型的代理型多智能体系统中的信任、风险和安全管理框架(TRiSM)。研究系统地探讨了代理型AI从概念基础到安全挑战,提出了包含治理、可解释性、模型运营和隐私/安全四大支柱的TRiSM框架。文章还详细分析了威胁向量、风险分类,并通过真实案例研究展示了潜在脆弱性。
这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模型对训练数据中欺骗性特征的依赖。实验表明,该方法在CelebA、SpuCo Birds和Spurious ImageNet数据集上显著提升了模型在缺失组别上的性能,为资源受限环境下的AI应用提供了实用解决方案。