ZD至顶网软件频道消息: 监控之于运维,就像眼睛之于大脑。随着“互联网+”业务不断深化,传统的APM已经远不能满足业务需要,为了最好的用户体验,是时候该对APM升级换代了。
用户主权时代体验为王
众所周知,在“互联网+”时代,互联网思维的核心之一就是强调客户体验,这对于传统企业向“互联网+”转型来说,不仅意味着一种思路的改变,更直接的是,意味着产品和服务响应模式的改变。
企业在互联网以及移动互联网上构筑自己的业务体系,首先要满足客户不断变化的需求,因此也就要求支持“互联网+”业务的IT应用适应更迅捷的变化。
另外一方面,在这种需求的刺激下,企业的IT资源开始云化、各种大数据分析架构、应用、工具随之涌现,微服务、容器等支持应用的更灵活的架构和技术得到市场的广泛认可,开发团队和运维团队之间的界限越来越模糊,敏捷开发、DevOps等开发模式也逐渐成为“互联网+”业务的“标配”。这些变化不断加速了产品的迭代速度和效率,也加速了企业业务的互联网化进程。
这种情况下,对于企业来说,应用的复杂性所带来的管理难度也越来越大,尤其是对于企业IT运维来说,传统的面向数据中心的监控方式在遇到问题时往往“失明”,而即便构建了面向应用监控的新平台,快速有效地对每一个用户实现从用户端设备到企业IT背后的全链路监控,快速定位问题,提出解决方案也不是一件容易的事情。
2016年,Gartner对于APM的分析标准进行了重新规划,新的标准中第一条就是数字化体验监控(DEM)。Gartner认为DEM要支持对操作体验和数字化探针、人和机器的行为优化,并能与企业的应用和服务交互,支持包括基于网络和移动端最终用户的真实用户监控(RUM)和综合事务监控(STM)。
第二个关键是要实现应用分析(AA),Gartner认为APM需要自动检测Java和.NET服务端应用支持的HTTP/S事务的性能异常的来源(或根本原因)。
除此之外,Gartner认为APM要实现应用发现、追踪和诊断(ADTD),了解服务端应用之间的关系,能将事务映射到节点上,并对方法和其他资源进行深度的检查。这是一系列过程,关注点均在问题的修复,且是相互关联的,包括应用程序拓扑发现和可视化,用户定义的事务处理,应用组件的深度钻取。
Gartner认为,APM的核心功能是能够基于应用去做问题的发现与诊断,但同时,对于网络和移动端最终用户的真实用户体验监测也应该作为核心功能之一。
APM全面升级
基于以上变化和用户需求,2016年,听云推出了全栈溯源解决方案实现了全端、跨应用监控。2017年,听云又对该解决方案进行了全面升级,升级后的听云全栈溯源从一个个不同的监测工具实现了平台化的整合,新的全栈溯源平台基于用户体验,可以对应用性能问题更加深入的追踪与诊断,以解决现阶段全栈环境,以其定位问题的复杂化问题。
听云产品副总裁Moca表示,传统APM是面向应用的监控,新的APM全栈溯源则是以用户体验为主导,基于事务请求进行全栈的问题定位和追踪,全栈溯源的方向是从外向内的,包括:APP端事务请求全栈溯源、浏览器页面事务请求全栈溯源、拨测事务请求全栈溯源、单用户全栈溯源。
“全栈溯源跟性能的关联比较大,也和业务有关系。简单来说,全栈溯源关注的不是企业用户流失,而是用户流失的问题是不是应用的性能问题所造成,在业务关键流程中是不是性能出了问题等。”
据了解,听云全栈溯源的价值就在于通过一个统一平台,将包括运维、研发、业务、管理者在内的企业不同角色串联起来,并且满足了像DevOps这种新的开发运维模式。
而这里提到的统一平台可以为各部门提供统一的信息平台,展示各种应用的用户体验细节指标,包括用户前端响应时间、网络响应指标细节,以及后端各API接口,每个服务的健康状况,识别每条性能曲线上是否存在突发点等。一旦出现问题,平台可以将问题用户隔离,并界定问题发生的位置,是前端、后端、网络,还是数据库,并且将以业务部门看懂的方式,即可视化的图表展示出来。
过去,性能问题是分布在不同系统和不同部门下的,当遇到客户投诉后,首先要分类是哪类型的产品,然后联系产品部门,产品部门反馈给后台的研发和运维,然后开始查。查询问题的时候也很麻烦,在各个后台间利用排除法逐一排查,但是这种排查方式只能发现30%的问题。发现问题之后就要定位错误原因,一般情况下定位原因也是需要跨部门合作的,效率非常低。从分析判断问题是如何发生的、运维研发介入直到最终解决,这一过程往往要经历至少一周以上的时间,甚至可能是数周。
Moca表示:“听云全栈溯源是基于客户关键业务的自动质量控制平台,将把以周为单位的解决问题时间缩短为几分钟。同时,当发生严重问题时,系统会进行自动响应,及时告警。”
据了解,全栈溯源平台可以实现代码级别的问题定位,无论是某个程序的某段代码,或者是相关的SQL语句,还是DNS解析异常,甚至是前端图片的异常加载,这些无需专业人员来操作,就能够以简单明白的报表的方式,展示给各个部门。在这种情况下,各部门不仅可以直接在平台报表里找到问题的根本原因,同时还能共同讨论目前应用发生的问题,以及解决方案。
此外,听云还提供相应的咨询服务,提供专业的修复建议。Moca介绍道,一般情况下,客户使用了全栈溯源后会直接将问题定位到SQL原生语句,但是却不确定是什么原因造成的,这时可能就需要专业的咨询师提供相应的帮助。
听云认为,在秒级时代,企业需要构建以用户体验为核心的业务质量监控管理体系,新的全栈溯源基于新型的IT运维模式, 能够更好的满足当前新型的IT运维模式,从而帮助传统企业更加轻松的实现数字化转型。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
思科宣布其自主开发的AI模型已准备就绪,开始为公司产品提供支持。该模型名为"Foundation-Sec-1.1-8B-Instruct",是基于Meta Llama-3.1-8B架构的80亿参数指令调优模型,专门针对网络安全应用进行优化。首个应用场景是Duo身份智能服务,通过分析用户登录行为、地理位置和设备使用情况,识别传统访问控制容易遗漏的异常模式,并生成每周安全摘要报告,帮助管理员更好地进行安全决策。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。