ZD至顶网软件频道消息: 监控之于运维,就像眼睛之于大脑。随着“互联网+”业务不断深化,传统的APM已经远不能满足业务需要,为了最好的用户体验,是时候该对APM升级换代了。
用户主权时代体验为王
众所周知,在“互联网+”时代,互联网思维的核心之一就是强调客户体验,这对于传统企业向“互联网+”转型来说,不仅意味着一种思路的改变,更直接的是,意味着产品和服务响应模式的改变。
企业在互联网以及移动互联网上构筑自己的业务体系,首先要满足客户不断变化的需求,因此也就要求支持“互联网+”业务的IT应用适应更迅捷的变化。
另外一方面,在这种需求的刺激下,企业的IT资源开始云化、各种大数据分析架构、应用、工具随之涌现,微服务、容器等支持应用的更灵活的架构和技术得到市场的广泛认可,开发团队和运维团队之间的界限越来越模糊,敏捷开发、DevOps等开发模式也逐渐成为“互联网+”业务的“标配”。这些变化不断加速了产品的迭代速度和效率,也加速了企业业务的互联网化进程。
这种情况下,对于企业来说,应用的复杂性所带来的管理难度也越来越大,尤其是对于企业IT运维来说,传统的面向数据中心的监控方式在遇到问题时往往“失明”,而即便构建了面向应用监控的新平台,快速有效地对每一个用户实现从用户端设备到企业IT背后的全链路监控,快速定位问题,提出解决方案也不是一件容易的事情。
2016年,Gartner对于APM的分析标准进行了重新规划,新的标准中第一条就是数字化体验监控(DEM)。Gartner认为DEM要支持对操作体验和数字化探针、人和机器的行为优化,并能与企业的应用和服务交互,支持包括基于网络和移动端最终用户的真实用户监控(RUM)和综合事务监控(STM)。
第二个关键是要实现应用分析(AA),Gartner认为APM需要自动检测Java和.NET服务端应用支持的HTTP/S事务的性能异常的来源(或根本原因)。
除此之外,Gartner认为APM要实现应用发现、追踪和诊断(ADTD),了解服务端应用之间的关系,能将事务映射到节点上,并对方法和其他资源进行深度的检查。这是一系列过程,关注点均在问题的修复,且是相互关联的,包括应用程序拓扑发现和可视化,用户定义的事务处理,应用组件的深度钻取。
Gartner认为,APM的核心功能是能够基于应用去做问题的发现与诊断,但同时,对于网络和移动端最终用户的真实用户体验监测也应该作为核心功能之一。
APM全面升级
基于以上变化和用户需求,2016年,听云推出了全栈溯源解决方案实现了全端、跨应用监控。2017年,听云又对该解决方案进行了全面升级,升级后的听云全栈溯源从一个个不同的监测工具实现了平台化的整合,新的全栈溯源平台基于用户体验,可以对应用性能问题更加深入的追踪与诊断,以解决现阶段全栈环境,以其定位问题的复杂化问题。
听云产品副总裁Moca表示,传统APM是面向应用的监控,新的APM全栈溯源则是以用户体验为主导,基于事务请求进行全栈的问题定位和追踪,全栈溯源的方向是从外向内的,包括:APP端事务请求全栈溯源、浏览器页面事务请求全栈溯源、拨测事务请求全栈溯源、单用户全栈溯源。
“全栈溯源跟性能的关联比较大,也和业务有关系。简单来说,全栈溯源关注的不是企业用户流失,而是用户流失的问题是不是应用的性能问题所造成,在业务关键流程中是不是性能出了问题等。”
据了解,听云全栈溯源的价值就在于通过一个统一平台,将包括运维、研发、业务、管理者在内的企业不同角色串联起来,并且满足了像DevOps这种新的开发运维模式。
而这里提到的统一平台可以为各部门提供统一的信息平台,展示各种应用的用户体验细节指标,包括用户前端响应时间、网络响应指标细节,以及后端各API接口,每个服务的健康状况,识别每条性能曲线上是否存在突发点等。一旦出现问题,平台可以将问题用户隔离,并界定问题发生的位置,是前端、后端、网络,还是数据库,并且将以业务部门看懂的方式,即可视化的图表展示出来。
过去,性能问题是分布在不同系统和不同部门下的,当遇到客户投诉后,首先要分类是哪类型的产品,然后联系产品部门,产品部门反馈给后台的研发和运维,然后开始查。查询问题的时候也很麻烦,在各个后台间利用排除法逐一排查,但是这种排查方式只能发现30%的问题。发现问题之后就要定位错误原因,一般情况下定位原因也是需要跨部门合作的,效率非常低。从分析判断问题是如何发生的、运维研发介入直到最终解决,这一过程往往要经历至少一周以上的时间,甚至可能是数周。
Moca表示:“听云全栈溯源是基于客户关键业务的自动质量控制平台,将把以周为单位的解决问题时间缩短为几分钟。同时,当发生严重问题时,系统会进行自动响应,及时告警。”
据了解,全栈溯源平台可以实现代码级别的问题定位,无论是某个程序的某段代码,或者是相关的SQL语句,还是DNS解析异常,甚至是前端图片的异常加载,这些无需专业人员来操作,就能够以简单明白的报表的方式,展示给各个部门。在这种情况下,各部门不仅可以直接在平台报表里找到问题的根本原因,同时还能共同讨论目前应用发生的问题,以及解决方案。
此外,听云还提供相应的咨询服务,提供专业的修复建议。Moca介绍道,一般情况下,客户使用了全栈溯源后会直接将问题定位到SQL原生语句,但是却不确定是什么原因造成的,这时可能就需要专业的咨询师提供相应的帮助。
听云认为,在秒级时代,企业需要构建以用户体验为核心的业务质量监控管理体系,新的全栈溯源基于新型的IT运维模式, 能够更好的满足当前新型的IT运维模式,从而帮助传统企业更加轻松的实现数字化转型。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。