ZD至顶网软件频道消息: 监控之于运维,就像眼睛之于大脑。随着“互联网+”业务不断深化,传统的APM已经远不能满足业务需要,为了最好的用户体验,是时候该对APM升级换代了。
用户主权时代体验为王
众所周知,在“互联网+”时代,互联网思维的核心之一就是强调客户体验,这对于传统企业向“互联网+”转型来说,不仅意味着一种思路的改变,更直接的是,意味着产品和服务响应模式的改变。
企业在互联网以及移动互联网上构筑自己的业务体系,首先要满足客户不断变化的需求,因此也就要求支持“互联网+”业务的IT应用适应更迅捷的变化。
另外一方面,在这种需求的刺激下,企业的IT资源开始云化、各种大数据分析架构、应用、工具随之涌现,微服务、容器等支持应用的更灵活的架构和技术得到市场的广泛认可,开发团队和运维团队之间的界限越来越模糊,敏捷开发、DevOps等开发模式也逐渐成为“互联网+”业务的“标配”。这些变化不断加速了产品的迭代速度和效率,也加速了企业业务的互联网化进程。
这种情况下,对于企业来说,应用的复杂性所带来的管理难度也越来越大,尤其是对于企业IT运维来说,传统的面向数据中心的监控方式在遇到问题时往往“失明”,而即便构建了面向应用监控的新平台,快速有效地对每一个用户实现从用户端设备到企业IT背后的全链路监控,快速定位问题,提出解决方案也不是一件容易的事情。
2016年,Gartner对于APM的分析标准进行了重新规划,新的标准中第一条就是数字化体验监控(DEM)。Gartner认为DEM要支持对操作体验和数字化探针、人和机器的行为优化,并能与企业的应用和服务交互,支持包括基于网络和移动端最终用户的真实用户监控(RUM)和综合事务监控(STM)。
第二个关键是要实现应用分析(AA),Gartner认为APM需要自动检测Java和.NET服务端应用支持的HTTP/S事务的性能异常的来源(或根本原因)。
除此之外,Gartner认为APM要实现应用发现、追踪和诊断(ADTD),了解服务端应用之间的关系,能将事务映射到节点上,并对方法和其他资源进行深度的检查。这是一系列过程,关注点均在问题的修复,且是相互关联的,包括应用程序拓扑发现和可视化,用户定义的事务处理,应用组件的深度钻取。
Gartner认为,APM的核心功能是能够基于应用去做问题的发现与诊断,但同时,对于网络和移动端最终用户的真实用户体验监测也应该作为核心功能之一。
APM全面升级
基于以上变化和用户需求,2016年,听云推出了全栈溯源解决方案实现了全端、跨应用监控。2017年,听云又对该解决方案进行了全面升级,升级后的听云全栈溯源从一个个不同的监测工具实现了平台化的整合,新的全栈溯源平台基于用户体验,可以对应用性能问题更加深入的追踪与诊断,以解决现阶段全栈环境,以其定位问题的复杂化问题。
听云产品副总裁Moca表示,传统APM是面向应用的监控,新的APM全栈溯源则是以用户体验为主导,基于事务请求进行全栈的问题定位和追踪,全栈溯源的方向是从外向内的,包括:APP端事务请求全栈溯源、浏览器页面事务请求全栈溯源、拨测事务请求全栈溯源、单用户全栈溯源。
“全栈溯源跟性能的关联比较大,也和业务有关系。简单来说,全栈溯源关注的不是企业用户流失,而是用户流失的问题是不是应用的性能问题所造成,在业务关键流程中是不是性能出了问题等。”
据了解,听云全栈溯源的价值就在于通过一个统一平台,将包括运维、研发、业务、管理者在内的企业不同角色串联起来,并且满足了像DevOps这种新的开发运维模式。
而这里提到的统一平台可以为各部门提供统一的信息平台,展示各种应用的用户体验细节指标,包括用户前端响应时间、网络响应指标细节,以及后端各API接口,每个服务的健康状况,识别每条性能曲线上是否存在突发点等。一旦出现问题,平台可以将问题用户隔离,并界定问题发生的位置,是前端、后端、网络,还是数据库,并且将以业务部门看懂的方式,即可视化的图表展示出来。
过去,性能问题是分布在不同系统和不同部门下的,当遇到客户投诉后,首先要分类是哪类型的产品,然后联系产品部门,产品部门反馈给后台的研发和运维,然后开始查。查询问题的时候也很麻烦,在各个后台间利用排除法逐一排查,但是这种排查方式只能发现30%的问题。发现问题之后就要定位错误原因,一般情况下定位原因也是需要跨部门合作的,效率非常低。从分析判断问题是如何发生的、运维研发介入直到最终解决,这一过程往往要经历至少一周以上的时间,甚至可能是数周。
Moca表示:“听云全栈溯源是基于客户关键业务的自动质量控制平台,将把以周为单位的解决问题时间缩短为几分钟。同时,当发生严重问题时,系统会进行自动响应,及时告警。”
据了解,全栈溯源平台可以实现代码级别的问题定位,无论是某个程序的某段代码,或者是相关的SQL语句,还是DNS解析异常,甚至是前端图片的异常加载,这些无需专业人员来操作,就能够以简单明白的报表的方式,展示给各个部门。在这种情况下,各部门不仅可以直接在平台报表里找到问题的根本原因,同时还能共同讨论目前应用发生的问题,以及解决方案。
此外,听云还提供相应的咨询服务,提供专业的修复建议。Moca介绍道,一般情况下,客户使用了全栈溯源后会直接将问题定位到SQL原生语句,但是却不确定是什么原因造成的,这时可能就需要专业的咨询师提供相应的帮助。
听云认为,在秒级时代,企业需要构建以用户体验为核心的业务质量监控管理体系,新的全栈溯源基于新型的IT运维模式, 能够更好的满足当前新型的IT运维模式,从而帮助传统企业更加轻松的实现数字化转型。
好文章,需要你的鼓励
由贝索斯共同领导的普罗米修斯项目已收购AI初创公司General Agents。该公司开发了名为Ace的AI智能体,可自主执行视频编辑、数据复制等计算机任务。General Agents基于视频语言行为架构开发模型,这与普罗米修斯项目专注制造业AI系统的目标高度契合。收购完成后,普罗米修斯团队已超过100人,预计将推进工业机器人领域的AI应用发展。
斯科尔科技学院联合俄罗斯多家研究机构开发出革命性的多语言AI虚假信息检测技术。该研究构建了覆盖14种语言的大型数据集PsiloQA,通过"诱导AI说谎"的创新方法自动生成训练样本,成本仅为传统人工标注的数十分之一。实验证明多语言训练的检测模型性能显著优于单语言模型,为全球AI可信度监督提供了实用解决方案。
Kagi公司发布Orion浏览器1.0版本,这是一款专为苹果平台设计的全新浏览器。该浏览器主打极速浏览体验和用户隐私保护,完全免费使用并附赠200次Kagi搜索。Orion还提供月费5美元的付费订阅服务,解锁更多高级功能。未来计划包括更深度的自定义选项和性能优化。
NVIDIA研究团队发现,训练机器人最有效的方法竟然是最简单的:直接用普通文字告诉机器人该做什么,而不需要复杂的编码系统。他们开发的VLA-0系统在标准测试中超越了所有复杂方法,平均成功率达94.7%,在真实机器人测试中也比预训练系统高出12.5个百分点。这项发现挑战了"越复杂越好"的传统观念,可能加速智能家用机器人的普及。