今年是SAP HANA问世十周年,SAP在本周举行的SAPPHIRE 2020在线大会上,公布了SAP HAHA的发展路线图,这一切都不是巧合。总的来看,HANA正在与云融合。SAP将在6月26日发布编号为SPS05的HANA 2.0平台长期支持版本,而且这次大部分发布的产品,都将在未来两周内分阶段相继上市。
SAP HANA 2.0 SPS05是面向本地环境的终极版本
SAP承诺将支持HANA 2.0 SPS05一直到2025年,因此HANA 2.0 SPS05也被视为现有HANA 1.0客户的最终本地迁移目标,不过SAP仍然采用了发布多个短期升级的做法,这也是本地数据库平台升级的标准做法,因为客户不一定会以云中惯用的、持续交付的方式进行升级。除了SAP之外,Oracle也采取了类似的策略。
HANA 2.0 SPS05版本的一大亮点是支持SAP HANA Cloud混合云,SAP HANA Cloud是SAP完全托管的、多云的、基于使用情况付费的数据库即服务(DBaaS)。SAP推出了一种新的云网络,可以保护从本地SAP HANA数据库到SAP HANA Cloud的连接安全性,提供了数据和查询联合的接入。SAP HANA Cloud连接到本地和远程数据源,提供了数据的同一来源,可减少数据冗余。SAP HANA Cloud还可以扩展成多个数据层,具有独立的存储和计算功能,具有弹性。
SAP HANA 2.0 SPS05可以利用机器学习、空间和图形之类的功能查询HANA Cloud并返回结果,还可以在云存储的数据湖中进行联合查询。HANA 2.0 SPS05的数据虚拟化功能可以扩展到HANA Cloud(作为远程数据源)。此外,客户可以选择通过联合查询或者复制的方式访问数据,而且可以实时切换选择。毫无疑问,在涉及多模式与通用数据库的选择时,SAP的地位显而易见。这让SAP与Oracle保持齐头并进,Oracle也在力推多模式支持,但与单纯的云计算是有区别的。
SAP Data Warehouse Cloud足迹不断扩大
SAP在去年发布了SAP Data Warehouse Cloud,现在这项业务覆盖的范围已经大大扩展了,扩展到建模和集成数据与业务语义领域。
概括来说,SAP Data Warehouse Cloud是作为一种超越数据库的端到端分析云服务,HANA数据平台重新设计为部署有容器和微服务的云原生架构,计算与存储分离,最初发布时,SAP Data Warehouse Cloud集成了HANA与SAP Analytics Cloud的多项功能,为数据仓库提供了集成的自助服务分析和可视化能力。
但SAP并不是唯一一家去年秋天推出了端到端数据仓库服务的厂商,例如,微软就将Azure SQL数据仓库重新设计为Synapse Analytics。
这反映了端到端云分析服务的新颖之处,SAP和微软正是利用这一点,推出了不同的功能组合。SAP最初专注于为业务分析师提供集成的自助服务功能,而微软则是把重点更多放在了后端,将自己的数据仓库服务与Azure Data Factory结合,后者瞄准了整合数据转换管道的后端(Azure Synapse还通过支持ADLS云存储和Spark处理扩展到了数据湖)。只需要单击就可以把Azure Synapse集成到Power BI和Azure机器学习等分析服务中,同时也可以打包成单独的云服务。
新发布的SAP Data Warehouse Cloud将覆盖范围也扩展到了数据集成方面。尽管并不需要重新打包SAP Data Intelligence数据集成功能,但Data Warehouse Cloud集成了很多数据流(转换)和数据虚拟化的功能,可以解决数据工程师和DBA的问题,而对于业务分析师来说,还有另一个途径集成数据,那就是通过业务建模。
数据流与构建数据转换管道有关,提供了可视化转换选项,可以通过拖拽操作使用预构建的操作工具(例如数据投影、聚合、联接、过滤和联合),或者对于那些偏爱编程的人来说,还可以使用脚本编辑器使用Python 3进行转换。转换之后,还有用于协调列和过滤数据的功能。
对于业务分析师来说,另一条途径就是将数据映射到业务实体中,例如客户、产品、产品结构、销售渠道、时间等。业务分析师可以指定对象,然后将这些对象映射到数据模型,所有这些操作是独立于底层数据层的。然后为业务模型设置参数,包括结构实体(定义与其他实体的关系)、事实模型、消费案例、授权场景(根据用户或角色来访问数据)。反过来,这些模型会形成业务目录,作为定义、发现、重用模型,以及管理生命周期的起点。
如前所述,云为数据平台提供商提供了打破工具链中各种孤岛的机会。在云中,将整体系统重构为容器中部署的微服务,使得数据和分析厂商有机会打破工具孤岛。现在,微软已经行动起来了,Oracle也有可能紧随其后,目前看来,相比AWS和GCP,端到端的体验将让微软和Oracle独树一帜。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。