今天,在拉斯维加斯举行的Inspire合作伙伴会议上,微软发布了更多与数据相关的公告,包括该公司自己在Azure上的数据仓库服务以及Power BI服务。
在数据仓库方面,微软为其Azure SQL Data Warehouse(SQL DW)服务宣布了一项名为Instant Data Movement的新功能。通过在一个大的逻辑服务器中将多个服务器(节点)联合在一起,数据仓库平台获得了更高的速度。当在这个逻辑服务器上运行查询时,数据通常要在节点之间进行移动,数据仓库执行此操作的速度对于其性能来说至关重要,SQL DW只是让这样的操作变得更快。
该产品使用了一种被称为数据移动服务(Data Movement Service ,DMS)的功能来处理这项任务,它一直表现良好,因为它基于一种长期以来一直很高效的SQL Server技术,这种技术被称为批量复制协议(Bulk Copy Protocol,BCP)。但是,BCP的问题在于它采用了单线执行模式,在单个处理器内核上使用SQL Server的单线程操作模式。
但是,SQL Server Gen2存储的用户现在可以利用即时数据移动(Instant Data Movement ,IDM),它可以在多个CPU内核上执行,并使用SQL Server新的批处理模式(基于矢量处理)。结果是数据能够更快地移动,因此当查询没有进行物理排列的连接表时,查询性能更高。事实上,微软表示,结合其新的Azure Accelerated Networking,SQL DW可以以每个节点每秒高达1GB的速度移动数据。
在IDM和由于SQL DW Gen2存储和缓存带来的性能提升之间,微软对于该产品的性能非常有信心。事实上,这种信心是如此之强大,以至于该公司委托了分析公司GigaOm Research在SQL DW上进行同Amazon Redshift比对的TPC-H基准测试,而且看起来似乎结果非常乐观。
信息披露:我自己为GigaOm Research做分析师的工作。我没有参与SQL DW TPC-H基准测试项目,不过我知道它正在进行。
微软对TPC-H基准测试工作的讨论将在博客文章中进行介绍,GigaOm的报告也可以点击这里在线获取。
增强了的Power BI
在Power BI方面,微软已在云Big Data和Enterprise上都加强了流行的商业智能(Business Intelligence)服务。
对于前者,微软强化了Power Query自助服务数据准备工具(也嵌入在Windows版本的Excel中),以处理存储在Power BI云服务中的数据,而不是将其功能限制在存储在桌面电脑中的Power BI模型中。
根据Power Query云功能的实现方式,它可以为微软的Azure数据工厂(Azure Data Factory)服务提供一个非常有趣的伴奏,其主要改进是6月27日公告的一部分。此外,Power BI正在与Azure Data Lake Storage Gen2(也于6月27日发布并且目前处于预览阶段)集成,对Azure Blob Storage的改进消除了文件大小限制,并且增加了一个访问接口,使其与Hadoop Distributed File System (HDFS)——这种经典的大数据存储技术兼容。
Power BI基于微软长期的SQL Server Analysis Services(SSAS)技术,而从现在开始,Power BI集成了许多SSAS功能。包括与XML for Analysis(XMLA)的兼容性,这是SSAS的本地协议。XMLA兼容性带来了与为SSAS协同工作而构建的一系列工具的兼容性,使Power BI能够更好地针对企业。
Power BI还与微软的企业报告技术——SQL Server Reporting Services(SSRS)进行了集成。现在,除了Power BI报告和面板之外,Power BI云服务还将能够托管和呈现SSRS报告。
这为与本身就是SSRS内部部署的报表服务器扩展集的Power BI Report Server提供了良好的对称性,它允许本地提供的Power BI报告以及SSRS资产。现在,微软的客户将能够在本地和云端两种环境中都能够合并SSRS和Power BI报告。
为了提升Enterprise的实力,Power BI现在将提供对微软通用数据模型(Microsoft Common Data Model,CDM))的支持,并且正在增加多个地区的合规性,允许客户将Power BI Premium(非Professional)部署到全球特定的区域。 这有助于遵守数据驻留要求,增强数据局部性,从而减少数据的加载时间。
微软知道技术几乎总是通过数据和分析来实现,而且该公司正在这个领域的多款产品上加倍下注,特别是在云端更是如此。微软现在面临的问题是让市场相信该公司可以在数据领域打败亚马逊网络服务(Amazon Web Services)。虽然该公司现在正在前进,但是要想在数据领域赢得市场的民心,微软还有很多工作要做。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。