Google Cloud正在构建最开放、最强大、 可扩展的数据云平台,确保客户可以使用任何来源的数据,无论数据在哪,是什么格式。
近日谷歌在Google Cloud Next 2022大会上宣布了“数据云”的愿景,并对现有的数据服务进行了大量更新,同时推出了一些新的服务,这些更新都旨在实现开放的、可扩展的数据云这一愿景。
谷歌副总裁、Google Cloud数据分析业务总经理Gerrit Kazmaier在接受采访时表示:“如今每一家公司都是大数据公司,这就需要一个数据生态系统,而且这个系统将成为现代企业的关键基石。”
实现这个愿景的第一步,是要确保客户确实可以使用他们的所有数据。为此,谷歌的数据仓库服务BigQuery首次增加了分析非结构化流数据的能力。
BigQuery现在可以提取各种数据,无论是以什么格式存储的或者位于什么环境中。谷歌表示,这一点很重要,因为当今大多数团队只能使用来自运营数据库和各种应用(例如ServiceNow、Salesforce、Workday等)的结构化数据。
但是非结构化数据,例如来自电视视频归档、来自呼叫中心和广播的音频、纸质文档等,占到了当今组织可用的所有信息的90%多,这些数据被尘封已久,而现在可以在BigQuery中进行分析,并通过熟悉的结构化查询语言界面用于为机器学习、语音识别、翻译、文本处理和数据分析等服务提供支持。
这是向前迈出的一大步,但到目前为止还不是唯一的一步。谷歌表示,为了进一步实现目标,谷歌将对BigLake存储引擎增加支持主流的数据格式,例如Apache Iceberg、Delta Lake和Apache Hudi。Kazmaier表示:“通过支持这些被广泛采用的数据格式,我们可以帮助组织消除那些让他们无法从数据中获得全部价值的障碍。借助BigLake,你可以跨多个云管理数据。”
与此同时,BigQuery与Apache Spark进行了新的集成,这将让数据科学家们能够显着缩短数据处理的时间。Datastream也将与BigQuery集成,让客户能够更有效地从AlloyDB、PostgreSQL、MySQL和Oracle等其他第三方数据库来源复制数据。
谷歌表示,为了增强用户对所持数据的信心,谷歌将扩展Dataplex服务,使其能够对提高数据质量和谱系相关流程实现自动化。Kazmaier说:“例如,用户现在可以更轻松地了解数据沿袭情况,也就是数据的来源以及数据是如何随着时间的推移进行转换和移动的,从而减少那些手动的、耗时的流程。”
统一化的商业智能
让数据更易于访问是一回事,但客户还需要能够使用这些数据。为此,谷歌表示,将把自己的商业智能工具产品组合都整合到Looker品牌下。Looker将与Data Studio以及其他核心的商业智能工具集成,以简化人们从数据中获取洞察力的方式。
谷歌表示,在此次整合中,Data Studio被重新命名为Looker Studio,通过为工作流程和应用注入现成的智能来帮助客户进行数据驱动的决策,从而帮助客户不止是看仪表板这么简单。例如,Looker将与Google Workspace集成,更轻松地从Sheets等生产力工具中获取洞察。
此外谷歌表示,这将让客户更容易使用他们所选的商业智能工具,例如,Looker已经与Tableau Software集成,很快还将集成微软Power BI。
为人工智能赋能
当今最常见的数据用例之一就是为AI服务提供动力——谷歌在这一领域明显处于领先地位,而且也不打算很快放弃这一领先优势。为了让基于AI的计算机视觉和图像识别更易于使用,谷歌推出了一项名为Vertex AI Vision的新服务。
该服务扩展了Vertex AI的现有功能,提供了一个用于获取、分析和存储视觉数据的端到端应用开发环境。谷歌表示,这样用户就能够从制造工厂流式传输视频,以创建可以提高安全性的AI模型,或者获取有关商店货架情况的视频片段以更好地管理产品库存。
Kazmaier解释说:“Vertex AI Vision可以将创建计算机视觉应用的时间从几周缩短到几个小时,成本仅为当前产品的十分之一。为了实现这样的效率,Vertex AI Vision提供了一个易于使用的拖放界面和一个预训练的机器学习模型库,用于常见任务例如占用计数、产品识别和对象检测等。”
对于那些技术能力较低的用户,谷歌正在引入更多的“AI代理”,这些工具让任何人都可以轻松地将AI模型应用于常见的业务任务中,从而让几乎任何人都可以使用AI技术。
此次谷歌新推出的AI代理包括Translation Hub,支持自助服务文档翻译,并且在发布时支持多达135种语言,令人印象深刻。Translation Hub结合了Google的神经机器翻译和AutoML等技术,通过从多种文档类型(包括Google Docs、Word文档、幻灯片和PDF)中提取和翻译内容,不仅保留了精确的布局和格式,而且还带有精细的管理控制,包括对后期编辑的循环反馈以及文档审查。
研究人员可以使用Translation Hub与世界各地的同事共享重要文件,而商品和服务提供商则能够进入那些还没有充分开发的市场。此外谷歌表示,这也让公共部门的管理人员可以用他们的母语与社区成员建立更紧密的联系。
第二个新的AI代理是Document AI Workbench,它可以更轻松地构建自定义文档解析器,训练这些解析器从大型文档中提取和总结关键信息。“Document AI Workbench可以消除构建自定义文档解析器中的障碍,帮助组织提取业务特定需求的字段,”谷歌云AI和行业解决方案副总裁June Yang说。
谷歌还推出了Document AI Warehouse,旨在克服从文档中标记和提取数据的诸多挑战。
扩展集成
最后谷歌表示,正在扩大与一些最受欢迎的企业数据平台的集成范围,以确保他们的客户也可以访问存储在这些平台上的信息。
Kazmaier解释说,为客户提供跨任何数据平台工作的灵活性,这对确保选择多元化和防止数据锁定来说是至关重要的。他说,在这方面,谷歌正在致力于与所有主要的企业数据平台提供商展开合作,包括Collibra、Databricks、Elastic、FiveTran、MongoDB、Reltio和Strimm,确保谷歌的工具可以配合这些平台使用。
Databricks公司产品管理高级副总裁David Meyer在接受采访时表示,在与AWS和微软进行了类似的集成之后,已经与谷歌合作了大约两年的时间,让BigQuery支持Databricks的Delta Lake。
Meyer说:“这样你就不必将数据移出数据湖,从而降低了成本和复杂性,我们认为这是一个拐点。”他补充说,即便如此,这只是与Google Cloud合作的开始,两家公司将致力于攻克其他挑战例如联合治理。
Kazmaier表示,谷歌还将与数据云联盟(Data Cloud Alliance)的17个成员企业展开合作,以促进数据行业的开放标准和互操作性。谷歌还将继续支持开源数据库引擎,例如MongoDB、MySQL、PostgreSQL和Redis,以及Google Cloud数据库,例如AlloyDB for PostgreSQL、Cloud Bigtable、Firestore和Cloud Spanner。
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
研究表明,现有的公开 AI 模型在描述大屠杀历史时过于简单化,无法呈现其复杂性和细微之处。研究人员呼吁各相关机构数字化资料和专业知识,以改善 AI 对这段历史的理解和表述。他们强调需要在 AI 系统中加入更多高质量的数据,同时在审查和信息获取之间寻求平衡。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。