大数据分析一直是过去这十年的一个重要技术趋势,也是IT市场中最具活力和创新力的领域之一。但是如今的大数据分析市场与几年前截然不同,未来几年肯定也会有很大的变化。
2018年有很多明显的迹象表明,这十年中快速崛起的大数据市场,正在以不同的形式沉淀下来。未来几年,大数据分析市场甚至可能不会被称为“大数据”,因为很多大数据分析取得的进展都是针对人工智能的,尽管其核心是数据驱动的,但实际上并不一定要依赖于大量的数据才能在应用中发挥作用。
展望2019年,分析公司Wikibon预测大数据分析将会出现以下一些趋势:
公有云提供商正在吸收大多数大数据分析增长的新机会
企业正在将越来越多的大数据分析工作负载转移到公有云,并在这些环境中开发更多的绿地应用。
2019年,三大公有云提供商AWS、微软Azure和Google Cloud将加大力度,帮助企业将数据从本地平台迁移出来。
其他公有云提供商将难以保持自己在大数据分析市场的份额。2018年,来自公有云领导厂商的压力迫使IBM收购了RedHat。展望未来,IBM、Oracle和其他公有云提供商将更加强调混合云解决方案,帮助客户集中管理分布在私有云和公有云之间的大数据资产。
此外,越来越多的大数据公有云提供商将基础设施及服务和平台即服务细分市场拱手让给AWS、微软和Google,并将转向为业务线和特定行业提供软件服务分析应用。例如,Snowflake Computing就在云数据仓库市场大获成功,2018年得到了4.5亿美元的资金以保持增长势头。
大数据分析生态系统正在深入云原生环境
开源软件Kubernetes是一种针对管理需要在云和本地数据中心之间轻松迁移的应用的软件容器,是新一代云原生大数据的基础。过去一年中,这个市场最引人注目的趋势就是围绕Kubernetes的数据生态系统“再结晶”。
云原生大数据架构的发展,推动了2018年大量资金和并购活动的活跃。这就解释了为什么专注于多云分布式内存数据的Pivotal在其首次公开募股中就获得了5.55亿美元的资金;Talend收购Stitch,是因为市场需要一种更简单的工具来加载数据到云数据仓库;Cloudian收购Infinity Storage的一个重要原因,是企业对基于云的可扩展文件存储和对象存储的要求越来越高。
Wikibon预测,2019年Open Hybrid Architecture Initiative将开始实施HDFS、MapReduce、HBase、Hive、Pig、YARN和其他Hadoop主要组件的模块化和容器化计划。此外,主要赞助方——即将成为Cloudera 和IBM/Red Hat一部分的Hortonworks公司——将在2019年初提供下一代商用Hadoop解决方案,将这一架构融入他们各自的混合云解决方案组合中,其他云解决方案提供商也会紧随其后。
2019年,Spark、TensorFlow、流媒体、分布式对象存储和块存储细分领域中类似的容器化项目也将开始实施,因为整个大数据堆栈将在基于Kubernetes的DevOps环境中通过解耦来实现更灵活的部署和管理。
大数据分析平台提供商均在大力投资数据科学工具链
大数据分析解决方案提供商正在争相赢得新一代AI项目开发人员的心。过去几年中,市场中涌现了众多新一代数据科学工作台,包括Anaconda、Dataiku、DataKitchen、DataRobot、Dimensional Mechanics、Domino Data Lab、H2O.ai、Hydrosphere.io、Kogentix、Pipeline.ai和Seldon。此外,老牌大数据分析厂商如IBM、Oracle、Cloudera和Alteryx等,都已经进入这一领域,三大公有云厂商亦是如此。
2018年,DataRobot、Tamr和Immuta纷纷得到风投资金,说明这几家初创公司在过去几年中已经扎根于数据科学工作台领域,并且也将触手伸到了中国和远东。
2019年,将会越来越多的企业强调他们能够自动执行诸如特征工程、超参数优化和数据标记等传统手动任务。大数据分析解决方案提供商将大力投资工具以加快将经过训练的AI模型部署到生产应用中的进程。随着大数据分析生态系统开始向云原生架构转变,越来越多的数据科学工作台将整合Kubernetes业务流程结构自动化任务的能力,并将容器模型集成到公有云和私有云中,这一趋势将把新兴标准(如Kubeflow)带入蓬勃发展的数据科学DevOps工具链生态系统中来。
Hadoop和Spark正在变成传统遗留技术
Hadoop在大数据分析领域发挥的作用正在逐渐消失。Hadoop市场的增长前景趋于平缓,这也成为Cloudera和Hortonworks在2018年合并的主要原因。
Hadoop的核心用例正在逐渐缩小到面向非结构化数据的分布式文件系统、用于批量数据转换的平台、大数据治理存储库和可查询的大数据存档。
2019年,Hadoop将试图把应用范围扩展到在线分析处理、商业智能、数据仓库以及其他开源项目覆盖的领域。今年年底,很多企业大数据环境将开始逐步淘汰Hadoop,即使Hadoop重点瞄准的数据湖,也更倾向于采用分布式对象存储、流计算平台和大规模可扩展的内存集群。
即使作为Hadoop替代品问世的Apache Spark,在许多以TensorFlow为中心的AI环境中也开始变成一项遗留技术。这一趋势通过数据提取/转换/加载进入到Spark的部署领域就可以看到,而且随着Schema on Read架构(将数据的处理推迟到从数据库读出后)的出现,这种趋势可能会有所放缓。
大数据正在成为数据管理DevOps的核心
用户能否快速搜索、发现、组织和管理数据资产,已经成为数字业务能否取得成功的基础。在这方面,Looker Data Science在E轮融资中获得了1亿美元,以满足大数据编目、治理、准备和可视化解决方案的市场需求。
2019年,Wikibon预测会看到越来越多的企业将数据湖重新用于应用基础架构的大数据目录中,从而提高知识工作者的工作效率,支持正在构建训练生产AI应用的新一代开发人员,并促进算法透明度和电子发现。
Wikibon还预计IBM、Cloudera/Hortonworks、Informatica、Collibra等厂商将强化他们现有大数据目录平台在管理更多元数据、模型、图像、容器和其他组件(这些组件都是AI DevOps工作流的生命线)的能力流程。企业将越来越多地跨多云环境部署大数据目录,利用新一代虚拟化工具,提供单一控制平面来管理公有云和私有云中的不同数据资产。Wikibon预测,AWS、微软和谷歌将推出自己的大数据目录,面向那些选择在公有云/私有云混合环境中部署这些服务的客户。
数据湖正在朝着云对象存储和流计算发展
2018年,AWS S3和微软Azure Data Lake Storage等云对象存储平台将继续取代企业数据湖中的Hadoop。Wikibon还看到,风险投资方会优先为那些知名的多云数据访问、查询和可视化解决方案提供商提供资金(例如Dremio,在B轮融资中获得2500万美元);以及软件定义的多云存储(例如Scality,在B轮融资中获得6000万美元),和云对象存储(例如Cloudian,在E轮融资中获得9400万美元)。
展望未来,这一趋势将持续下去,但是未来三到五年流计算将让这一趋势黯然失色。Kafka、Flink和Spark Structured Streaming等低延迟流媒体平台正在成为企业数据基础设施的基础,正如20世纪70年代以来的关系数据架构。
商业智能将全面拥抱AI和内存
人工智能正在从内部和外部全面重塑商业智能市场。在过去几年中,商业智能的一个核心趋势是新一代融入了AI的预测分析、搜索、预测工具覆盖了该技术传统的重点——历史分析,这些工具可以让企业用户做很多以前需要经过培训的数据科学家才能做的事情。
2019年,越来越多的商业智能厂商将深度集成AI,自动从复杂数据中提取预测见解,同时在解决方案中提供丰富的功能,提供便捷的自助服务和最佳行动的指导,这一点从今年初创公司ThoughtSpot在D轮融资中获得1.45亿美元就可以看出,这笔资金将被用于ThoughtSpot创新的AI增强型业务分析解决方案组合。
说到AI在大数据分析市场几乎所有方面都发挥着越来越重要的作用,让我们来看看2018年的这些融资事件吧:
大数据分析的另一个主导趋势是内存架构,这就解释了为什么2018年MemSQL以内存交易分析技术在D轮融资中获得了3000万美元,InfluxData以使用时间序列数据库实时监控性能技术在C轮融资中获得了3500万美元,以及Actian凭借知名的内存混合交易/分析平台被股权公司HCL收购。
边缘计算从根本上改造了数据库架构
我们所了解的数据库正在被解构并重新组装,用于面向边缘的部署。
大数据分析市场的大部分发展都是面向边缘的、流式、动态的数据架构,这些架构不一定依赖于庞大的存储架构。这就解释了为什么我们在2018年看到可扩展的机器数据存储、处理和分析(CrateDB,A轮融资获得1100万美元)和流数据管道集成、监控和管理(StreamSets,C轮融资获得2400万美元)公司都获得了融资。
Wikibon预测,2019年企业将部署流媒体平台,推动低延迟DevOps管道,不断向移动应用、物联网、机器人和其他边缘应用注入经过训练的最佳机器学习模型。在线事务分析处理、数据转换和数据治理工作负载也越来越多地转向低延迟、有状态的流式主干架构。
未来几年,颠覆性的新数据平台将进入市场,结合流媒体、内存和区块链功能。这些新的分布式数据平台中有很多将是针对连续的AI DevOps管道进行优化的,这些管道需要低延迟、可扩展和自动化的数据接收、建模、训练、以及服务于边缘设备。这些分析管道功能的无服务器接口将成为标准配置,并辅以有状态流结构,支持新兴5G宽带无线网络中边缘设备中的内联推荐引擎、下一个最佳动作和其他事务工作负载。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。