ZD至顶网软件频道消息:Wikibon最近完成了2017年大数据全球预测,该报告的作者是Wikibon分析师George Gilbert,以及Wikibon的Ralph Finos和Peter Burris,涉及到大数据的市场规模、增长和趋势等。
今年,我们把重点放在构建实现大数据成果所必需的战略业务能力来说最重要的大数据软件技术上。下面是该报告主要的一些研究发现:
- 2016年,全球大数据硬件、软件和服务整体市场增长22%达到281亿美元,让大数据成为技术领域更具吸引力的领域之一。
- 我们的模型显示,到2027年期间,在大数据硬件、软件和服务上的整体开支的复合年增长率为12%,将达到大约970亿美元,而这主要是受到了大数据软件的推动。
- 不过,即使大数据仍然是企业关注热点,但是严重的问题也使得大数据市场出现了一些黯淡之处。特别是,大数据项目的故障率很高,甚至是信息技术标准。
- 大数据市场正在快速变革,以应对项目故障率较高的问题。正如我们所预测的,对基础设施的关注正在转移到对使用实例、应用、利用大数据能力创建可持续业务价值上来。
- 为了避免出现基础设施问题,企业对于把云用于大数据应用特别感兴趣。
大数据软件细分市场快速增长
与很多技术领域一样,大数据领域的很多项目首先是把焦点集中在了硬件和基础设施软件上。在大数据领域,获取、保存和处理大量大数据有很多需要的技术。因此,用户提到了大规模处理较高数据到达率而构建“数据湖”能力。这种能力仍然很重要,但是构建集群、数据库和数据迁移工具是不够的。如今,企业领导者重新将注意力集中在了构建大数据软件和系统的工具和业务能力上。下面就让我们来快速浏览一下每个大数据软件细分的趋势:
- 应用数据库增加了分析数据库的功能。越来越多的数据分析会实时地给人类和机器发送通知信息。2016年这个细分领域的总规模为26亿美元,到2020年增幅放缓到30%达到77亿美元。
- 分析数据库不止是数据湖。作为数据湖的主干,MPP SQL数据库将继续变革,最终成为大规模、高级、离线分析的平台。2016年这个细分领域的总体规模为25亿美元,增幅要慢于总体水平,到2020年达到38亿美元。
- 在线选择的增长是以大笔基础设施开支为代价的。这个部分包括像Spark、Splunk和AWS EMR这样的产品,2016年的总体规模为17亿美元。到2020年期间增幅抢眼,到2020年规模将达到61亿美元。
- 物联网应用将提升持续处理基础设施。这个细分领域将是新兴的、基于微服务的大数据应用的基础,包括大多数智能交互系统,在2016年的总体规模为2亿美元,但是到2020年将增长到18亿美元。
- 数据科学工具链正在演变为带有API的模型。今天,数据科学工具链要求有专门的专家来架构、管理和操作。但是,复杂的数据科学工具链——包括针对机器学习的——都将转变为实时的、预培训的模型,可通过开发者应用编程接口进行访问。这个细分领域的总体规模是2亿美元,到2020将达到18亿美元。
- 机器学习应用现在大多都是定制的。除了出现很多新的专业公司之外,这些应用还将在现有的企业应用中更为普及。2016年这个市场总体规模为9亿美元,到2020年它将赶超其他所有大数据细分市场,规模达到63亿美元。
行动项目:企业正在迅速积累大数据经验,但是还不够快,无法满足商业领袖的想象力和需求。2017年及之后,CIO们需要专注于战略业务能力,以更快速地创建、具有成本效益地管理、成功地集成高级分析系统。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。