现在随着移动互联网、物联网的发展,数据无时不刻不在产生。包括个人用户的手机、可穿戴设备等;也包括行业应用的传感器、监控摄像头等信息。数字化将物理世界的模拟信息转化为数字信息,数字世界与现实世界的融合过程中产生和积累了大量的数据。全球所有信息数据中90%产生于过去两年。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。全球的数据总量从2003年的5EB,快速增长到2012年2.7ZB,并将于2020年达到40ZB。这些数据往往被人们比作海上漂浮着的冰山,因其巨大的价值隐藏在水面以下。
如陈尚义在大会上所讲,任何数据的产生都有其最初的目的,这就是它们的第一价值,当这些数据迅速积累起来,它们将能产生第二、第三价值。这背后就需要有效的技术来发现、挖掘。比如网上相册,其第一价值在于为网民提供存储服务。照片多起来后,我们就可以从中发现当时的流行色,甚至可以预测以后的流行趋势。再例如,可穿戴设备可以24小时监控我们的身体,它的第一价值是记录自己的身体状况,用句时髦的话说,就是“量化自我”。但如果能将一段较长时间的数据综合分析,我们可能发现健康的情况,并为我们提供预警。
大数据的两个重要特点:数据量大,增速快。根据麦肯锡的报告,到2020年医疗数据将急剧增长到35ZB,相当于2009年数据量的99倍。根据交通部的数据,某省高速公路视频监控数据每天50T。这些数据的产生也有其第一价值。如医疗数据是为了患者就诊,视频监控数据是为了事后的追溯。当他们的第一价值被利用之后,这些数据一般就被束之高阁。逐渐,这些数据成为了行业的负担。但事实上,这些数据仍然有宝贵的价值。如何发现这数据隐藏的价值,成为了行业的难题之一。
在面对自己的数据冰山中的价值,各行业对数据价值的挖掘做出了一些实际行动。陈尚义在演讲中总结出企业实践中存在的一些误区。许多传统行业仍然局限在小数据的开发和利用,将小数据当成大数据,未涉及全面、完整和系统的大数据本质。将传统的数据处理手段和技术当成大数据技术,未有大数据时代带来的新特征。这时候,传统行业需要看清大数据的特点,开发新的工具和新的平台,满足数据规模大、结构复杂和高速膨胀的需求。所以,传统行业亟需大数据技术和能力挖掘行业数据的新价值。
百度是如何挖掘其数据冰山下的价值金矿呢?陈尚义举了几个很有趣的例子。作为搜索引擎起家的百度,将人与信息连接起来,天然就是一个大数据公司。首先作为搜索引擎,百度需要收集互联网上的数据。为了方便人们检索信息而被存储下来的大量文本、图片、影音等不同结构的数据。像以前我们搜索某个关键词,结果出来的都是一个个单调的链接。想要查相关视频,还得另外搜索。现在,百度利用自己的数据挖掘及人工智能技术将这些不同类型的网络数据关联起来,于是产生了一种叫“知识图谱”的结果。比如现在用百度搜索“中国好声音”,结果出现的不仅仅是对这个节目的描述,还有歌手、歌曲、类似节目等结果。同样的一次搜索,带来的却是各种形式的信息展示,这让笔者眼前一亮。
同时,用户的搜索行为也会留下信息,百度再将它们进行大数据的关联分析,为人群画像,发现人群的兴趣点、特征等新的信息,反过来又可以从上千万条推广中为我们网民找到最相关的信息。这就是百度司南。它使得广告投放结果与用户搜索关键字之间具有相关性,广告投放商在百度投放的广告更有效。对于未来,百度还利用自己的人工智能技术推出了百度预测,有旅游城市、景点热度的预测,还有高考专业、院校的预测等。笔者在网站上看到了百度的世界杯预测结果——巴西夺冠,让我们拭目以待吧。
百度利用技术掀起了冰山,挖掘出了大数据资源中的金矿。最后陈尚义讲,如今,大数据的发展已经进入到全新的数据挖掘阶段。百度将这些大数据技术打包成为“百度大数据引擎”,开放为给行业社会。帮助传统行业根据大数据的特点,利用大数据引擎的平台,挖掘行业数据的新价值,助力产业升级。
好文章,需要你的鼓励
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。
IBM第四季度业绩亮眼,利润超预期,2025年展望乐观。收入增长2%至175.6亿美元,每股收益3.92美元超分析师预期。Red Hat和AI业务表现出色,软件业务增长强劲。公司预计2024年收入增长超5%,自由现金流增至130亿美元。市场对IBM战略转型和盈利能力改善反应积极,盘后股价大涨近9%。
加拿大滑铁卢大学研究人员发现,通过对 Linux 内核网络栈的微小调整,可显著提升数据中心效率。这项改进引入了自适应轮询机制,在高流量时提高吞吐量,低流量时节省能源。该补丁已纳入 Linux 6.13 内核,有望为数据中心带来可观的性能提升和能耗降低。