现在随着移动互联网、物联网的发展,数据无时不刻不在产生。包括个人用户的手机、可穿戴设备等;也包括行业应用的传感器、监控摄像头等信息。数字化将物理世界的模拟信息转化为数字信息,数字世界与现实世界的融合过程中产生和积累了大量的数据。全球所有信息数据中90%产生于过去两年。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。全球的数据总量从2003年的5EB,快速增长到2012年2.7ZB,并将于2020年达到40ZB。这些数据往往被人们比作海上漂浮着的冰山,因其巨大的价值隐藏在水面以下。
如陈尚义在大会上所讲,任何数据的产生都有其最初的目的,这就是它们的第一价值,当这些数据迅速积累起来,它们将能产生第二、第三价值。这背后就需要有效的技术来发现、挖掘。比如网上相册,其第一价值在于为网民提供存储服务。照片多起来后,我们就可以从中发现当时的流行色,甚至可以预测以后的流行趋势。再例如,可穿戴设备可以24小时监控我们的身体,它的第一价值是记录自己的身体状况,用句时髦的话说,就是“量化自我”。但如果能将一段较长时间的数据综合分析,我们可能发现健康的情况,并为我们提供预警。
大数据的两个重要特点:数据量大,增速快。根据麦肯锡的报告,到2020年医疗数据将急剧增长到35ZB,相当于2009年数据量的99倍。根据交通部的数据,某省高速公路视频监控数据每天50T。这些数据的产生也有其第一价值。如医疗数据是为了患者就诊,视频监控数据是为了事后的追溯。当他们的第一价值被利用之后,这些数据一般就被束之高阁。逐渐,这些数据成为了行业的负担。但事实上,这些数据仍然有宝贵的价值。如何发现这数据隐藏的价值,成为了行业的难题之一。
在面对自己的数据冰山中的价值,各行业对数据价值的挖掘做出了一些实际行动。陈尚义在演讲中总结出企业实践中存在的一些误区。许多传统行业仍然局限在小数据的开发和利用,将小数据当成大数据,未涉及全面、完整和系统的大数据本质。将传统的数据处理手段和技术当成大数据技术,未有大数据时代带来的新特征。这时候,传统行业需要看清大数据的特点,开发新的工具和新的平台,满足数据规模大、结构复杂和高速膨胀的需求。所以,传统行业亟需大数据技术和能力挖掘行业数据的新价值。
百度是如何挖掘其数据冰山下的价值金矿呢?陈尚义举了几个很有趣的例子。作为搜索引擎起家的百度,将人与信息连接起来,天然就是一个大数据公司。首先作为搜索引擎,百度需要收集互联网上的数据。为了方便人们检索信息而被存储下来的大量文本、图片、影音等不同结构的数据。像以前我们搜索某个关键词,结果出来的都是一个个单调的链接。想要查相关视频,还得另外搜索。现在,百度利用自己的数据挖掘及人工智能技术将这些不同类型的网络数据关联起来,于是产生了一种叫“知识图谱”的结果。比如现在用百度搜索“中国好声音”,结果出现的不仅仅是对这个节目的描述,还有歌手、歌曲、类似节目等结果。同样的一次搜索,带来的却是各种形式的信息展示,这让笔者眼前一亮。
同时,用户的搜索行为也会留下信息,百度再将它们进行大数据的关联分析,为人群画像,发现人群的兴趣点、特征等新的信息,反过来又可以从上千万条推广中为我们网民找到最相关的信息。这就是百度司南。它使得广告投放结果与用户搜索关键字之间具有相关性,广告投放商在百度投放的广告更有效。对于未来,百度还利用自己的人工智能技术推出了百度预测,有旅游城市、景点热度的预测,还有高考专业、院校的预测等。笔者在网站上看到了百度的世界杯预测结果——巴西夺冠,让我们拭目以待吧。
百度利用技术掀起了冰山,挖掘出了大数据资源中的金矿。最后陈尚义讲,如今,大数据的发展已经进入到全新的数据挖掘阶段。百度将这些大数据技术打包成为“百度大数据引擎”,开放为给行业社会。帮助传统行业根据大数据的特点,利用大数据引擎的平台,挖掘行业数据的新价值,助力产业升级。
好文章,需要你的鼓励
AWS在纽约峰会上发布Amazon Bedrock AgentCore,这是一个企业级AI代理构建、部署和运营平台。该平台支持开源框架如CrewAI、LangChain等,提供运行时、内存、身份管理、可观测性等核心服务。Box、巴西伊塔乌银行等企业已开始使用该平台构建生产级应用。平台采用按需付费模式,目前在部分AWS区域提供预览版,2025年9月16日前免费试用。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
网约车巨头Uber宣布与中国科技公司百度达成多年战略合作,计划在美国和中国以外地区推出数千辆自动驾驶出租车。服务将从今年晚些时候开始,首先在亚洲和中东的未指定国家推出。百度的Apollo自动驾驶汽车已在中国11个城市运营,成本仅为3.7万美元,远低于行业平均的20万美元。用户可选择乘坐自动驾驶车辆或人工驾驶车辆。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。