现在随着移动互联网、物联网的发展,数据无时不刻不在产生。包括个人用户的手机、可穿戴设备等;也包括行业应用的传感器、监控摄像头等信息。数字化将物理世界的模拟信息转化为数字信息,数字世界与现实世界的融合过程中产生和积累了大量的数据。全球所有信息数据中90%产生于过去两年。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。全球的数据总量从2003年的5EB,快速增长到2012年2.7ZB,并将于2020年达到40ZB。这些数据往往被人们比作海上漂浮着的冰山,因其巨大的价值隐藏在水面以下。
如陈尚义在大会上所讲,任何数据的产生都有其最初的目的,这就是它们的第一价值,当这些数据迅速积累起来,它们将能产生第二、第三价值。这背后就需要有效的技术来发现、挖掘。比如网上相册,其第一价值在于为网民提供存储服务。照片多起来后,我们就可以从中发现当时的流行色,甚至可以预测以后的流行趋势。再例如,可穿戴设备可以24小时监控我们的身体,它的第一价值是记录自己的身体状况,用句时髦的话说,就是“量化自我”。但如果能将一段较长时间的数据综合分析,我们可能发现健康的情况,并为我们提供预警。
大数据的两个重要特点:数据量大,增速快。根据麦肯锡的报告,到2020年医疗数据将急剧增长到35ZB,相当于2009年数据量的99倍。根据交通部的数据,某省高速公路视频监控数据每天50T。这些数据的产生也有其第一价值。如医疗数据是为了患者就诊,视频监控数据是为了事后的追溯。当他们的第一价值被利用之后,这些数据一般就被束之高阁。逐渐,这些数据成为了行业的负担。但事实上,这些数据仍然有宝贵的价值。如何发现这数据隐藏的价值,成为了行业的难题之一。
在面对自己的数据冰山中的价值,各行业对数据价值的挖掘做出了一些实际行动。陈尚义在演讲中总结出企业实践中存在的一些误区。许多传统行业仍然局限在小数据的开发和利用,将小数据当成大数据,未涉及全面、完整和系统的大数据本质。将传统的数据处理手段和技术当成大数据技术,未有大数据时代带来的新特征。这时候,传统行业需要看清大数据的特点,开发新的工具和新的平台,满足数据规模大、结构复杂和高速膨胀的需求。所以,传统行业亟需大数据技术和能力挖掘行业数据的新价值。
百度是如何挖掘其数据冰山下的价值金矿呢?陈尚义举了几个很有趣的例子。作为搜索引擎起家的百度,将人与信息连接起来,天然就是一个大数据公司。首先作为搜索引擎,百度需要收集互联网上的数据。为了方便人们检索信息而被存储下来的大量文本、图片、影音等不同结构的数据。像以前我们搜索某个关键词,结果出来的都是一个个单调的链接。想要查相关视频,还得另外搜索。现在,百度利用自己的数据挖掘及人工智能技术将这些不同类型的网络数据关联起来,于是产生了一种叫“知识图谱”的结果。比如现在用百度搜索“中国好声音”,结果出现的不仅仅是对这个节目的描述,还有歌手、歌曲、类似节目等结果。同样的一次搜索,带来的却是各种形式的信息展示,这让笔者眼前一亮。
同时,用户的搜索行为也会留下信息,百度再将它们进行大数据的关联分析,为人群画像,发现人群的兴趣点、特征等新的信息,反过来又可以从上千万条推广中为我们网民找到最相关的信息。这就是百度司南。它使得广告投放结果与用户搜索关键字之间具有相关性,广告投放商在百度投放的广告更有效。对于未来,百度还利用自己的人工智能技术推出了百度预测,有旅游城市、景点热度的预测,还有高考专业、院校的预测等。笔者在网站上看到了百度的世界杯预测结果——巴西夺冠,让我们拭目以待吧。
百度利用技术掀起了冰山,挖掘出了大数据资源中的金矿。最后陈尚义讲,如今,大数据的发展已经进入到全新的数据挖掘阶段。百度将这些大数据技术打包成为“百度大数据引擎”,开放为给行业社会。帮助传统行业根据大数据的特点,利用大数据引擎的平台,挖掘行业数据的新价值,助力产业升级。
好文章,需要你的鼓励
摩根士丹利最新分析显示,到2030年欧洲银行业可能削减超过20万个工作岗位,约占35家主要银行员工总数的10%。裁员主要集中在后台运营、风险管理和合规等领域,银行预期通过AI技术实现30%的效率提升。荷兰银行ABN Amro计划到2028年裁员五分之一,法国兴业银行CEO宣称"没有什么是神圣不可触碰的"。高盛也警告美国员工将实施裁员和招聘冻结。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Safe软件CEO唐·默里认为,AI作为助手不可或缺,但绝非权威。他指出,在工程等高精度领域,AI准确率仅达80-90%,远低于99.999%的要求,因此必须保持"人在回路中"模式。默里担心企业过度依赖AI而不培养初级员工,当资深专家退休后将面临人才断层。他强调AI应用于提升团队整体水平,帮助初级员工快速成长,协助资深员工提高效率,但人类专业判断不可替代。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。