大数据引擎：挖掘冰山下的金矿

作者：仲浩

当前，大数据这个话题如日中天。在第六届中国云计算大会上，百度技术委员会理事长陈尚义作了“百度大数据引擎”的主题演讲。期间，他提出数据的产生是为了获取其第一价值，大数据技术将能挖掘出第二、第三价值。

现在随着移动互联网、物联网的发展，数据无时不刻不在产生。包括个人用户的手机、可穿戴设备等；也包括行业应用的传感器、监控摄像头等信息。数字化将物理世界的模拟信息转化为数字信息，数字世界与现实世界的融合过程中产生和积累了大量的数据。全球所有信息数据中90%产生于过去两年。2013年每天全球产生25PB数据，相当于1500个国家图书馆信息量的总和。全球的数据总量从2003年的5EB，快速增长到2012年2.7ZB，并将于2020年达到40ZB。这些数据往往被人们比作海上漂浮着的冰山，因其巨大的价值隐藏在水面以下。

如陈尚义在大会上所讲，任何数据的产生都有其最初的目的，这就是它们的第一价值，当这些数据迅速积累起来，它们将能产生第二、第三价值。这背后就需要有效的技术来发现、挖掘。比如网上相册，其第一价值在于为网民提供存储服务。照片多起来后，我们就可以从中发现当时的流行色，甚至可以预测以后的流行趋势。再例如，可穿戴设备可以24小时监控我们的身体，它的第一价值是记录自己的身体状况，用句时髦的话说，就是“量化自我”。但如果能将一段较长时间的数据综合分析，我们可能发现健康的情况，并为我们提供预警。

大数据的两个重要特点：数据量大，增速快。根据麦肯锡的报告，到2020年医疗数据将急剧增长到35ZB，相当于2009年数据量的99倍。根据交通部的数据，某省高速公路视频监控数据每天50T。这些数据的产生也有其第一价值。如医疗数据是为了患者就诊，视频监控数据是为了事后的追溯。当他们的第一价值被利用之后，这些数据一般就被束之高阁。逐渐，这些数据成为了行业的负担。但事实上，这些数据仍然有宝贵的价值。如何发现这数据隐藏的价值，成为了行业的难题之一。

在面对自己的数据冰山中的价值，各行业对数据价值的挖掘做出了一些实际行动。陈尚义在演讲中总结出企业实践中存在的一些误区。许多传统行业仍然局限在小数据的开发和利用，将小数据当成大数据，未涉及全面、完整和系统的大数据本质。将传统的数据处理手段和技术当成大数据技术，未有大数据时代带来的新特征。这时候，传统行业需要看清大数据的特点，开发新的工具和新的平台，满足数据规模大、结构复杂和高速膨胀的需求。所以，传统行业亟需大数据技术和能力挖掘行业数据的新价值。

百度是如何挖掘其数据冰山下的价值金矿呢？陈尚义举了几个很有趣的例子。作为搜索引擎起家的百度，将人与信息连接起来，天然就是一个大数据公司。首先作为搜索引擎，百度需要收集互联网上的数据。为了方便人们检索信息而被存储下来的大量文本、图片、影音等不同结构的数据。像以前我们搜索某个关键词，结果出来的都是一个个单调的链接。想要查相关视频，还得另外搜索。现在，百度利用自己的数据挖掘及人工智能技术将这些不同类型的网络数据关联起来，于是产生了一种叫“知识图谱”的结果。比如现在用百度搜索“中国好声音”，结果出现的不仅仅是对这个节目的描述，还有歌手、歌曲、类似节目等结果。同样的一次搜索，带来的却是各种形式的信息展示，这让笔者眼前一亮。

同时，用户的搜索行为也会留下信息，百度再将它们进行大数据的关联分析，为人群画像，发现人群的兴趣点、特征等新的信息，反过来又可以从上千万条推广中为我们网民找到最相关的信息。这就是百度司南。它使得广告投放结果与用户搜索关键字之间具有相关性，广告投放商在百度投放的广告更有效。对于未来，百度还利用自己的人工智能技术推出了百度预测，有旅游城市、景点热度的预测，还有高考专业、院校的预测等。笔者在网站上看到了百度的世界杯预测结果——巴西夺冠，让我们拭目以待吧。

百度利用技术掀起了冰山，挖掘出了大数据资源中的金矿。最后陈尚义讲，如今，大数据的发展已经进入到全新的数据挖掘阶段。百度将这些大数据技术打包成为“百度大数据引擎”，开放为给行业社会。帮助传统行业根据大数据的特点，利用大数据引擎的平台，挖掘行业数据的新价值，助力产业升级。

来源：CSDN

0赞

好文章，需要你的鼓励

大数据引擎：挖掘冰山下的金矿

来源：CSDN

2014

05/29

10:41

分享

点赞

信任、技术、人为因素：网络韧性的基石

人类主导权应引导AI发展而非存在性恐惧

Google在Gemini中推出AI图像检测工具：能识别AI生成内容吗？

Meta申请电力交易许可以加速AI数据中心电力供应

研究员破解AI聊天机器人训练数据来源之谜

不止于数学：实际部署是筑牢后量子安全的关键环节

中国基础设施和运营领导者培养员工生成式人工智能技能的三大举措

领英ConnectIn 2025大会聚焦人才、技术与信任的三重驱动

ManageEngine卓豪携手DeepSeek，为中国企业强化AI驱动的IT管理能力

Brave浏览器AI助手Leo引入可信执行环境增强隐私保护

OpenAI与富士康合作开发AI数据中心套件

Solidigm：NAND行业面临晶圆厂短缺困境

李彦宏：当AI被真正内化，生产力革命才真正开始

百度学术：行业首个一站式AI学术平台，6.9亿文献资源加持

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球 李彦宏详解AI战略：AI-first战略使百度保持领先地位

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球李彦宏详解AI战略：AI-first战略使百度保持领先地位

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案