大数据应用还处于早期——专访Hadoop之父Doug Cutting 原创

作者：邹大斌

Hadoop的创始人Doug Cutting认为，大数据应用的普及是一个长期的过程，让每一家公司、每一个组织机构都能够用正确的方式来用好数据，这需要花很长的时间。因为这其中需要组织结构本身发生很大的变化，还需要很多的教育工作和人才的培养工作。

至顶网软件频道消息：谈到大数据，对技术有点了解的人很容易想到Hadoop。的确，尽管Hadoop只是一个对数据进行存储和分析处理的平台，但仍有不少人把Hadoop和大数据对等起来。实际上，Hadoop的确在很大程度上扮演着大数据代言人的角色，它应用的广度和深度也基本反映了大数据市场的繁荣程度。

从有Hadoop之父之称的Doug Cutting推出Hadoop算起，这个分布式大规模数据处理平台面市已经超过10年历史。这些年来，Hadoop自身在不断进步，市场上也诞生了一批像Cloudera、MapR、Hortonworks这样专门提供Hadoop相关服务的厂商，对大数据市场的繁荣起到了重要作用。不过，在日前接受至顶网记者采访时，Doug Cutting表示，无论是Hadoop的使用还是大数据的应用目前仍处于早期，这个市场还大有潜力。

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

今天的Hadoop可谓大名鼎鼎，但和众多开源软件开发人员一样，Doug Cutting开发Hadoop的目的非常简单，只是为了完成当时的一个项目。今天的“火”是Hadoop的创始人、Cloudera首席架构师Doug Cutting当初未曾预料到的。

“当时，我正在做一个名为Nutch的项目。希望采用开源的方式去创建出一种网络搜索的引擎，要求具有可扩展性、可收缩性的数据存储和处理能力。由于之前，我们看到了来自于Google的几篇论文，其中的想法和我的想法是完全一致的，所以我就把Google论文中的想法放到了Nutch项目当中来实施了，这就是今天的Hadoop。”Doug Cutting在接受记者采访时表示。

Doug Cutting说，他根本没有想到Hadoop今天会有如此之广的用途，当初想到的也仅仅就是用于搜索引擎和网站的创建上，看到Hadoop有今天如此广泛应用，他感觉到非常惊喜。

当然，其中最让Doug Cutting兴奋的还是Hadoop的生态。严格说来，今天的Hadoop已经不是一个开源项目，而是一个围绕着Hadoop形成的一组项目以及基于各个项目之上的大生态系统。比如，Hadoop项目就从最初的HDFS、HBase、MapReduce等不多的项目扩展到包括Spark在内的众多开源项目的集合，展示出强大的包容能力。而在生态上，围绕Hadoop已经形成了由Cloudera等Hadoop服务商、各种相关工具提供商、IaaS云平台供应商等众多合作伙伴组成的大生态。

毫无疑问，繁荣的Hadoop生态也正是Hadoop能走进今天的并且继续发展的主要原因。以Spark为例，曾经不少人认为Spark可能替换Hadoop，而实际上我们看到Hadoop的大生态让Spark很快融入起来，相互成为补充而不是对手。除了Spark之外，还有一些开源软件也与Hadoop社区有互动。比如kudu和Kafka。前者是一个非常强大的存储引擎，它既具备了类似Hbase的随机访问能力，同时又有HDFS快速查询能力；而Kafka有很强的实时应用支持能力和流处理能力。目前，Cloudera已经把这两个技术集成到Hadoop平台当中了。

Doug Cutting特别强调，在开源世界竞争的逻辑是不一样的，开源软件之间不是完全的竞争关系。因为没有哪个公司完全拥有开源技术，每当开源技术有了新的进展，开源群体的每一分子都会受益于其中。

“如果在有一些领域出现了新的技术，在某些方面会优于Hadoop，那Cloudera也会毫无犹豫地去接纳这样的技术，把它放到我们的解决方案当中去交付给客户。”他说。

云和AI对Hadoop是利好

AI是当今市场的一个热门话题，其今天的热度甚至超过了大数据。对此，Doug Cutting认为，AI对Hadoop是非常有利的，AI市场的繁荣也有利于Hadoop的普及。

“我觉得Hadoop和AI之间是非常适合、非常匹配的。因为AI本身就是一种大数据的应用。特别是在对于AI系统进行训练的时候，使用的数据越多，AI系统就越可能成功。”Doug Cutting介绍说，Google不久前发表了一篇关于应用AI进行图象识别的论文，最终结论也是对数十亿级的图片的人工智能系统还是进行训练使用的数据量越大，人工智能系统的质量就越高。

当然，Doug Cutting认为，推动Hadoop普及的不仅是AI，包括IoT、云等都对Hadoop的未来发展具有非常重要的作用，特别是云计算，将很大程度上影响Hadoop的交付。

目前，受限于网络条件和数据保密、合规等方面的原因，私有的、基于物理机的Hadoop模式依然是主流，云模式还是小众。比如，Cloudera的客户中云交付的不超过15%，但是Doug Cutting认为，这个数据肯定还会增长，预计会到40%-60%。

“本地安装运行Hadoop的形式来使用，往往要建一个很大的集群来支持各种不同的应用，并且拥有一个统一的数据拷贝，数据集中可控，但成本高；而云模式使得客户在使用Hadoop的方式上具有了更大的灵活性和可伸缩性，而且云供应商已经帮助他们管理了数据的拷贝。”Doug Cutting说。

Doug Cutting表示，从整个IT长远的发展趋势来看，IT的控制正在从在企业的某个部门扩散到各个不同的部门，因为非IT部门具有越来越大的能力，在IT方面进行自我管理、自我服务，也有越来越多的工具能够帮助他们做到这一点。而云计算是促进和推动了这一趋势的发展，也推动了数据的分散化、自助化。这是一个大趋势，也是云模式Hadoop增长的原因。

针对目前大数据应用的现状，这个Hadoop的创始人认为，大数据应用的普及是一个长期的过程，让每一家公司、每一个组织机构都能够用正确的方式来用好数据，这需要花很长的时间。因为这其中，需要组织结构本身发生很大的变化，还需要很多的教育工作和人才的培养工作，好在这一切都是在稳步推进当中。

来源：至顶网软件频道

0赞

好文章，需要你的鼓励

大数据应用还处于早期——专访Hadoop之父Doug Cutting 原创

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

云和AI对Hadoop是利好

来源：至顶网软件频道

2017

07/25

12:15

分享

点赞

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

Cellebrite携手SkySafe，打造无人机数字取证一体化平台

人类意识研究者：对AI可能有意识的说法持怀疑态度

帮助AI模型走向现实世界的企业预测决策技术

从"存数据"到"用数据"：天谋科技时序数据库通过安全可靠测评，时序大模型服务平台开放体验

华为AI DC全栈方案发布：以数据觉醒，驱动产业智能跃迁

Spark创始人Matei Zaharia凭借大数据开源贡献荣获ACM计算奖

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案