扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNet软件频道【原创】 2013年3月12日
关键字: 大数据 IBM大数据 2013IBM大数据 IBM
ZDNet至顶网软件频道消息: 3月12日,国内知名大数据学者,电子科技大学计算机互联网中心主任周涛博士在2013大数据新闻发布会上指出,在第三次工业革命中,数据、计算将扮演材料和能源的角色。数据将会作为一种战略材料,每一个企业,科研团队和政府,都有责任去通过一些计划,有目的的搜集、处理、分析、索引数据。在未来,数据可能产生现在所想象不到的价值。
国内知名大数据学者,电子科技大学计算机互联网中心主任周涛博士
如果回到一两百年以前,一个特别聪明的人可能要几十年的时间才能改变我们的社会经济,但是扎克伯格和比尔盖茨这些人,仅仅在五年十年间就彻底改变了我们的观念形态,这种改变背后隐含的,第一是切合时代的发展,第二是一种很强的分析动力。企业家和政府部门需要做好准备。
周涛博士列举了大数据在商业上应用的1.0、2.0和3.0版本。
大数据的1.0是很好理解的,一个企业自身的业务需求产生大量数据,利用这些数据,通过深入分析,可以优化相关的业务。在这个时候,数据起到了指导决策的作用。
大数据的2.0和1.0的理念是不一样的,这里强调数据的外延。数据除了从自身的业务产生并解决自身问题以外,我们最终是数据本身有能力解决其他的问题,同样我们也需要有能力去把其他很多其他的数据放在一起解决自身的问题,这就是所谓的数据外部性问题。这里要求企业搜集与目标业务直接或间接关联的大量异质数据。建立复杂的分析和预测模型,产生针对目标业务的输出。这时候数据本身就是决策。
大数据的3.0,我们关注数据的质量价值,数据的隐私安全。如果进行数据交换要如何付费?如果别人拷走了你的数据怎么算?还有数据的权益等等。要有可以量化或者可以保障的措施。在这个时候,类似于电信运营商有一种叫做数据运营商会出现,会有很多数据,在上面会有小的科研团队或者创新型企业,也有数据提供商和数据加工商,他们会产生不管是下载还是API接口还是其他的产品,会成为一种单独的产品在上面出售,并有自己的分成模式。这个时候会出现一种新的数据客,他们在数据市场中玩粗加工的数据或者是粗加工的数据产品,再产生新的数据产品,以ATI的形式投放到数据市场。
大数据从1.0到2.0到3.0,有两条线在驱动它,一条线是开放,也就是共享的心态。一条线是精深,深入地分析。
以下为现场实录:
周涛:谢谢大家。各位好,首先非常感谢IBM的邀请,也谢谢胡老师精彩的演讲。我今天想说的是,在座的各位都是非常幸运的一代,因为十几年互联网的飞速发展已经彻底改变了我们的社会经济。但是纵观比较三次不同的工业革命,或者是可能的大数据革命,他们都有同样的成败格式之点。这也是今天为什么我们到这一起来看,如果有一个所谓的大数据时代,谁将组成?
在新的一次可能的第三次工业革命中,数据、计算将扮演材料、能源和先进工艺技术这样的角色,如果把计算看成能源,能够允许它像电力一样进入我们的生活流动起来,并以统一的形式收费,我们将来用三步计算、五步计算并不在乎计算从那里来,就像我们不知道今天的五度电是来自大亚湾还是三峡。我们可以想像,在未来云计算以及其他的计算能力将成为一个国家非常至关重要的核心战略之一。可以想像,在中国有可能实现把我们的计算资源或者说单位计算的成本降到比欧美更低,把大的计算放在西北部。通过西电东送的方式,实现把数字的处理和计算成本下降到以往的30%或者20%。
在这种情况下,它可以在很大尺度上改变我们国家的地缘政治。同样,如果我们注意到数据将会作为一种战略材料,我们的每一个企业,科研团队和政府,就有责任通过一些计划,有目的的搜集、处理、分析、索引数据,IBM有智慧地球,也知道我们国家有一些类似的行业计划,包括特定的资源,像金融、电信这些行业,这些数据在未来可能产生现在所想象不到的价值,也需要我们现在的一些企业家、政府部门做好准备。当然,最重要的一点是,相比以前如果回到一两百年以前,一个特别聪明的人可能要几十年的时间才能改变我们的社会经济,但是像扎克博格、比尔盖茨他们五年十年间就彻底改变了我们的观念形态,这种改变背后隐含的第一是切合时代的发展,第二是很强的一种分析动力。我们未来的大数据如果要想作出这样伟大的企业,真正先进的工艺技术就来自于更深入的分析,需要更聪明的头脑,不再等同以前工业革命时期可能我的锻造技术更好,我的轧钢技术更好,或者其他技术更好,而是在于有更聪明的头脑。
当然,大数据时代和以前的工业革命不同的是,它的特征是个性化的,因为现在第一次允许大规模的数据以个人为中心流动起来,所以未来的大数据时代能够不管在1秒还是通过其他手段,能够提供一些真正个性化的服务。站在学术的角度,我首先给大家介绍的是大数据带来科学的革命。以前理解科学总是把数据和理论放在一起,什么叫科学?或者什么叫实政科学,有了数据,有了理论之后,首先对这个现象有一定的理论上的解释,另外有了解释,所以我们可以做预测,由于我的预测进一步验证了我的理论,我才可以最终实现最后的目的,就是人工的干预和控制。但是现在这种科学研究的范式发生了很大的变化,我们看右边,是现在的模式,(见图),实际上只有解释这个环节,既需要数据也需要理论。对于预测和控制这两个环节,理论可能在其中扮演复制作用,也可能不要。所以大数据时代的核心问题将变成预测的问题。事实上任何东西本质上都是可以让我们做预测的,今天看到的很多零售业的服务,比如亚马逊个性化的推荐,本质上是一种缺失的信息预测,可能喜欢这些东西,但我在观察到的数据中看不到,所以我做这样的预测。
我给大家举个例子,应该什么时候在什么地点买什么东西。胡老师说我们在手机上能够更好地进行位置服务,打一个更好的手机广告,也是某种意义上的缺失性信息预测。更好的是我们可以做宏观上的趋势的预测,比如观察到电力的数据,能更早知道零售业和重工业复苏的迹象,就能够比别人更早一步知道我们整个物流的情况,知道未来股市的发展情况,可能更早两步、三步作出趋势预测。可以做的预测还很多,可以做房价预测,还可以预测还款、借贷能力等等,这都将成为大数据应用中最核心的科学问题。
大数据带来的科学上的第二个大的变化是,以往很多在实验室小规模控制的科学问题,一些科学学科,比如社会科学,本质上是定性,现在大数据分析的基础上都会变成定量的科学。举几个例子,以社会科学为例,以前做社会科学大的试验无非是几百人、上千人做问卷,现在我们自己做的问题涉及的都是几千万,甚至超过一个亿的人,比如我们做宗教问题,观察是不是有一些宗教更加有暴力倾向,或者是不是连接很紧密,教派之间是否有排斥,这样大的问题我们可以通过文本分析的方式,通过褒义词、贬义词、情绪词、评论的分析,判断每一个人到底是一个亲善友好的人还是一个刻薄的人,到底是一个情绪平和的人还是一个急躁易怒的人,通过客观分析我们在宏观尺度上研究一个宗教对一个人的改变,以及不同宗教是否有不同倾向。
比如亚文化问题,我们已经可以通过数据来分析出或者说通过线下采访能知道哪些人可能是同性恋人群,这个人群的数目不再像以前的研究中是几十人、一百人,而是有几十万人。这几十万人都有自己的消费购物数据,有手机数据,有和其他人联系的数据,我们事实上可以知道不被主流文化所认可的其他亚文化人群他们有什么独特的社交、独特的行为等等。
在座的很多媒体、企业家所关注的是商业问题,大数据带给我们巨大的理念上的改变,同样它也会带来商业模式的成熟发展甚至革命。我这里给大家举一下大数据在商业上应用的1.0、2.0和3.0版本。大数据的1.0是很好理解的,一个企业自身的业务需求产生大量数据,利用这些数据,通过深入分析,可以优化相关的业务。在这个时候,数据起到了指导决策的作用,举几个例子,比如说沃尔玛,它有大量的会员卡和零售数据,所以通过这些数据可以制定更好的优惠卷和个性化商品推荐服务。也通过这些数据它能够更好地管理产业链、仓储和物流。我们在北京做过一家,是专门做电子商务服务的,拥有2亿多用户的数据和8千万单品的数据,就是怎么样做商品的个性化推荐。利用这些个性化推荐,不仅可以直接做自动化展示,还能够帮助电商更好地编排在网上店铺的摆放等等。豆瓣是全球做社会化推荐最好的一家企业,利用评论数据,也利用点击浏览数据能够做到听其言观其行,利用这些数据可以做到几乎最好已知的社会化推荐,这样的例子还有很多。
还有一家企业,可以把电子化定义拿来做智能的诊断,亚马逊是做个性化推荐的鼻祖,它可以知道几乎你手机上安装的所有应用,事实上它能知道你的消费水平,有没有小孩,有没有车,有没有得什么慢性病,有没有金融支付终端等等,它还知道你在哪个地方,如果是这样一些企业打这样的个性化广告效果会很好。
大数据的2.0和1.0的理念是不一样的,这里强调数据的外延。数据除了从自身的业务产生并解决自身问题以外,我们最终是数据本身有能力解决其他的问题,同样我们也需要有能力去把其他很多其他的数据放在一起解决自身的问题,这就是所谓的数据外部性问题。这里要求企业搜集与目标业务直接或间接关联的大量异质数据。建立复杂的分析和预测模型,产生针对目标业务的输出。这时候数据本身就是决策。为什么这样说?虽然在这种复杂的模型中,我们已经很难看到真正的因果关系,我们并不知道是为什么由A到B,由B到C,但是我们只知道选择A比选择B好,所以数据本身不仅仅是指导决策,而就是决策。举几个例子,比如说Zestfinance是一家很奇怪的信贷公司,可以快速发放小额贷款,所利用的不是平常讲的背景调查等等,而是它分析社交网络以及在其他购物等等频道留下来的你的活动记录,所以他说所有的数据实际对我们来说都是新闻数据,用这种办法来预测还贷能力,计算信用度,最典型的是把其他和你本行业看起来没有直接关联的数据用起来做本行业的事情。
最后想谈的是大数据的3.0,这个时候希望能进入真正的大数据时代。在这里我们对数据的质量价值,数据好不好,有多大价值,如果交换要如何付费。如果别人拷走了你的数据怎么算?还有数据的权益。还有我们特别关心的数据隐私安全等等,我们要有充分的认识。要又可以量化或者可以保障的措施。在这个时候,类似于电信运营商有一种叫做数据运营商会出现,会有很多数据,在上面会有小的科研团队或者创新型企业,也有数据提供商和数据加工商,他们会产生不管是下载还是API接口还是其他的产品,会成为一种单独的产品在上面出售,有自己的分成模式。这个时候会出现一种新的数据客,他们在数据市场中玩粗加工的数据或者是粗加工的数据产品,再产生新的数据产品,以ATI的形式投放到数据市场。就像今天大家在手机市场中,经常有两三个人很聪明的人开发一个很有趣的应用,就有很多的使用。那时候可能有一个很聪明的人,开发和有趣的数据产品,可能很多企业政府科研团队都会使用他们的数据产品。
当然,最重要的是,所有的学术团体、企业和政府,都能够使用到大数据,这就是为什么讲今天叫大数据时代,因为如果只有两三个人,或者七八家企业能够用到大数据这不能叫一个时代,就像十个人上网不能叫互联网时代。所以将来当我们有了大数据之后,我们希望的是未来某一天通过更好的索引,更好的体系结构的支撑,使得普通的科研团队、普通的创业者都能够有办法获取你所想获取的数据里面的一些逻辑片断,我们未来操纵大数据应该是四两拨千斤举重若轻,尽管我看到的是一个很大的数据,但是操作起来就像单机版里面的一个小文件一样,这是我们未来的希望。
总结:大数据从1.0到2.0到3.0,我们提过一个概念,商业模式从2B到2C到2D、2Data,实际上是有两条线在驱动它,一条线我们希望它越来越粗犷、开放,数据一定要开放出来,以共享的心态。一条线我们希望它越来越精深,就是深入地分析。最后我想作为第三方讲讲非商业的东西,大数据也是一把双刃剑,所谓水能载舟亦能覆舟,首先大数据必然会带来隐私方面更隐秘一些,利用手机的Moblie,移动的数据,不需要任何购物数据就能知道你很有可能是不是同性恋,我还能知道你是不是一个腐败分子,还能知道你有没有包二奶,但是同样的技术手段,我们到底是用这个手段来实现更好的商业或者是社会的公正性,还是我们宁愿不用这个手段来保护人们的隐私,这是一个永远的问题。因为这个手段一旦滥用,我们有可能会回到一种很可怕的1984年所描述的独裁、剥削的时代。再就是大数据的应用,比如说它和医疗的数据,下一代的小孩子干细胞的资料都会储存下来,现在的3D打印在细胞层面可以每次喷两到三个细胞,上千的胚体都可以打印出来。这个意义上来讲,有可能某一天我们可能打印出生物,甚至打印出人,现在有人可以打印出枪,当这种大数据的技术泛滥开来,它到底带给我们的是有益的未来还是可怕的未来,这都是需要我们思考的。
最后我想说的是,作为站在时代浪潮巅峰的这一代,既是幸运的,也是有危机感的,我们既有历史的高度,也身临其境,胜利总是青睐有准备的人,什么是准备?我想讲三点:责任、综合、分析。责任是每个企业不仅要盈利,更重要的是大数据带给我们一种可能性,就是企业作为一个有品位的企业,做一些有社会责任的事情,做一些引领型的事情,我觉得这特别应该是IBM做的,当然也正在做。二是大数据不是一个片断,也不是会一个技能,而是综合的,从理念层面到技术,到科学,到管理。三是大数据不是一个浅显的东西,也不是能解决所有问题的万能钥匙,它需要深入、需要分析。谢谢大家。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者