科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道产业观察天云大数据CEO雷涛:大数据产生新的生产力

天云大数据CEO雷涛:大数据产生新的生产力

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

雷涛表示大数据是一个新的工具,它把大量的信息进行汇总进行分析,是工业时代的显微镜和放大镜。大数据具备两块能力,一是平台能力,一是算法能力。大数据的时代才真正开启了对个体的关注,对意识层面的关注。

来源:中云网 2013年4月27日

关键字: 大数据 金融 零售 数据分析

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网软件频道消息:《2013中国数据中心产业发展大会》于4月24日在北京举办,天云大数据CEO雷涛受邀出席此次会议,并做《大数据产生新的生产力》主题演讲。雷涛表示大数据是一个新的工具,它把大量的信息进行汇总进行分析,是工业时代的显微镜和放大镜。大数据具备两块能力,一是平台能力,一是算法能力。他认为大数据的时代才真正开启了对个体的关注,对意识层面的关注。

对于目前全国各地建了许多云基地和数据中心的现状,雷涛认为现在不缺基础设施,缺的是应用的实施和部署。云更多的是一个IT合理化的过程,怎么样去降低成本、优化合理化管理。而大数据更多是业务领导,将会改变业务的新形态,培养一些新的市场需求。

奥巴马与大数据

奥巴马竞选的时候,Facebook做一个实时的评估分析。它收集推特和Facebook以及其他网络上的竞选信息,将每一个观点的评论在数十亿的言论中提炼出并作对比。这就得出了一个很有意思的结论。奥巴马与另一个竞选人的词语不同之处,比如,奥巴马说美国的时候,另外一个人说世界。可以看到在这些词里面,每一个主题的定义非常有针对性,精确地指导奥巴马的思想,也就是陈述观点。雷涛总结说:所以我们可以看到这个大数据并不仅仅是一个数据收集的过程,更多的是数据化处理的过程,比原来的商业分析的价值提升了很多。

大数据与金融

大数据能帮助我们做什么呢?雷涛认为它能帮助我们从大信息量中提炼出有用信息,指导决策。雷涛用金融的一个案例来解释这说法。交易所的股票分析师每天要处理大量的信息,需要花几个小时阅读晨报等内容。而这些可以用机器去处理,做文摘。在生成语言之后,再用机器做一个量化的标准。因为大涨、平仓等都是有情绪指数,从正无穷到负无穷做一个指数,然后根据实际的交易数据做成相关性。通过搜集互联网上海量的舆情信息,分析出大量的信息对真正的交易体是怎么样一个量化的反馈,通过这种情绪分析和多元的数据的摘要来实现一个预测。

大数据与零售

雷涛认为上面的大数据分析方法也可以用在零售业上。比如,用大数据分析用户的微薄账号上的信息,可以知道用户是一个什么标签的人。雷涛分享了天云大数据的员工做的一个心理图谱的个性化描述测试,性格的特点用的是北大光华的模型去做的匹配。从中可以看到该员工的社交圈子,谁跟该员工沟通比较多,踢球的圈子、学校的圈子等。“这对于商业和零售而言是非常有价值的。我们原来不了解每个客户,现在可以通过外部的数据迅速的定位到你本人。“雷涛说。

大数据与品牌

大数据同样可以适用于企业品牌之上,收集网络上对于该品牌的评论,从中可以看出市场及用户对于该品牌的看法。如针对某一品牌做一个对微博上言论数据的汇集,可以看到优惠等等的品牌定位,市场的活跃产品从上市到现在的市场活跃度也可以很快看到。可以看到什么人在美誉,什么人在进行负面的评价。这些都可以进行判断。

“所以我们可以看到大数据是一个新的工具,大数据把大量的信息进行汇总,是工业时代的显微镜和放大镜。我们通过大数据用神经网络、矩阵、分布式平台来重新认知和感知我们外部的世界环境。”雷涛说。

大数据与禽流感

前不久,媒体报道谷歌预测流感的事件。对此,雷涛表示他们的团队也做了一个对禽流感分析的项目。那么,怎么预测禽流感呢?天云大数据的团队先采用人工的方法采集十几个描述禽流感的关键词,通过数据分析,找出它们之间的关联,然后再交给机器。通过机器再采集网络上讨论禽流感的文章及评论,再从中筛选出描述禽流感的关键词及权重。采集完之后,对这些关键词进行追踪,最后形成标签。这些词汇通过区域的分布和时间的分布,形成一个2度空间。例如,他们发现在一个空间里面口罩,医院,流感在一起,鸡饲料,豆粕等词汇在一起。除了能判断禽流感之外,还可以把豆粕的价格和禽流感现象的趋势的热度做了一个研究以后可以看到二者之间明显的负相关性。当这个现象的热度上升了以后,该区域的豆粕的价格是下降的,也就是说它是可以指导期货的。

大数据与骚扰电话

很多人都经常受到各种促销、买车买房等电话短信的骚扰,而传统的方式是只能靠规则去过滤,比如垃圾短信、发票。但是这种行为的描述非常不可靠,因为骚扰人可以用“发piao,发飘”等其他的词去描述。但是在大数据时代,我们可以通过计算来重新思考这些。一个人给一万个人打电话,一万人没有相连接的拓扑关系的话,是很难识别的。通过分析一个人与其他人打电话的关系,就可以有效避免骚扰电话。

大数据的两块能力:平台能力与算法能力

大数据的核心能力可以通过大数据的平台能力与算法能力体现。平台能力主要体现为分布式数据处理的能力。现在社会每天产生的数据量越来越大,海量的数据需要大规模的硬件设施作为支撑。在拥有海量数据之后,分析并了解用户就成为可能。如运营商,在拥有平台之后,就相当于具备了一个流动的分布图。通过基站的部署,可以分析城市的交通状况,发现每一个地方信息风暴的产生及内容,可以回答很多的以前需要去靠抽样和算法回答的一些发生于不发生的内容。

同时它也覆盖很多以前的统计学的核心概念,比如说概率。像一个硬币的正反两面,50:50的概率。但如果知道所有的细节以后概率重要吗?通过将硬币的角度、风速、力道等细节清晰的记录下来,可以决定硬币的面向。雷涛表示:“所以大数据第一个能力是通过数据就绪的大规模处理的能力,使我们的处理数据的方式和思考方式发生一个很大的变化。”

而算法能力,上面诸多的例子已经证明。通过大数据的算法能力,可以看到这个世界并不是整齐划一的,可以放在一个空间里面的描述。也就是说IT的T谈得太多了,I很少去谈。I层面更多的是什么?雷涛表示天云大数据的团队做人与人连接的项目,朋友的朋友是二度空间,当计算这种二度空间到三度空间的计算量的时候,他们发现数据库难以描述出他们的关系,最后靠计算来实现这一描述。这里面有更多的社交信息和自然语言处理的信息,都是要重新考虑向量和矩阵。

在谈及这个话题时,雷涛说:“这是一个新的方式是我们对未知的一个变化的开始的个性化的时代,这让我们开始关注到不是群体的一个方式,而是关注到个体。”


 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章