2018年7月10日-12日,2018中国大数据应用大会在成都召开,大会以"大数据赋能数字中国"为主题。由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团有限公司中国电子学会、四川省经济和信息化委员会主办,世界工程组织联合会工程技术创新委员会(WFEO-CEIT)、成都市经济和信息化委员会、成都市博览局全力支持,中国电子器材有限公司、中国电子学会科技交流中心承办,业内知名媒体至顶网与科技行者协办。
在第二天的活动上,天云融创数据科技(北京)有限公司【简称天云大数据】首席执行官雷涛发表了题为《DT时代中的人工智能》的主题演讲。
天云融创数据科技(北京)有限公司首席执行官雷涛
以下是雷涛演讲实录:(内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载)
今天跟大家分享一下人工智能在DT时代落地路径的主题,希望我的演讲能给大家一些启发。
其实AI和DT这两个内容会有渗透,最早期做DT的时候,2011年,我们看中国移动的一个项目要用到自然语言去规模化的服务1.2亿用户,它是数据科学加上数据处理的一个综合体系的系统工程,像现在很主流的一些平台出现是因为ANP的概念出来。P更多讲是商业的数据产品,定价、流通,商业事件。
我们今天看人工智能,ABC又把大数据作为第二个B,又反过来包容,所以现在人工智能这个领域,大家看的视野差异非常大。媒体看的是阿尔法狗,我们现在看到的是大数据应用端,就是人脸识别、自然语言处理,通过人机交互的处理达到很多漂亮的路径,很多漂亮的应用。我们看到投资的项目都是在神经网络在看什么,在推理什么东西,固化在应用端,大量基于视觉的项目越来越多。
AI帮助我们改变了很多,像端到端的AI服务,比如说打车的服务,它每天要完成上百万次的路径计划,它已经渗透在我们的生活和行业当中了。
今天想跟大家分享的一个主题,这个概念非常多,我们在经历一个大机构的转型,从一个大的IT到DT的变化。从数据、信息、知识到智慧,它是一个逐级上升的过程,现在我们如何处理一个低级的内容呢?原来我们更多的IT是服务于业务人员,业务定义的一个具体流程之后,所有的规则都是清晰明确的。我参与的15年以数据库为导向,以这样的技术堆栈完成我们对AI的构建。原来机器的角色是机器执行我们的指令,现在它可以达到我们模糊的一个技术边界指令,我们在DT里边处理的数据越来越LOW了,这样DT的信号和数据,我们用几个大量的V去描述它,就需要不同的T,早期是以结构化为主含金量很高的体系,在T这个方面就是ABC了,这个T改变的是我们整个行业无论是技术内部的迭代,还是它所服务的内容。
数据本身也发生了很大的变化,我列了三个定义,第一个就是交易性的数据,这些数据是银行里边核心的帐务系统,或者是某一个医院的挂号系统,这些数据资源存储在一个昂贵的阵列里,这个是由应用产生的数据,由信息化系统产生的数据,它无疑诞生了六千亿美金的大公司,主导了我们整个希望信息化产业内部的三座大山;第二个数据是我们行为交往过程当中产生的数据,这部分的数据更多的是我们在分享、创建,通过微博、微信、网页等产生的行为数据,这些行为数据的沉淀,数据几十倍于我前面所说的数据,我们增量的数据要处理1700多条,传统的数据处理方式是处理不了的,那么这部分的数据就进入到大数据;我们看到传感器、可穿戴的手环,物联网大量的设备,这部分的设备更是几个数量级比以前更多的数量,个别的独角兽企业也在每一个局部领域、每一个垂直的行业里边开始发力,大公司我们相信应该是出现在MI这个领域,更多是以传感器和物联网为出发大规模的数据资源。
最根本的问题还是在商业模式,我们更多讲的还是在技术迭代的过程中,在DT使用的时候,人工智能它在三个层级发生作用。第一个在BI优化流程,通过一个算法的分类也好,聚类也好建模也好,把更好的信息流得到更好的优化,我们做一个专家的系统,每一个专家系统都是一个决策数上的数点,今天我们开始应用一类新的方法,把原有的流程给覆盖掉,比如说我们在信用卡里头用一些算法,原来的决策数种一万颗树,这是对已有流程的优化;AI不仅仅是对已有流程的优化,更多的是两个,一部分是我怎么延展我的服务,把供应链的下游和消费者的上游两个能够通过人工智能的手段连接回来,形成一个数据的闭环,这也是我们现在在AI里边看到的常见的体量的内容;第三个是最激动人心的阶段,是对商业流程的完全替代,就是原来基于大量的商业经验被AI扁平化了,我要买一个东西,我们要通过货架才能找到,它都是有精确的摆放位置,以前都是规则摆放的,一个算法会改变我们所有的商业流程,商业流程被重构,这个是AI带来的改变。很多都是由算法来改变,而不是听业务来做业务指导。
一个航班的信息优化,我们是用不同的算法来完成是做预测,航班会不会晚点,还是说我要调度一下摆渡车,这是一个动态规划的问题,你会发现算法开始决定了很多商业体量,而且很多算法是很精巧的,把我们没法定义的特征用数学来表达。这也是阿尔法狗在做的事儿。管道泄露,我们把两个口的两个差做出来,然后做一个压力差就可以了,现实当中不是有很多个头,所以你要做很多的管道内容才能真正做出来。真正的问题是没有那么多的图纸,多数的管道都只有一个图表,没有CAD的图纸你怎么做,当人类做的工作都没有办法做出来的时候,你做一个基于概率统计的算法是可以找出方法的,当然这个要放在深度学习的框架里边去做。
一个算法决定了商业时代的发展。面向这种AI服务的时候,在DT里边我们看到了需要大量的AI能力来替代商业流程和规则,任何人都开始需要访问AI了,但是AI是不是少数人的专利。每一个新技术的出现,其实都经历一个漫长的过程,第一部的手机出现,到今天的普及,它经历了一个很长的周期,第一个算法的出现,1994年银码用谷歌的计算分子,打败了IBM40年,基于人类的语言学家,你我他这样的主谓宾的体系,用循环嵌套的方法,但是这个方没有被大量的应用在行业里头。
目前行业面临人才的稀缺的窘境,德勤有一个报告,AI的毕业生98%被谷歌、苹果等公司接收,毕业生起薪都是30万美金,AI在人才上面是非常短缺的,而培养一个人也是需要很长的时间,有人说需要花数年的时间来培养一个博士。以前我们做一个大规模的语言项目处理的时候,第一期没有用现在的新技术,NOP的方法。博士交给你的项目,所有的照会率都很完整的时候,连回收都不能做那就是逻辑包。一部分是云计算代表的核心技术人员、工程人员,还有一类是数学、物理、控制的PHD,怎么把这两类人才,两类能力做有效的融合,其实在整个市场去扩展AI的时候都碰到了一个高昂的成本问题。像BAT能够赋能与程序员一样,我们能不能给AI也做一个蓝翔技校把这些功能赋能。
从2015年开始有大量的公司投入这个领域里头,这个图是原来Facebook的负责人,后来他去了另外一个公司,在整个AI的工程里头它是一个系统性的工程,从数据的获取到探查,特种工程这是是一个很大的工作,然后到后面的评估,上线这是一个整个的体系,这个在整个AI里边最重要的是调参。现在的AI体系的内容只是完成了一小部分,所以我们的观点是像移动互联网一样,我们需要一个新的平台机制,谷歌在2016年底的时候定义了,他们的CEO讲,我们谷歌要从移动有限转向AI有限。
我们把主流的九大类算法用新的分布式体系重构一遍。三年之前大家的关注度并不多,今年上半年英特尔这些巨头也开始推,整个算法库包让大家重新意识到CPU来跑算法很明显,尤其是结构化数据的深度学习,在金融里头一个简单的全子网络,它的效果远远要超过其它的内容。
第一个我们怎么通过算例来提供一个算法的支撑,第二个就是数据资源的全量再现,数据我们在不断的挖掘。我们做了一个项目,现在基于微信的营销流数据的形态越来越及时化,这些数据不可能一个星期后再做处理。我们对于一个服务行业而言,催收的数据有一百万级别,被催收的数据其实就是违约数据,银行的坏客户已经被标注出来,我们把它回到审批端,做审批端优化的,这样学历背景的人是不是可以做贷款或者是发信用卡。那么这个也是要做训练,每天有一百万条的训练记录。这是一个在线反欺诈,原来申请的人写的内容用大量的规则来描述,它是不是一个欺诈用户,现在犯罪分子到农工去招工,拿了一些钱去收集一些身份证号办一个卡。我们把大量的特征值,每天上百个件彼此的关联性,寻找网络特征,再输入到端里边,然后来识别是不是欺诈行为。
汤森路透是一个金融财经的服务商,他每年要读几十万份公告,然后把一级市场的金额波动分析出来,怎么重组,什么时候增发,怎么做可转债,这个以前是靠人去做解读的,后来我们做分析器给它出了一个的解决方案。
心血管疾病的案例,这些案例有些是我们直接参与的,有一些是我们的赋能平台,就像APP商店和IP的关系,通过平台的赋能,让他们在AI的平台上(不用写代码的情况下)来完成深度学习这样一个复杂的操作。
所以今天我主要表达的一个观点就是通过一个AI的赋能工具化平台,将AI最初走到现在,来获取机器智能像读书一样简单。谢谢!
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面