2018年7月10日-12日,2018中国大数据应用大会在成都召开,大会以"大数据赋能数字中国"为主题,由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团有限公司中国电子学会、四川省经济和信息化委员会主办,世界工程组织联合会工程技术创新委员会(WFEO-CEIT)、成都市经济和信息化委员会、成都市博览局全力支持,中国电子器材有限公司、中国电子学会科技交流中心承办,业内知名媒体至顶网与科技行者协办。
在会上,京东基础架构部副总裁刘海锋发表了题为《海量商品的数据智能》的主题演讲,他表示,京东本质上是一家大数据企业,其中,商品数据是它的基石,是所有产品技术的核心。而商品数据由于它自身的独特性,在对其进行管理的过程中也面临着一些挑战。
对此,刘海锋介绍了京东如何通过最新的技术实现商品大数据的存储、计算,以及知识图谱的构建和智能化服务的优化。
以下为演讲实录(内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载):
大家上午好!今天我想跟大家分享一下京东作为一家电商企业,对于大规模海量商品数据的管理以及在智能化方面的工作。
海量商品数据的存储和计算
事实上,京东不是零售公司也不是物流公司,它应该是一家大数据企业。在高速发展的几年里,京东积累了海量的数据,因为商品数据是它的基石,是所有产品技术的核心。而商品数据由于它自身的独特性,在对其进行管理的过程中也面临着一些挑战。首先,商品数据是多模态的,包含非结构化的图片以及结构化的文本等等。其次,商品数据还是一个平台数据加上用户生成数据合成的模型,这就构成了对商品数据分析独特技术的挑战。
随着公司业务的发展,在过去五年间,京东的商品规模增加了几十倍,今天已经有百亿级的商品规模。从中,我们看到,成单量和GMV有着基本的线型关系。同时,我们在未来还会继续扩充品类,持续增加平台上的数据量。
那么,海量的商品数据如何存储?对于一家管理粗矿的企业来说,可能一台数据处理器就可以解决。但对于百亿的商品数据,我们需要一个统一的平台来管理。具体来说,京东采用的是“分而治之”的方式,通过四个系统来满足商品数据的存储,从而构成海量商品的管理架构。与此同时,我们用的是分布式的数据库对商品化的数据进行存储。商品数据本身存在着冷热不均的情况,并且它还不是静止的,是流动的,对此,通过平台我们还实现了对数据走线的观测。
其中,对于京东来说,最核心的一个载体就是图片。对此,我们使用的是JFS系统进行处理。它是京东在2013年自主研发的系统,主要是为了满足自身图片存储的需求。经过五年的迭代,我们计划在今年下半年基于它做一个开源社区,所有商品图片的存储都经过上传服务,从各个地方传输到多个数据中心,至少存在两个中心、三台不同的磁盘上。同时外围还有不同的图象处理服务,在内容分发网络上做边缘的加速,最后解决体验的问题。
商品的结构化经过多级类目进行分类,再在类目中创建一个表,完成梳理。对此,我们还建立了弹性数据库,不仅可以兼容数个表,还可以对大表进行透明的扩展分片,然后同时做无缝迁移,使得应用开发者不再需要关心商品数据的扩展。在这个过程中,我们把热数据缓存在大的服务当中,比如大家看到在京东所有的内容都是用内存的方式去存储的,包括广告的文本内容、推送服务等等。
如上面所说,数据在整个数据中心是动态流动的,因此,我们需要把握数据的走向来完成可靠的数据传输。举个例子,通过对数据做实时的索引,我们发现,商品价格的变化可能会引发广告策略的调整。在这方面,京东采用的是自主研发的GMP技术。因为把商品数据存储的问题解决了之后,就要对商品数据进行处理,这就需要多种框架和大量处理方法,需要有一个方法来计算多种管理。
除此之外,针对资源智能化调度,我们还构建了一个大规模生态集群,并在今年年初加入了CRF平台。在架构层面,京东采用的是异地多活。我们在北京有三个IDC,此外在广东和江苏还各有一个,形成了三地五中心的布局。目前,我们已经能够进行透明的数据同步,让上层的应用产品开发部了解更多底层存储的细节。
商品数据智能化
在商品数据的存储和计算基础设施构建之后,近两年来,京东主要的工作就是做数据的智能化。接下来分两个方面给大家做一下介绍,一是图片的智能,二是文本的智能。
首先,我们用AI去重塑商品系统。大家可以看到,过去京东图片数据的增长量,如今已经达到千亿级规模,这样快速的数据扩张会使得整个IDC的流量成倍增加,进而增加IT成本。因此,我们必须要对图片做智能压缩从而降低运营成本,提升用户的体验。对此,京东推出了YOP技术,它可以把所有的图片大小降低30%。同时,在今年年初,我们还推出了DBT的全新技术,它可以在YOP的基础上将图片缩小将近50%,不仅减少带宽,还可以提升终端用户加载。特别是对于商品自身的特性,在这个过程当中,我们还通过优化压缩了三倍。
在图片方面的第二个重要应用就是图片的合成。大家知道,对于任何一家电商来说,在很多活动或广告推广之前都是由UED先进行编辑的。但是,从去年下半年开始我们做了一个工作,实现了1%的图片都由机器进行合成。这个工作分成三个部分:一是对商家的原图做智能扣图,二是学习UED的智能排版,三是系统功能的优化工作,把扣图以及美学排版进行高质量合成。当前,我们机器合成的图片数量大概占了商品总数的1%,预计两年之后这个比例可能会达到15%到20%,也就是说常见的活动商品图都会由机器来做。
在这样一个流程中,很多设计师的排版经验是可以学习的。现在由机器和算法来进行一些简单商品详情页的排版、自动合成,不仅减少了很多人工同时也可以大大提高效率。当然,现在这个工作还在进行当中,还需要一些时间去落地。除此之外,图片的智能化还包括相似图片的搜索。结合智能排版技术对图片的翻译做自动化,借助全球化战略,京东希望能够最终实现快速的全球化商品推送。
第二部分是商品文本数据的智能化,其中最重要的是个性化广告和搜索。这两年,我们做的一个基础服务是商品知识图谱,即对包括工业数据和用户生成数据等在内的商品基础数据做进一步的挖掘和抽象。通过对商品工业数据做属性判断,做类目的进一步抽取,对用户评价做情感和关键词的挖掘,从而形成一个中间的知识服务,或者说图片数据。在此基础上,向上赋能更多智能应用,包括搜索和个性化索引等等。
举两个例子:一是核心产品词的识别,这是一个经典的命名识别问题,在商品词里边有一个独特的挑战,就是因为这个词是商家自己录入的,如何找到核心商品的真实标题,这目前在学术界都没有很好的解决方案。为此,我们通过对规则、知识库进行建模来解决。
再比如评论关键词的抽取,因为这是用户收录的,口语话非常严重。因此,如果我们要把这个口语话设置为一个高质量标签,需要有很好的方法才能构建商品评价的语意知识库。基于商品图谱,除了广告、搜索之外,我们还建立了智能客服机器人。这个是成都的一个研发团队来做的,基于商品图谱去做优化和赋能。
另外一个智能应用就是写作机器人。刚刚谈到了,图片可以由机器合成,而一些商品的导购语和活动短文也可以由机器去合成。它基于知识图谱的一些标签和推理检索能力,加上机器深度学习的语言生成,从而节省人工创造的成本。
总结来说,在商品大数据领域,我们主要做的几个工作首先就是存储,其次是计算,以此为基石向上再去构建知识图谱,以进一步优化智能化的服务。当然,和其他行业相比,这个领域自身存在着很多不一样的挑战,虽然目前我们取得了一些进展,但还有很多的工作都在开展过程当中,希望接下来能够得到在座的专家和同行们更多的建议和指导。
谢谢!
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。