京东言犀大模型:数智供应链,为大模型提供“产业基因” 原创

大模型真正实现自己的价值,一定是在产业应用中。

大模型是当下每一个企业的关注焦点,从技术路径看,大模型的技术底座是Transformer,各家都是基于此做大规模预训练,再不断进行调优成为属于自己的模型,这也产生了许多具有行业属性的“行业大模型”,所以大模型真正的挑战并不仅仅是技术竞争,更重要的是如何在行业中实现突破。

这也正是京东瞄准的方向。京东集团CEO许冉曾说,“大模型真正实现自己的价值,一定是在产业应用中。”作为一家新型实体企业,京东选择了与业内通用大模型差异化的路线,把面向产业的京东言犀大模型和言犀AI开发计算平台推至台前,将前沿AI技术与数智供应链相结合,带来真正意义上的产业价值。

如何评判大模型的产业价值?

谈到产业大模型,很多人第一反应是聚焦某个行业做小模型。京东探索研究院院长、科技智能服务与产品部总裁何晓冬表示,其实做产业模型还是需要通用域的数据,它提供了背景常识性的知识。“行业模型并不意味着小模型,也不意味着单独某一个领域的数据,而是通用公域数据加上行业数据一起,构成了产业大模型的训练数据来源。”

京东在多个领域都形成了完整的数智供应链,包括零售、物流、健康、金融、客服、采购、营销等,每年数百亿的智能交互数据,为大模型提供了丰富的“产业基因”。言犀大模型融合了70%通用数据和30%数智供应链原生数据训练。这些数据来源于京东服务的千万自营商品SKU,5000万工业品SKU,超800万家活跃企业客户,以及全国超2000个产业带的真实需求。何晓冬说,“某种意义上,我们相当于既有了“通识教育”,又读了四年专业性的本科教育。”

大模型的价值=算法×算力×数据×产业厚度的平方,这是京东提出的大模型价值评判公式。在算法架构上,言犀大模型采用分布式训练框架(Megatron+DeepSpeed),并通过京东自研向量数据库Vearch为大模型提供长期记忆。Vearch能够支持百亿级向量数据的高性能检索,延时降低到毫秒级。目前,Vearch已经服务超过100家大中型企业用户,将其用于大模型预训练,可以降低80%的推理成本。

对于商用大模型而言,生成内容的准确性至关重要,目前言犀大模型的效果在实体属性抽取准确率达到了96%。早在2020年京东就发现大模型“胡说八道”的问题,并开始自研算法,首创了基于领域知识注入的预训练语言模型K-PLUG,不仅提高了推理速度,还大大降低了模型部署的成本。

在算力上,京东21年构建了全国首个基于DGX SuperPOD架构的超大规模计算集群——天琴α,算力总规模达到135TFLOPS(每秒浮点运算次数),推理提速6.2倍,推理成本节省90%。成为大模型背后强大的算力支撑。

在算法、算力、数据三个指标之上,更关键的是技术在产业场景落地应用,创造实际价值。目前,言犀已经在零售、物流、健康、工业等领域实现落地应用,为超5.8亿用户,数十万商家提供服务。

言犀AI开发计算平台,助力企业大模型落地

大模型的应用方式,通常是通过API接口来调用。但这对于一些传统行业客户来说,还是有一定的技术门槛。何晓冬曾在采访中表示,很多客户唯一关心的就是服务效率,只要能将产品用起来就好。

京东基于言犀大模型解耦出的底层能力,推出了“言犀AI开发计算平台”,平台覆盖数据准备、模型开发、模型训练以及模型部署的AI开发全流程。内含多个行业知识库,包括零售、物流、健康等十余个产业Know-How,可以为平台上的基础大模型,提供丰富的行业应用场景。同时,平台为企业提供了百余种训练和推理优化工具,能让用户把通用模型迅速转化为专业模型。

通过言犀平台,不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程,之前需要10余人的科学家团队工作,现在只需要1-2个算法人员。利用平台模型加速工具优化,推理成本可节约90%。

京东健康发布的京医千询大模型,就是建立在京东言犀通用大模型基础之上,可以快速完成在医疗健康领域各个场景的迁移和学习,从而实现产品和解决方案的全面AI化部署。

当前国内正处于大模型热潮,做大模型的公司层出不穷,但京东给出了明确的产业落地路线图。言犀大模型将以“三步走”路径先进行内部实践再服务产业。现阶段,京东发布了言犀大模型与大模型计算开放平台,今年下半年,将大模型应用于京东内部核心业务并形成最佳实践,针对一些重点场景的标杆客户进行对外服务。2024年上半年,将全面开放大模型能力,向产业输出可用、可控、可信、可负担的定制化模型,缩小数字和技术鸿沟,助力实体经济。

6年前,刘强东吹响“技术、技术、技术”的号角。2017年年底,京东成立了人工智能研究院,开始对AI技术布局。

2020年,基于全栈自研AI技术,京东推出言犀人工智能应用平台,开始把积累的人工智能技术,跟行业合作伙伴进一步打磨、推向各行各业。

2021年,京东在重庆建立了全球首个超算中心,围绕人工智能、量子计算等方向进行科学研究探索。同年,十亿级大模型K-PLUG发布。

2022年,织女模型参数达到百亿级,在全球自然语言处理领域顶级测试中,以总平均分91.3分位居榜首,刷新自然语言理解技术世界纪录。

2023年7月,京东发布千亿级言犀大模型,再次展现了京东对产业服务的深度思考和技术实力。

对于京东而言,技术从未是终点,而是通往更大目标的桥梁。京东发展产业大模型,是为了将产业实践中沉淀的数字化能力,开放出来惠及社会,不断提升产业效率。京东不仅在自身的数智供应链上创造价值,也在与各行各业的合作伙伴共同探索和创新,让大模型成为产业升级的助推器。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2023

09/28

16:08

分享

点赞

邮件订阅