当容器遇到大模型智领云扩展数据流水线释放文档的生产力原创

作者：李祥敬

基于这样的经历，彭锋回国创建了智领云，专注于云原生DataOps，围绕数据开展业务。不过，当大模型出来之后，彭锋有了新的思考。

作为智领云联合创始人&CEO，彭锋与人工智能和数据有着不解之缘。当初彭锋读博士的时候，第一门课就是神经网络，第一个课程项目是关于自然语言的问答，当时还是那种基于规则式的知识库回答问题，能力比较有限。后来，彭锋的第一份工作是在搜索引擎Ask.com，其特色功能是回答人们用自然语言提问的问题。

当容器遇到大模型智领云扩展数据流水线释放文档的生产力

从Ask.com离开后，彭锋去了Twitter，负责大数据平台的建设。“云原生是企业分布式IT架构的必由之路。这点美国的确走在前面，中国在云原生方面的探索也是最近几年的事情。”彭锋说。

基于这样的经历，彭锋回国创建了智领云，专注于云原生DataOps，围绕数据开展业务。不过，当大模型出来之后，彭锋有了新的思考。

从数据流水线到文档流水线

我们知道数据的价值是为了提升企业的运营和管理效率，但是这并不容易实现，比如需要专门的BI系统，包括专业的数据专家才能实现数据管理等工作。

当大模型出现，数据的使用逻辑发生了巨大变化，我们可以通过自然语言直接与数据进行交互。在彭锋看来，大模型是“大脑”或者“CPU”，需要“五官”进行信息的获取。这时，围绕数据的周边生态必不可少。“大模型是执行决策，需要源源不断的数据供给。智领云的角色便是如何让大模型在云原生容器环境下更好地运行。”

在这样的思考下，智领云延伸业务发展，为大模型提供完善的数据处理能力，扩展自身的DataOps布局。因为云原生的标准化、可扩展等特性本身就非常适合大模型。

彭锋解释说，智领云把原来的云原生的Data Pipeline能力扩展，在原来的数据流水线基础上，加上了文档处理流水线。而且智领云利用大模型的能力提升文档流水线以及数据流水线的能力，更好地服务客户。

文档的重要性不言而喻，数据是企业运营情况的实时或者历史的一种结构化展示，而文档是企业内部知识和能力的数字化承载。以前的文档搜索是基于关键字，不能进行语义的搜索，回答不了问题，很难产生很大的价值。在大模型出现之后，我们第一次有机会能成体系地将文档引入企业智能化运行的体系中，真正转化为生产力。

释放文档的生产力

大模型虽然具有强大的知识压缩能力，但是“幻觉”现象不可避免，大模型并不能回答知识的来源，这在企业级应用场景中是不允许的。毕竟对于行业客户而言，大模型需要与企业特有的数据结合。

这时，RAG（Retrieval-Augmented Generation）技术问世，企业可以将相关文档放到上下文里面，大模型就能够根据上下文的文档来回答你的问题，这有点类似企业级的语义搜索引擎。

RAG系统需要一个完整的文档处理流水线来持续转换文档，划分文档为合适的文本块，选择合适的Embedding模型和向量数据库，然后使用Prompt Engineering来构建合理的问题提交给大模型。

以前，企业是通过SQL处理结构化数据来回答用户的问题，而现在借助大模型和RAG，企业可以处理非结构化数据，建立自己的知识库，并可以控制访问权限，避免“幻觉”。

彭锋表示，智领云把数据处理流水线扩展到文档处理流水线，在云原生的环境下，将企业级的文档生成一种知识库，基于知识库能够精准地回答客户的各种问题。“我们现在的场景更多是在企业内部使用，在大模型和文档处理流水线的加持下，企业可以打造基于知识库的智能助手。”

比如在运维或者巡检场景，通过知识库能够告诉相关人员问题的原因和处理方式。以往这种场景，我们是依靠收集专家的经验来建设专家系统，现在通过整理相关文档，也就是数据清洗和治理，实现更高质量的数据“喂养”给私有的大模型。

在这一实现过程中，其实挑战还是挺多的，比如文档按照语义分解成相应的格式，还有文档的更新。智领云利用大模型技术增强了文档流水线，来解决这些问题。

容器中的大模型

众所周知，私有部署大模型非常繁琐，而且经常报错。搭建模型流水线的一个主要挑战是管理和维护各种依赖项的兼容性，包括Python版本、第三方库版本、CUDA版本以及硬件和操作系统的兼容性。这些因素共同构成了一个复杂的环境，经常导致版本冲突和不兼容的情况。

此外，如何将各个组件的配置统一管理起来，不用重复配置，不用手动配置各种端口以避免冲突，动态管理依赖，也是常见需要解决的问题。除了应用运行之外，数据在这些组件之间的流动也需要完善的管理以保证数据的正确性以及数据任务的及时完成。

在彭锋看来，采用云原生的容器环境来部署大模型，可以实现随意切换和随意组合的效果，毕竟容器是标准化环境，保证架构的合理性和这种组合升级或者是管理的方便性。将这些组件以容器的形式实现标准化发布，使用类似于Kubernetes这样的资源调度平台来管理这些组件的运行，可以大大降低大模型流水线的使用门槛，提高大模型应用发布和运行的效率。

“我们应该以云原生，容器化，服务化，标准化的方式建设大模型流水线，允许在不同的私有发布，公有发布的大模型之间随意切换，选择最适合我们应用场景和价格最合适的大模型使用模式。”彭锋最后说。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

当容器遇到大模型 智领云扩展数据流水线释放文档的生产力 原创

来源：至顶网软件与服务频道

2024

05/27

10:57

分享

点赞

零门槛?高产出！联想百应智能体携手通义万相2.6，助力企业AI营销破局增长

OpenAI或从亚马逊获得超100亿美元融资

2026年非结构化数据管理五大预测

Amazon重组AI部门：27年老将统领AGI组织

安全专家给出的8条AI聊天机器人使用安全建议

普渡大学将AI能力列为本科毕业必备要求

浩云长盛的算力工具箱：让兼容与前瞻同行

英特尔酷睿Ultra第三代，如何推动AI PC规模化落地？

Google发布Gemini 3 Flash并将其设为默认模型

思科自研AI模型正式应用于产品，首先赋能身份安全服务

超大规模云厂商在2025年是解决了电力问题还是重新思考了问题？

英伟达成为唯一能免费提供AI模型的厂商

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

蚂蚁数科提出创新跨域微调框架ScaleOT入选全球AI顶会AAAI 2025

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

当容器遇到大模型智领云扩展数据流水线释放文档的生产力原创