作为智领云联合创始人&CEO,彭锋与人工智能和数据有着不解之缘。当初彭锋读博士的时候,第一门课就是神经网络,第一个课程项目是关于自然语言的问答,当时还是那种基于规则式的知识库回答问题,能力比较有限。后来,彭锋的第一份工作是在搜索引擎Ask.com,其特色功能是回答人们用自然语言提问的问题。

从Ask.com离开后,彭锋去了Twitter,负责大数据平台的建设。“云原生是企业分布式IT架构的必由之路。这点美国的确走在前面,中国在云原生方面的探索也是最近几年的事情。”彭锋说。
基于这样的经历,彭锋回国创建了智领云,专注于云原生DataOps,围绕数据开展业务。不过,当大模型出来之后,彭锋有了新的思考。
从数据流水线到文档流水线
我们知道数据的价值是为了提升企业的运营和管理效率,但是这并不容易实现,比如需要专门的BI系统,包括专业的数据专家才能实现数据管理等工作。
当大模型出现,数据的使用逻辑发生了巨大变化,我们可以通过自然语言直接与数据进行交互。在彭锋看来,大模型是“大脑”或者“CPU”,需要“五官”进行信息的获取。这时,围绕数据的周边生态必不可少。“大模型是执行决策,需要源源不断的数据供给。智领云的角色便是如何让大模型在云原生容器环境下更好地运行。”
在这样的思考下,智领云延伸业务发展,为大模型提供完善的数据处理能力,扩展自身的DataOps布局。因为云原生的标准化、可扩展等特性本身就非常适合大模型。
彭锋解释说,智领云把原来的云原生的Data Pipeline能力扩展,在原来的数据流水线基础上,加上了文档处理流水线。而且智领云利用大模型的能力提升文档流水线以及数据流水线的能力,更好地服务客户。
文档的重要性不言而喻,数据是企业运营情况的实时或者历史的一种结构化展示,而文档是企业内部知识和能力的数字化承载。以前的文档搜索是基于关键字,不能进行语义的搜索,回答不了问题,很难产生很大的价值。在大模型出现之后,我们第一次有机会能成体系地将文档引入企业智能化运行的体系中,真正转化为生产力。
释放文档的生产力
大模型虽然具有强大的知识压缩能力,但是“幻觉”现象不可避免,大模型并不能回答知识的来源,这在企业级应用场景中是不允许的。毕竟对于行业客户而言,大模型需要与企业特有的数据结合。
这时,RAG(Retrieval-Augmented Generation)技术问世,企业可以将相关文档放到上下文里面,大模型就能够根据上下文的文档来回答你的问题,这有点类似企业级的语义搜索引擎。
RAG系统需要一个完整的文档处理流水线来持续转换文档,划分文档为合适的文本块,选择合适的Embedding模型和向量数据库,然后使用Prompt Engineering来构建合理的问题提交给大模型。
以前,企业是通过SQL处理结构化数据来回答用户的问题,而现在借助大模型和RAG,企业可以处理非结构化数据,建立自己的知识库,并可以控制访问权限,避免“幻觉”。
彭锋表示,智领云把数据处理流水线扩展到文档处理流水线,在云原生的环境下,将企业级的文档生成一种知识库,基于知识库能够精准地回答客户的各种问题。“我们现在的场景更多是在企业内部使用,在大模型和文档处理流水线的加持下,企业可以打造基于知识库的智能助手。”
比如在运维或者巡检场景,通过知识库能够告诉相关人员问题的原因和处理方式。以往这种场景,我们是依靠收集专家的经验来建设专家系统,现在通过整理相关文档,也就是数据清洗和治理,实现更高质量的数据“喂养”给私有的大模型。
在这一实现过程中,其实挑战还是挺多的,比如文档按照语义分解成相应的格式,还有文档的更新。智领云利用大模型技术增强了文档流水线,来解决这些问题。
容器中的大模型
众所周知,私有部署大模型非常繁琐,而且经常报错。搭建模型流水线的一个主要挑战是管理和维护各种依赖项的兼容性,包括Python版本、第三方库版本、CUDA版本以及硬件和操作系统的兼容性。这些因素共同构成了一个复杂的环境,经常导致版本冲突和不兼容的情况。
此外,如何将各个组件的配置统一管理起来,不用重复配置,不用手动配置各种端口以避免冲突,动态管理依赖,也是常见需要解决的问题。除了应用运行之外,数据在这些组件之间的流动也需要完善的管理以保证数据的正确性以及数据任务的及时完成。
在彭锋看来,采用云原生的容器环境来部署大模型,可以实现随意切换和随意组合的效果,毕竟容器是标准化环境,保证架构的合理性和这种组合升级或者是管理的方便性。将这些组件以容器的形式实现标准化发布,使用类似于Kubernetes这样的资源调度平台来管理这些组件的运行,可以大大降低大模型流水线的使用门槛,提高大模型应用发布和运行的效率。
“我们应该以云原生,容器化,服务化,标准化的方式建设大模型流水线,允许在不同的私有发布,公有发布的大模型之间随意切换,选择最适合我们应用场景和价格最合适的大模型使用模式。”彭锋最后说。
好文章,需要你的鼓励
据报道,OpenAI正与亚马逊洽谈至少100亿美元的融资。亚马逊此前已是Anthropic的最大投资者,并为其建设了110亿美元的数据中心园区。若融资达成,OpenAI将采用AWS的Trainium系列AI芯片。Trainium3采用三纳米工艺,配备八核心和32MB SRAM内存。AWS可将数千台服务器连接成拥有百万芯片的集群。报道未透露具体估值,但OpenAI最近一次二次出售估值已达5000亿美元。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
各行业企业存储的数据量持续攀升,5PB以上已成常态,10PB以上也日益普遍。2026年非结构化数据管理的主题是全面增长:更多数据、更多投资、更多痛点以及更多AI安全风险。AI应用加速普及、数字化信息激增以及富媒体和传感器数据大幅增加推动了数据增长。随着AI推理应用的发展,企业将意识到非结构化数据管理对AI投资回报率的关键作用。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。