2024年10月9日,可信的数据、分析和AI混合平台厂商肯睿Cloudera今天发布了由NVIDIA NIM微服务驱动的肯睿Cloudera AI推理服务,该服务同时成为NVIDIA AI Enterprise平台的一部分。作为业界首批提供嵌入式 NIM微服务功能的AI推理服务之一,肯睿Cloudera AI推理服务以独特方式简化了大规模AI模型的部署与管理,使企业能够发挥出其数据的真正潜力,将生成式AI从试点阶段推进到全面生产阶段。
根据德勤最新数据显示,企业采用生成式AI的最大障碍是合规风险和治理问题。尽管如此,生成式AI仍在快速普及,今年第三季度有超过三分之二的企业增加了生成式AI预算。为了缓解上述问题,无论在本地,还是在公有云中,企业都必须转向私有AI模型和应用。为此,企业需要安全、可扩展的解决方案来避免复杂的自行解决方法。
肯睿Cloudera AI推理服务通过在企业控制范围内提供安全开发与部署,防止敏感数据泄露到云服务商托管的非私有AI模型服务中。这项NVIDIA技术驱动的服务帮助企业快速构建实现可信AI所需的可信数据,支持企业高效开发AI驱动的聊天机器人、虚拟助手和代理应用,从而提升生产力并实现业务增长。
肯睿Cloudera在与NVIDIA合作后不久就推出了肯睿Cloudera AI推理服务,进一步强调了肯睿Cloudera的承诺,即在各行各业应对数字化转型与AI集成复杂性的关键时刻,不断推动企业AI创新。
开发者可以使用NVIDIA Tensor Core GPU构建、定制和部署企业级大语言模型(LLM) ,其性能最高可提升36倍,吞吐量是使用CPU时的近4倍。用户界面(UI)和API可与NVIDIA NIM微服务容器直接集成,不再需要使用命令行界面(CLI)和单独的监控系统,为用户带来了无缝衔接体验。该服务与肯睿Cloudera AI模型注册表集成后,还可通过管理模型端点和操作的访问控制改善安全性和治理。用户能够在一个统一平台上通过一项服务无缝管理所有模型,无论是LLM部署,还是传统模型都不例外。
肯睿Cloudera AI推理服务的其他主要功能包括:
· 高级AI功能:利用NVIDIA NIM微服务优化开源LLM(包括LLama和Mistral),推动自然语言处理(NLP)、计算机视觉和其他AI领域的前沿技术发展。
· 混合云与隐私:在本地或云中运行工作负载,通过VPC部署增强安全性与合规性。
· 可扩展性与监控:依靠自动扩展、高可用性(HA)和实时性能追踪检测和纠正问题,实现高效资源管理。
· 开放式 API与CI/CD集成:使用符合标准的API进行模型部署、管理和监控,以便与 CI/CD流水线和MLOps工作流程无缝集成。
· 企业安全功能:通过服务帐户、访问控制、数据沿袭和审计功能执行模型访问。
· 风险管理部署:通过A/B测试和“金丝雀推广”(canary rollout)以控制模型更新。
行业分析师Sanjeev Mohan表示:“企业正对投资生成式AI热情高涨,但这不仅需要可扩展的数据,还需要安全、合规且管理良好的数据。将私有AI大规模投入生产带来了DIY方法难以解决的复杂性。肯睿Cloudera AI推理服务通过将先进的数据管理与NVIDIA的AI专业技术相结合弥补了这一差距,在保护数据的同时发挥数据潜能。凭借服务帐户、访问控制、审计等企业级安全功能,企业可以放心地保护自己的数据,并在本地或云中运行工作负载。以其所需的灵活性和治理方式高效部署AI模型。”
肯睿Cloudera首席产品官Dipto Chakravarty表示:“我们十分高兴能与NVIDIA携手推出肯睿Cloudera AI推理服务,为客户提供一个支持几乎所有模型和用例的一站式AI/ML平台。如此一来,企业既可以使用我们的软件创建强大的AI应用,也可以在肯睿Cloudera平台中运行性能卓越的AI应用。通过集成NVIDIA AI,肯睿Cloudera能够以先进的性能促进决策的智能化,使用可信数据大规模构建可信的AI应用,从而支持客户不断创新。”
NVIDIA AI软件、模型和服务副总裁Kari Briski表示: “当今企业需要将生成式AI与其现有的数据基础设施无缝集成,从而提升业务成果。通过将NVIDIA NIM微服务整合到肯睿Cloudera AI 推理服务平台中,我们支持开发者能够轻松创建可信的生成式AI应用,同时形成一个自我维持的AI数据飞轮。”
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。