至顶网软件频道消息: 如果一家技术厂商幸运的话,它可以定义一个时代。如果不幸运的话,一旦其原始面市模式的增长潜力开始减弱的时候,这个时代将继续让该厂商处于劣势。
Cloudera的命运颇有讽刺意味,它曾经在一段时间内声名鹊起。现在人们非常喜欢大数据的云时代,但Cloudera几乎没有利用好这个转折点。与此同时,正如Wikibon最近的市场研究中所提到的,在这个Cloudera与其有着紧密联系--基于Hadoop的大数据分析--的时代中,Cloudera却逐渐变成一个低增长的传统业务。
Cloudera总部位于美国加州帕洛阿尔托,是Hadoop早期商业化的主要供应商之一。在过去几年中,Cloudera的发展已经远远超过了其核心市场,扩大了解决方案的覆盖范围以满足全球企业客户的需求。虽然最近Cloudera表示,计划在未来几个季度以托管平台或者PaaS云产品的方式提供所有解决方案,但目前只是提供这一种方式,那就是管理数据准备服务Cloudera Altus的一个测试版。
即使这种在微软Azure和AWS云中提供托管提取转换加载功能的产品也是迟到的。IBM等厂商早已经在他们自己的公有云中提供了ETL和一系列其他数据集成PaaS产品。
当然,Cloudera有很多竞争优势,例如持续扩张的全球客户群,以及不断提供的新功能、工具和解决方案加速器。事实上,根据Cloudera的财报,最近一个财季Cloudera的收入、毛利率、新客户以及国际业务均高于去年同期。
然而,中小型企业新客户正涌向采用公有云替代品,这可能会让Cloudera迄今为止还比较成功的"领土和扩张"增长战略成为牺牲品。由于AWS、微软Azure、Google Cloud和其他公有云提供商之间的价格站,会让Cloudera的利润率下滑。
但是,我们不要将Hadoop作为Cloudera的核心资产。事实上,Hadoop仍然是大数据文件存储、批处理、非结构化数据优化、可查询归档和其他许多用例的关键。这些是其他更新的大数据分析技术(如Spark、Kafka和TensorFlow)不太适合的场景。
为了应对这些场景和其他核心厂商,Cloudera围绕其市场领先的发行版构建了一个全面的产品组合Cloudera Enterprise Data Hub。作为基于Hadoop的分析、流处理、建模、管理、编目和工作负载管理的单一来源,Cloudera仍然是该领域的一个重要力量。
但仍然感觉Cloudera的路线图中缺少了些什么。金融市场已经注意到这种不确定性,Cloudera的股价大幅下跌。
Cloudera缺少的是强劲的盈利能力和动力。从最近几个季度和全年来看,运营亏损虽然有所减少,但是整体看亏损仍然巨大。除了这些数字之外,Cloudera前景疲软,净亏损持续,订阅收入增长明显减速,经营现金流仍然是负值。
把Cloudera拉出低谷需要做些什么?明智的做法是把发展重点放在开发者社区上,这个社区正在利用大数据构建下一代机器学习、深度学习和其他人工智能应用。
事实上,Cloudera近年来积极进入数据科学工具细分领域,提供了Cloudera Data Science Workbench解决方案,并将其列为增长最快的解决方案领域之一。然而,这种增长可能不会持续下去,除非Cloudera将企业从纯粹手动机器学习开发转向更加自动化的DevOps管道以实现人工智能资产的运营化。在这场比赛中Cloudera也迟到了。
一揽子垂直解决方案是Cloudera维持收入增长的另一种可能性。Cloudera继续建立渠道合作伙伴生态系统来抓住这些机遇。Cloudera已经在网络安全、金融服务、数据保护、医疗保健、基因组学等大数据分析应用领域发挥了重要作用,并且似乎正在蓬勃发展的"物联网"边缘分析领域扩大自己的影响力。但是,Cloudera能否利用这些合作伙伴主导的机会,要受到其直接销售这一传统定位的阻碍。
你看,Cloudera在这个新时代找到其锚点时遇到了麻烦。对Cloudera来说,最好的时代已经过去了吗?
好文章,需要你的鼓励
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。
这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,发现较大模型表现更好,纯强化学习训练优于监督微调加强化学习,且训练数据的类型比数量更重要。这些发现对开发既具推理能力又保持视觉准确性的AI系统具有重要意义。
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特有的语义处理挑战。GATE模型在MTEB基准测试的语义文本相似度任务中表现卓越,比包括OpenAI在内的更大模型高出20-25%,同时保持了多维度(768至64)的高效表现。研究通过详细的错误分析揭示了模型在不同相似度水平上的表现特点,为阿拉伯语NLP领域提供了新的研究方向。