MongoDB是数据库行业的一道独特风景。2007年公司(当时公司名为10gen)成立,2009年推出MongoDB数据库,经过9年时间的历练硬是从关系型数据库一统天下的江湖中赢得自己的一席之地,令人刮目相看。根据MongoDB首席客户官Richard Kreuter在日前举行的“2020 MongoDB中国线上用户大会”演讲中提供的数据,截止目前,MongoDB拥有超过20200余家客户,遍布100多个国家和地区,MongoDB 核心数据库产品已经有了超过1.25亿次的下载,MongoDB的大学已经有了150多万的注册学生。而这一切与MongoDB始终坚定地和开发者站到了一起,通过不断丰富的功能、更简化的使用方式密不可分,对开发人员的友好使其赢得了开发者的认可。
软件吞噬世界
关于软件的重要性有很多论述。广为传播的“每个公司都应该成为一家软件公司”,这句话很好地说明了软件的重要性。的确,在数字经济日益重要的今天,如果软件能力跟不上,将很大程度上影响企业的创新能力。而软件能力本质上就是企业的软件开发能力,高度依赖于企业足够优秀的软件开发人员。
“所谓软件定义经济,其实也就是开发人员定义经济。我们讲的软件定义经济,事实上是取决于开发人员来定义这个经济。” Richard Kreuter说。
根据Innosight的一份市场调研数据,53%的CXO把开发人员不足作为限制企业增长的重要因素;64%的受访者说历史遗留的系统是他们转型过中最大的障碍;超过3/4的受访者表示为了保证系统正常运转投入了太多资源。
数据处理是软件开发过程中的一项基础工作,数据处理绝大多数都要用到数据库。实际上,绝大多数应用程序的开发都与数据库有关,因此,提升数据库对开发人员的友好性也就至关重要。
“MongoDB正好就是这样一种产品,我们提供了一个更加强大的、更加灵活的数据库,帮助我们的客户进行数字化业务模式的赋能,来帮助他们实现遗留系统的现代化,帮助他们向云端迁移。”Richard Kreuter表示。
大多数应用程序的开发是一个反复迭代的过程,需要随着业务的变化和技术的进步做很多的变更。而传统的关系型数据库要做变更通常是非常的困难,不得已只能从应用程序上着手。另外,当今不少应用程序面对成千上万用户,不允许停机,传统数据库由于不是分布式数据库的架构,很难应对如此海量的数据。
作为数据库行业的新生代代表,MongoDB具有三个突出的优势:第一,采用了灵活的文档数据模型而非严格的表格式;其次,其分布式架构支持在线扩展;第三,内置的复制和快速的自动故障转移机制等。
“我们设计MongoDB数据库的初衷就是帮助开发人员构建的应用程序释放软件和数据的潜能,或者更简单来说让他们在构建现代化应用程序过程当中做得更快、更便捷。” Richard Kreuter说。
MongoDB对开发人员的友好也得到了MongoDB用户的高度认可。在中国银行的全资子公司中银金融科技有限公司,MongoDB为其多个对查询性能要求较高的大数据应用产品提供了支持,包括收支记录、金融账单、年度日历等,支撑了日均1亿+的数据写入,以及平均1W+QPS的ms级延迟的查询服务。类似的,中国一汽大众也看中了MongoDB处理海量数据的能力,用以帮助处理海量的车联网数据。
持续的技术创新,释放数据潜能
在MongoDB诞生之前,数据库市场已经被关系型数据库牢牢把握多年,而MongoDB从2009年发布第一个版本,到今天也只有11年的时间,能有今天的地位,一个重要原因在于MongoDB能持续不断的创新,而且以一个对开发人员非常友好这个出发点来进行创新。
以最新推出的MongoDB 4.4为例,MongoDB 4.4通过提供“联合”“完善的片键”“分离读取”等新功能不断完善MongoDB社区最需要的特性和增强功能,使得开发人员可以在全球范围内扩展应用程序,并可以随需求的变化随时定义和完善数据分布,同时在云中任何地方提供最复杂的低延迟、高弹性和完善安全控制。
Richard Kreuter在接受采访时表示,作为程序员出生的他就尤其喜欢其中的“联合”功能。借助着这一新增功能,可以把多个数据集的数据汇集到一起,从而可以进行更多探索和查询工作。否则都要编码通过应用程序来完成了,也可以减少对数据进行ETL的需求。
另外,随着云计算的普及,云数据库已经大势所趋。MongoDB 先是在2016推出了Atlas(MongoDB的云版本),自推出以来Atlas取得了长足发展,目前已经落户AWS、微软Azure、谷歌GCP,并成为MongoDB的主要收入来源,在营收中占比超过40%。在MongoDB不久前举行的全球技术大会还推出了全新的品牌MongoDB Cloud,进一步扩充了云产品系列,包括Atlas、Atlas Data Lake和Ream。
中国市场是MongoDB的重要市场,拥有全球最高的下载量。MongoDB北亚区副总裁苏玉龙 透露,虽然MongoDB正式进入中国市场才四年,但已经拥有了大量用户。这些用户中不乏电信、金融、保险等高端客户。去年年末,与阿里云达成了战略合作协议,中国企业可以在阿里云上获得最新的MongoDB云服务,进一步拓展MongoDB在中国市场的落地。
展望未来,苏玉龙表示:“中国是世界上最具发展潜力及前景的市场,我们希望能够与中国的用户、合作伙伴一起发挥协同效应、共同成长。”
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。