日前,星环科技举办了一场别开生面的新产品发布会。星环科技创始人、CEO孙元浩化身星环号舰长,来到星环号空间站,发布了星环科技众多的新产品,包括多模异构的数据处理平台TDH7.0、联邦云TDC 、知识图谱全场景解决方案以及基于边缘计算的云边一体AIoT解决方案、基于人工智能和复杂网络的实时反欺诈解决方案等,涵盖数据生命周期各个关节,包括数据汇聚、分析和处理和应用等,通过这些产品可以大大方便用户构建自己的数据中台,实现企业实现IT架构从“以业务为中心”转变为“以数据为中心”,充分彰显数据价值。
多模异构的数据处理平台
随着IT技术应用得日益广泛和深入,企业积累下越来越多的数据,这些数据分布在各种不同的数据源,为了充分挖掘这些数据中的价值,不少企业建起了数据仓库、数据湖,最近几年随着“中台”的流行,有些企业又开始搭建数据中台。在这个过程中企业面临着诸多挑战,其中一个共同的挑战是:缺乏一个能实现各种数据源的抽取和分析的统一数据处理平台。
一直以来,为了满足不同业务需求,市场上有太多数据库,如传统关系数据库、文档数据库、键值数据库、图数据库等等,有处理结构化数据也有处理非结构化数据的,要把各种数据抽取出来是个不小的挑战,而更为困难的是,各个不同的数据分别由不同的数据引擎来处理,根本无法统一对外交付数据服务,这使得数据处理平台非常复杂。
“我们发现客户对这种架构越来越难容忍,他们希望由一个统一的数据平台库来处理所有的应用需求。这个统一的数据平台要能够支持多种不同的数据模型,能够处理多种格式数据,能够提供统一的编程语言、统一的计算引擎,能够使用统一的存储管理系统,能够使用统一的资源调度系统,这就是现在所说的多模型数据处理平台。”孙元浩在演讲时表示。
星环科技创始人、CEO孙元浩
星环科技推出的TDH7.0正是这样一个多模型异构的数据处理平台,它能提供统一的数据操作/查询语言 SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,能帮助客户利用一个平台来解决多种数据处理需求。
“这是星环科技TDH大数据平台性能的一次革命性跨越。它让用户在面对不同数据模型的数据时,仍像是使用一个数据库一样,使用标准的编程语言来操作所有的数据。”孙元浩说。
这里的统一数据计算引擎尤其值得一提,之前有很多公司实现了用一个标准的数据接口来对接不同的数据模型,但是背后的计算引擎不统一,因此很难把这个不同的接口静态路由到功能数据库上面去,而TDH采用了一个动态的计算引擎来动态地进行接口的调度,进行执行计划的统一管理,从而是实现了横跨多种动作数据模型。
以数据为中心的联邦云
在发布会上发布的另一个重磅产品是联邦云TDC。过往我们也听到过联邦云的说法,不过,与大多数联邦云重点在资源(如各种计算、网络和存储资源等)的联邦不同,星环科技的联邦云重点在数据,是数据资源的汇集、整合和利用。
推出联邦云的背后是当下的企业在数据分析和处理上面临的一些窘境。比如,一些大型客户因为单个数据中心已经无法承载其数据和应用,新建了多个数据中心,它们需要在多个数据中心之间实现数据的互联互通和资源的互相调用。还有一些大型企业上了公有云,但同时也保留了私有云,公有云与私有云也需要进行互联互通。另外,对于走出海外的跨国企业,它们在多国有数据中心,而每个国家有不同的数据保护条例,它们需要有一套框架能够连通在不同国家的各个数据中心,形成统一的一朵云。
孙元浩表示,为了帮助客户应对这些挑战,星环科技推出了联邦云这样一个技术架构。其目的是打造一层公共的PaaS层,来屏蔽底层的IaaS层的细节。
星环科技全栈数据云平台TDC由一个基于容器的数据中心云操作系统和三大PaaS平台服务(Database PaaS、Analytical PaaS和Application PaaS)组成,能帮助企业构建从底层IT基础设施,到数据服务化和应用化的企业级IT基础设施能力平台。
具体而言,星环科技的TDC 在PaaS实现了5种联邦:第一种是云资源的联邦化,即实现IaaS层的计算、存储、网络能够互通。第二种是数据联邦,每一个数据中心都有一个数据资产目录,借此多个数据中心之间能够直接访问对方的数据。第三种是联邦计算,把一个处理需求分散到多个数据中心上面去进行运算,再把结果进行汇总。第四种是联邦学习,实现机器学习任务分发到多个数据中心完成计算。第五种是应用联邦,实现应用程序在多个数据中心之间的平滑迁移。
看起来TDC的这些功能似乎与混合云甚至云有些重合,对此星环科技的技术人员解释说,星环科技的联邦云本质上属于数据层的PaaS云的方案,主要面对的是有多个私有数据中心的企业客户,让它们更好地进行数据的统一存储和利用。简单地说,是以数据为中心,而云是以资源为中心的,两者处在不同层级。
扩大解决方案组合
除了核心产品TDH和TDC的升级之外,星环科技还发布了多个解决方案,其中融入了星环科技在数据分析和处理方面的最新研究成果。
知识图谱全场景解决方案是其中之一,该解决方案包含知识图谱组件SophonKG、图数据库StellarDB、全文检索数据库,以及时空数据库,能实现高性能全场景应用。知识图谱SophonKG2.5具有更全面新特性,如对接时空数据库融入了时间、空间、地理信息数据实现了轨迹查询,新版SophonKG还新增蓝图模版管理,用户可以直接从模版创建图谱。图数据库StellarDB3.0版本除了性能上支持万亿条点边的计算存储之外,还融合深度图计算,包括了超多图检索分析工具,支持10度以上关系钻取。在全文检索数据库Search3.0从底层进行了的自主研发和深度重构,新的Search展现出强大的企业级特性。星环科技的时空数据库也融入很多知识图谱前沿技术。
星环科技另一个重要发布是基于边缘计算的云边一体AIoT解决方案。在AIoT解决方案中,星环科技Sophon Edge边缘计算平台可接入多种设备,包括多媒体设备(如摄像头,拾音器)、传感设备(如RFID,温度/湿度传感器)和控制设备(如云台,传动器)等。汇总这些设备的输入信息后,边缘端提供算力,运行智能模型。通过Sophon的云端-边缘端一体平台,可以在云端将训练好的模型一键推送到指定的远程设备,足不出户就可以完成边缘端模型的更新。
发布会上,星环科技还发布了基于人工智能和复杂网络的实时反欺诈解决方案,该解决方案主要从数据、算法和规则引擎三个维度构建一套针对性强、可有效落地的反欺诈系统。
值得一提的是,上述产品和解决方案都是星环科技自研的。众所周知,星环科技是从开源大数据产品起家,从2013年开始星环科技逐步开始以自研替代开源,经过这几年持续的努力,如今已经实现了绝大部分产品自研,预计明年可以实现全系列产品完全自主研发。
孙元浩表示,近来国家大力推动“新基建”的力度,数据被作为新型生产要素写入文件,要推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护,星环科技的最新发布将为数据的利用和共享提供帮助,助力企业的数字化转型进程。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。