至顶网软件与服务频道消息: 在一个有一定规模的企业中,通常都会存在各种各样的应用系统,它们分别由企业的各个不同部门、在各种不同历史时期、为满足各种不同业务目的而开发。由于数据格式没有统一规范,相互之间没有联通、数据更没有整合,像一个个烟囱,因此称其为“烟囱式应用”。在大数据应用兴起的今天,随着企业对数据价值的高度重视,烟囱式应用带来了数据整合难题,给数据的分析和挖掘带来了不小的困难,已经成为当代不少企业在大数据应用乃至智能化升级路上的一个拦路虎。
有问题总要找到解决办法,诞生于互联网公司的数据中台技术被认为一个有效办法。从阿里几年前首次将“中台”这个概念推到市场,到如今成为行业中的一个热词,“中台”的流行本质上还是用户的真实需求在支撑。中台到底能为企业的大数据利用带来哪些帮助?国外的企业如何解决这类问题?从硅谷回国创业的大数据专家智领云联合创始人、CEO 彭锋对此进行了自己的解读。
彭锋于2016年从硅谷归来,创立了智领云。彼时中国国内大数据热还未褪去,“中台”概念虽然不像今天这么热,但已经被不少企业接受。在美国并没有“中台”这个概念,但“中台”所做的事情,尤其是与数据相关的部分(即数据中台)彭锋是再熟悉不过了。他从业以来一直在做的就是这些工作。
彭锋2000年到美国攻读博士学位,毕业后到了硅谷,先去了当时第四大搜索引擎公司ASK.com,参与分布式操作系统(就是今天的云计算)的开发。为了追赶前面的Google、微软、雅虎,当时的ASK.COM为此项目投入了十几亿美元。这个项目后来被放弃,彭锋转而参与大数据项目,在原来用作搜索的800多台服务器集群上使用Hadoop来进行公司数据的处理,在硅谷是最早一批在生产系统中大规模使用大数据的团队。在当时的硅谷有如此规模的Hadoop集群并不多,彭锋在项目中担任大数据总监,领导了分布在美国硅谷、纽约、中国杭州等多地的研发队伍。2011年,彭锋加入了Twitter,进入了Twitter架构委员会,担任大数据架构师,见证了Twitter服务器规模从数十台扩展到后来的8000台的过程。
在美国硅谷的这段工作经历让彭锋受益匪浅,其中最大的收获是看到了数据的价值,这为彭锋后来的创业确定了方向。
“它们真的是在用数据产生价值,用数据来驱动所有商业的决策、驱动产品的开发。整个公司都是建立在数据的决策基础之上,数据决策非常高效和科学。”彭锋告诉记者。
数据专家智领云联合创始人、CEO 彭锋
彭锋的另一个收获是看到了如何更好地让数据发挥价值。无论是ASK.COM的大数据总监还是Twitter的大数据架构师,彭锋的核心工作内容都是对数据的采集、分析和处理进行规范,以利于数据能力的共享和重用。为了做好这个工作,这些公司都专门建立了一个数据运营管理平台,来确保数据能力的重用和共享,这个平台与我们今天所说数据中台的概念高度吻合。
在彭锋看来,无论是美国硅谷所说的数据运营管理平台还是在中国流行的数据中台,其核心目的是实现公司的数字化运营。“所谓数字化运营就是公司所有的管理、产品、人员和市场,都全部实现数字化。”彭锋表示。
而公司之所以要努力实现数字化运营,是这样能带来两个好处:其一是管理者能够实时了解其运营状况,从而在亏损时能够及时止损,在赚钱时能够尽快做决策,大大加快商业流程。其次,能支持数据驱动的产品,比如个性化的客户服务,就高度依赖数据的分析和挖掘。
而要数字化运营,必须对企业的数据进行全面的梳理和整合,这是一个非常复杂而且长期的工作,其难点之一在于,很多企业(尤其是传统企业)没有建立统一的数据格式和使用规范,而整合往往涉及众多数据源,多种处理框架,面临很大挑战,同时,各种来源不同的数据质量也难以保障,系统中运行的数据应用也缺乏统一的管理。而数据中台的目的就是要解决这类问题,而且是在平台层面系统解决问题,避免各个部门或者每个项目都要重复做这个工作。
“数据中台把数据相关的可复用和共享的能力集中起来,而不需要每个部门都重复做。同时,不同部门在使用这个能力时还不能相互影响,需要新的功能直接在这个平台上扩展。这就避免了今天在不少企业,尤其是传统企业存在的数据孤岛问题。”彭锋表示。
实际上,在硅谷很少听说过“数据孤岛”这个问题,除了公司历史普遍不长,一个重要原因正是在于类似数据运营管理平台广泛存在。
“国内客户普遍缺乏这个数据平台。最常看到的情形是,部门A要做什么大数据的应用,买了一个大数据方案;部门B如果要做一个大数据的应用,由于底层没有一个共享的数据运营管理平台,也会买个端到端的大数据解决方案,这就形成了数据孤岛。”彭锋表示。
智领云所研发的产品正是这个在美国硅谷被称为数据运营管理平台、在中国被称为数据中台的软件系统平台。
彭锋认为,数据中台的本质或者说最重要的功能是实现数据能力的抽象、共享和复用。其中有几个关键问题:
第一,是要去中心化,让每个部门都能够自由地贡献自己的数据能力。那种通过成立一个单独的中台部门,由这个部门来提供数据能力的思路彭锋认为不太可行。
“因为业务部门的业务是不断变化的,他们与数据结合得最紧密,它们来贡献更为实用。而且,硅谷绝大部分公司也的确是让业务部门通过这个数据运营管理平台来提供这种能力的复用的。”彭锋说。
其次,数据中台要解决资源、应用和数据的隔离,让每个部门都可以安心地使用自己的数据,运行自己的数据应用,不用担心数据安全或者影响其它部门的业务。
第三,数据中台要提供方便安全的数据能力共享的机制,例如数据和模型的服务,以API形式对外提供,供全公司用,API一定是基于统一的框架实现的。业务部门可以很方便的将自己的数据能力共享出去,而安全,审计,性能,扩展这些必须的系统功能由平台统一自动处理。
彭锋所领导的智领云正是基于上述考虑来开发自己的数据中台。这个数据平台主要面向大型企业的IT部门或者系统集成商,可以让他们集成到自己的产品中,借此来解决数据孤岛问题,以推动企业真正实现数据驱动。
“产品化程度高,自助、易用、通用,是我们这个产品的最主要特点,我们希望让客户自己就能使用。”彭锋表示,“这是因为,我们认为对数据最了解的还是客户自己,而不是我们。与其我们派专业的数据工程师、数据科学家去跟客户的IT人员、业务人员打交道,我们还不如去把这个工具做好,让他们自己来做数据的相关工作。”
彭锋介绍说,这个数据平台是一个自助式的数据处理工具,基于云计算和容器技术实现,能提供数据采集、开发、共享、存储和管理等相关的功能,典型功能包括数据集成平台、基于容器的通用任务调度、应用、资源和数据的多租户管理;数据和模型的服务、审计、计费(用工具来支持);数据应用全景地图等。
彭锋强调说,这个平台一定要基于云计算和容器技术来实现,这是为了实现资源和用户的隔离以及充分利用云计算的弹性来更灵活地支持用户需求。另外,在这个数据平台的研发过程中,他们力求通用性,主要集中在数据科技的核心功能开发上。
当然,产品集中在通用的数据功能上,不涉及具体业务,这并不意味着不用关心客户业务。实际上,为了让客户用户这个产品,必须研究客户行业的典型应用场景,做出模板。此外,彭锋还决定开发一些具有行业共性的组件,例如形成行业知识图谱、规则库,这对产品的落地和未来发展有着重要意义,这些都是彭锋正在勾勒的公司未来发展蓝图的一部分。
“数据中台本质上是方法论,是互联网公司在数据管理方面的一些经验的总结,实践证明了其价值。我们希望借助我们的平台让这个方法论在客户中落地,助力客户成为数据驱动企业,让数据价值得到充分释放。”彭锋表示。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。