树上落下一颗苹果,触发了牛顿对万有引力的思考。在过去,发明往往是凭直觉或猜测推动的。而今天,人们做决策、创造产品和服务则是依托大量的数据,无论是医疗领域针对不同病人的个性化治疗方案,或是电商和旅游App根据用户喜好制定首页商品推荐,数据已经成为了现代发明和创新的源头。
埃森哲《2023年技术愿景》报告显示,90%的受访高管认为,数据正在成为行业甚至跨行业竞争中非常重要的制胜因素。但作为新型生产要素,企业在实际的数据应用中面临着很多问题,首先就是安全合规性。
近日,亚马逊云科技在北京举办了“安全无忧 释放数据价值”媒体沟通会。亚马逊云科技大中华区产品部总经理陈晓建、深圳市兆珑科技有限公司云安全专家顾问李少奕、华讯网络云智能事业部总经理沈佳伟,围绕数据分析与安全,与媒体进行了分享交流。
围绕四大场景,制定数据安全策略
当下数据隐私与安全的立法日益严格,企业如何在保证安全合规的前提下,充分利用数据资产,提升商业竞争力?
亚马逊云科技结合多年来的洞察,将企业面临的数据安全挑战,总结为四个场景,即数据识别、数据可见、多方协作和数据可操作,并提出相应的创新服务和解决方案,帮助企业挖掘数据价值,实现创新增长。
首先是数据识别,帮助用户识别敏感数据。陈晓建表示,“企业需要人—流程—工具全链路的数据安全合规。亚马逊云科技在工具层面,为用户的业务和计算负载提供最合适的工具产品与解决方案,与合作伙伴一起,为用户提供价值。”
针对敏感数据发现与识别,亚马逊云科技提出了专门的敏感数据保护解决方案(Sensitive Data Protection on Amazon Web Services, SDP)。”这是一种开源的数据安全及数据隐私云原生解决方案,客户可以在自己账号内自主部署使用。
第二是数据可见,让数据在组织内能被安全有效地发现、共享和协作。陈晓建介绍,数据的治理模式,一般分为集中式和联邦式,这两种方式都需要多个角色高效协同,尤其在联邦式管理中,数据放在每个部门自己的数据仓库里,由各部门独立运营,这时“数据可见”更为重要。
基于此,亚马逊云科技去年推出了全新的数据管理服务Amazon DataZone。可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理,确保数据访问发生在正确的权限和情境之下。
第三是多方协作,让多方数据安全地共享和分析。一方面企业需要产业上下游的数据,很多产业上下游企业需要数据的协同共享,但又担心直接提供数据副本,存在数据误用和泄漏的风险。亚马逊云科技推出Amazon Clean Rooms,实现了匹配、分析和协作彼此的数据,而无需移动或者暴露原始数据,从而安全地进行数据分析协作。
另一方面,企业还需要更多的第三方数据,尤其是在生成式AI时代,企业需要开放的数据集来协作创新。Amazon Data Exchange可以极大简化获取第三方数据的过程,目前已经能提供超过3500种第三方数据,涵盖金融、天气、地理空间、健康医疗等众多领域。
最后是数据可操作,也就是底层平台化的服务。在Gartner发布的2022年网络安全重点趋势中,安全供应商的整合位列第四。随着企业业务的不断扩展和深化,企业IT系统日益复杂,所需的安全供应商也越来越多,而在短时间内整合这些供应商的技术和服务,无疑是一项巨大的挑战。
亚马逊云科技通过建立安全数据湖,统一管理和分析来自不同厂商的日志,实现数据的可操作。亚马逊云科技安全数据库Amazon Security Lake,可以自动将来自多云、本地和第三方的安全数据集中到一个专门构建的数据湖中。
与客户及合作伙伴携手构建云上安全合规
深圳市兆珑科技有限公司是一家物联网生态企业,随着设备量和数据量的激增,公司每天要处理的数据量非常庞大。深圳市兆珑科技有限公司云安全专家顾问李少奕表示,之前使用的安全分析平台和第三方SIEM(Security Information and Event Management安全信息与事件管理)解决方案已经无法满足他们的需求。
他说,“亚马逊云科技的基础设施覆盖了超过240个国家和地区,拥有超过140项全球安全合规认证,给我们出海的业务提供了很大的支持,帮助我们满足不同地区的合规要求。此外,我们利用亚马逊云科技的责任共担模型实现了‘合规继承’,更好地保护我们云平台上用户的数据安全,增加用户信任,让他们可以更放心地使用我们的平台。”
华讯网络云智能事业部总经理沈佳伟表示,华讯与亚马逊云科技在用户业务场景的理解上高度一致,基于亚马逊云科技丰富的安全基础服务,华讯可以根据用户的实际业务场景提供定制化的操作、开发和运维的支持。
沈佳伟还介绍了华讯是如何与亚马逊云科技一起帮助企业构建完整的云上数据治理框架。首先,从用户的数据标准和目标出发,包括安全合规咨询、数据流向分析、数据用户调研、数据分类分级和数据目录等,帮助用户建立安全框架。同时还基于亚马逊云科技的安全解决方案和日志通解决方案,为用户提供MSSP(托管安全服务提供商)运维服务和云上数据安全合规咨询服务。所有这些服务都是基于亚马逊云科技的云原生基础服务所构建。
好文章,需要你的鼓励
AI正在彻底改写创业规则:YC最新数据显示,10人团队12个月达成千万美元营收已成常态,"氛围编程"让技术不再是瓶颈,而创始人能否深度理解客户需求成为成败关键。当6人团队就能创造八位数收入时,我们看到的不仅是速度革命,更是对公司本质的重新定义。
这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。
MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。
浙江大学研究团队开发的"自制动力训练"(Self-Braking Tuning,SBT)方法解决了大型语言模型在推理过程中的过度思考问题。该方法不依赖外部干预,而是培养模型自主识别冗余推理并适时终止的能力。研究者通过分析推理效率比率和过度思考标记比率,构建了两种数据策略:SBT-E(精确版)和SBT-D(动态版)。实验结果表明,经过训练的模型在多个数学基准测试上保持原有准确率的同时,将标记消耗减少了30%到60%,显著提高了推理效率。这项创新使AI系统能更像人类一样有效思考,为资源受限环境下的AI部署提供了新解决方案。