“让数据多跑路,群众少跑腿。”正是现在国家实现数字政府建设,通过行业云提高政务服务水平,提升人民群众体验度和满意度所倡导的理念。而让数据“跑”起来的前提,就要利用云计算的技术优势实现各行各业的数据大集中、大整合。在这样的数据大集中、大整合过程中,面临各种挑战,其中数据安全挑战尤为重要。
传统意义上,信息化系统更多的是在数据生成并使用之后,就步入了漫长的存储期,基本很少再去进行调用,这就是数据流动之前大多数政企行业中普遍存在的问题。
数字化时代的业务应用则完全不同。在新华三集团总裁、技术战略部总裁刘新民看来,业务数据会在不同的行业云系统间流动,被不同机构、不同行业进行调用。例如网上购物的互联网数据,有可能会被智慧城市应用、会被政务系统使用,跨行业、跨领域的数据流动需求已经越来越强烈。这时候就需要满足数据通过多种形式进行传输的实际应用需求。从原来纯粹的数据计算产生到存储,转变成实现跨越系统、跨越行业,跨越不同机构“算”、“存”、“传”、“用”。从数据采集、存储、传输、交互、应用的全生命周期上综合考量,实现不同环节、产品、协议栈的全面连通。
但在这个过程中还涉及很多问题,有个人隐私问题、个人信息安全问题,还有不同数据的分类问题,以及数据泄露威胁和数据的攻击问题等等。这些问题的产生,使得企业内部要加强数据安全的建设,然后数据向外流动、数据交互之间也要对数据进行安全保护。
“数据的确权、确认,数据使用过程中的合法合规,在当今社会是一个非常严重的问题。因为它会造成财产的损失,还会造成社会化的问题,甚至影响到国家安全,所以在这样的条件下自然就产生了对数据合规安全使用的要求。”刘新民说。
其实从古到今我们都在生产很多的数据,但是数据的重要的意义也是在进入网络时代以后才会获得了如此重要的意义,成为生产要素。中国社会科学院大学副校长林维认为,这也是当前国家加强对数据法律建设主要原因。
当前我国已经形成了一个相对较完备数据安全、数据保护法律体系。比如《民法典》中对数据进行了有关的定义和规定,《刑法》也从不同的角度对数据的安全进行了特别的保护。
在《网络安全法》、《个人信息保护法》和《数据安全法》,这几个不同法律中,尤其是《数据安全法》,对有关数据的定义、数据的分类,数据从产生到储存到整个全流程过程当中所涉及的不同法律主体,所具备的法律责任,乃至对数据安全产生各种的事故、事件以后,所相应承担的有关的法律责任都做了规定。
目前从法律层面、行政法规层面、地方性法规层面,实际上形成了一个相对较为完备的、多元共治、相对成体系的数据安全规定。同时林维也看到还有很多新的问题,包括数据的确定的问题,重要数据、敏感数据等等,政务数据、数据跨境流动等,这些问题其实还需要未来陆续去做一些新的规定,应对数据行业当中所产生的大量法律挑战。
现阶段,信息化安全建设正处在相对有利的时期,尤其是政府相关法律、法规出台后,全民广泛的数据安全、隐私保护意识有比较大的提高。但是在这个过程中,也有很多安全事例层出不穷,尤其涉及数据的安全事件,更加让大家眼花缭乱。
据新华三信息安全技术有限公司总裁孙松儿介绍,当前社会上还存在着网络诈骗、金融诈骗、个人隐私泄漏等多种形态的数据安全风险。但从宏观观察,当前数据安全治理正处于一个良性发展时期,问题与需求的脉络非常清晰。
在这种情况下,数据安全产业也在出台相关解决方案,包括针对数据库访问、用户行为审计,甚至针对终端管控的解决方案。但是这些方案更多还是局限在某些点或某个环节,对数据安全的保护措施还相对局部与片面。
在整个数据的产生、传输、加密,包括在交换使用过程中,其实涉及很多相关安全风险。在数据产生、传输、分析挖掘的过程中,需要考虑数据被泄露、被攻击、被劫持等问题,以及如何对数据进行加密和可靠存储等。此外,在数据被二次开发、二次使用之后,也需要考虑针对应用数据访问的合规问题。
“目前数据安全技术的发展,滞后于需求的产生,伴随着行业云的逐步推广,数据安全政务、金融、电力、能源等不同行业、不同场景下,有不同的数据安全防护需求。从这个角度来看,怎样运用通用的数据安全防护技术和场景化数据安全需求相结合,是一个需要长期跟踪、慎重考虑的问题。”
2022年2月,国家正式启动“东数西算”工程,东数西算是国家层面的一项宏观战略规划,规划对于数据安全行业,甚至是未来的数据安全体系建设都带来了深远的影响。
“数据大集中,安全新挑战”是刘新民对“东数西算”工程的整体概括。东数西算是在行业云和政府新基建工程牵引下,第一次将各行业数据大规模、超远距离集中。这是一个非常好的客观条件,只要场景需求引领切当,场景定义确切,就会引申出来数据的跨领域的使用。
然而这对数据安全也提出了非常苛刻的要求,超高速大容量数据传输、超高密度大规模加密存储、多部门跨领域数据融合,将成为东数西算数据安全方面的三大挑战。
首先,东数西算其实是一个特别巨大的基础设施建设,也不妨把它理解成是一个数字时代的一个“基建狂魔”。这个庞大的国家战略,会涉及超大规模的数据迁徙流动,在这个过程当中,数据安全需要得到保护。
其次,跟过去分散型的数据安全不同,东数西算的特点在于数据大集中。数据集中之后所带来的数据安全问题,跟过去分散型的数据安全问题相对比,难度呈现指数级增长。因此,对于数据安全,包括技术问题、法律问题带来的都可能是全新挑战。
最后,不同的数据都堆放在一起,从而造成了可以使不同的主体,对来自多方面的数据进行综合运用的便利情况,对不同的数据进行多元的利用,所产生的价值也是指数级的增长。对于指数级增长的经济效益产生的利益,如何进行分配、共享、切割,也是未来法律制度也需要提前考虑的要点。
在这个过程当中,不仅仅是利益分配问题,共享问题,还涉及安全责任分配问题,不同主体都应该承担各自不同的法律责任,数据安全提供怎样保障,需要清晰明确,一旦造成数据破坏,后果将异常恐怖。例如在一个指数级增长的效益面前,没有一个很好的法律制度,造成的数据安全问题,可能会引发全面的社会不稳定问题。
因此,在东数西算中,不仅要考虑数据集中,还需要建设数盾工程,为数据竖立一个安全的盾牌。在东数西算的整个“数盾”过程当中,数据安全的建设与常规项目相比还是有很大的区别。区别在几个方面:
第一、超高速性能的传输,超高速、超大容量数据的传输,包括加密存储。这种加密存储,它的量级跟我们常规的企业数据或者一些政府数据,完全不在一个数量;
第二、在不同数据存储数量级上,实现数据安全可靠性保障;
第三、各行各业带了标签的数据大集中之后,数据的跨部门、跨领域融合共享的问题。
随着行业云的普及发展,当前不同领域、不同业务部门的不同类别数据,如何做到合理合规的使用,是一个比较大的挑战。数盾工程可以有针对性地进行顶层设计,为数据的安全计算、安全传输、安全交互全盘规划,终将打造出一套令各行业数据融会贯通的安全生态体系。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。