“让数据多跑路,群众少跑腿。”正是现在国家实现数字政府建设,通过行业云提高政务服务水平,提升人民群众体验度和满意度所倡导的理念。而让数据“跑”起来的前提,就要利用云计算的技术优势实现各行各业的数据大集中、大整合。在这样的数据大集中、大整合过程中,面临各种挑战,其中数据安全挑战尤为重要。
传统意义上,信息化系统更多的是在数据生成并使用之后,就步入了漫长的存储期,基本很少再去进行调用,这就是数据流动之前大多数政企行业中普遍存在的问题。
数字化时代的业务应用则完全不同。在新华三集团总裁、技术战略部总裁刘新民看来,业务数据会在不同的行业云系统间流动,被不同机构、不同行业进行调用。例如网上购物的互联网数据,有可能会被智慧城市应用、会被政务系统使用,跨行业、跨领域的数据流动需求已经越来越强烈。这时候就需要满足数据通过多种形式进行传输的实际应用需求。从原来纯粹的数据计算产生到存储,转变成实现跨越系统、跨越行业,跨越不同机构“算”、“存”、“传”、“用”。从数据采集、存储、传输、交互、应用的全生命周期上综合考量,实现不同环节、产品、协议栈的全面连通。
但在这个过程中还涉及很多问题,有个人隐私问题、个人信息安全问题,还有不同数据的分类问题,以及数据泄露威胁和数据的攻击问题等等。这些问题的产生,使得企业内部要加强数据安全的建设,然后数据向外流动、数据交互之间也要对数据进行安全保护。
“数据的确权、确认,数据使用过程中的合法合规,在当今社会是一个非常严重的问题。因为它会造成财产的损失,还会造成社会化的问题,甚至影响到国家安全,所以在这样的条件下自然就产生了对数据合规安全使用的要求。”刘新民说。
其实从古到今我们都在生产很多的数据,但是数据的重要的意义也是在进入网络时代以后才会获得了如此重要的意义,成为生产要素。中国社会科学院大学副校长林维认为,这也是当前国家加强对数据法律建设主要原因。
当前我国已经形成了一个相对较完备数据安全、数据保护法律体系。比如《民法典》中对数据进行了有关的定义和规定,《刑法》也从不同的角度对数据的安全进行了特别的保护。
在《网络安全法》、《个人信息保护法》和《数据安全法》,这几个不同法律中,尤其是《数据安全法》,对有关数据的定义、数据的分类,数据从产生到储存到整个全流程过程当中所涉及的不同法律主体,所具备的法律责任,乃至对数据安全产生各种的事故、事件以后,所相应承担的有关的法律责任都做了规定。
目前从法律层面、行政法规层面、地方性法规层面,实际上形成了一个相对较为完备的、多元共治、相对成体系的数据安全规定。同时林维也看到还有很多新的问题,包括数据的确定的问题,重要数据、敏感数据等等,政务数据、数据跨境流动等,这些问题其实还需要未来陆续去做一些新的规定,应对数据行业当中所产生的大量法律挑战。
现阶段,信息化安全建设正处在相对有利的时期,尤其是政府相关法律、法规出台后,全民广泛的数据安全、隐私保护意识有比较大的提高。但是在这个过程中,也有很多安全事例层出不穷,尤其涉及数据的安全事件,更加让大家眼花缭乱。
据新华三信息安全技术有限公司总裁孙松儿介绍,当前社会上还存在着网络诈骗、金融诈骗、个人隐私泄漏等多种形态的数据安全风险。但从宏观观察,当前数据安全治理正处于一个良性发展时期,问题与需求的脉络非常清晰。
在这种情况下,数据安全产业也在出台相关解决方案,包括针对数据库访问、用户行为审计,甚至针对终端管控的解决方案。但是这些方案更多还是局限在某些点或某个环节,对数据安全的保护措施还相对局部与片面。
在整个数据的产生、传输、加密,包括在交换使用过程中,其实涉及很多相关安全风险。在数据产生、传输、分析挖掘的过程中,需要考虑数据被泄露、被攻击、被劫持等问题,以及如何对数据进行加密和可靠存储等。此外,在数据被二次开发、二次使用之后,也需要考虑针对应用数据访问的合规问题。
“目前数据安全技术的发展,滞后于需求的产生,伴随着行业云的逐步推广,数据安全政务、金融、电力、能源等不同行业、不同场景下,有不同的数据安全防护需求。从这个角度来看,怎样运用通用的数据安全防护技术和场景化数据安全需求相结合,是一个需要长期跟踪、慎重考虑的问题。”
2022年2月,国家正式启动“东数西算”工程,东数西算是国家层面的一项宏观战略规划,规划对于数据安全行业,甚至是未来的数据安全体系建设都带来了深远的影响。
“数据大集中,安全新挑战”是刘新民对“东数西算”工程的整体概括。东数西算是在行业云和政府新基建工程牵引下,第一次将各行业数据大规模、超远距离集中。这是一个非常好的客观条件,只要场景需求引领切当,场景定义确切,就会引申出来数据的跨领域的使用。
然而这对数据安全也提出了非常苛刻的要求,超高速大容量数据传输、超高密度大规模加密存储、多部门跨领域数据融合,将成为东数西算数据安全方面的三大挑战。
首先,东数西算其实是一个特别巨大的基础设施建设,也不妨把它理解成是一个数字时代的一个“基建狂魔”。这个庞大的国家战略,会涉及超大规模的数据迁徙流动,在这个过程当中,数据安全需要得到保护。
其次,跟过去分散型的数据安全不同,东数西算的特点在于数据大集中。数据集中之后所带来的数据安全问题,跟过去分散型的数据安全问题相对比,难度呈现指数级增长。因此,对于数据安全,包括技术问题、法律问题带来的都可能是全新挑战。
最后,不同的数据都堆放在一起,从而造成了可以使不同的主体,对来自多方面的数据进行综合运用的便利情况,对不同的数据进行多元的利用,所产生的价值也是指数级的增长。对于指数级增长的经济效益产生的利益,如何进行分配、共享、切割,也是未来法律制度也需要提前考虑的要点。
在这个过程当中,不仅仅是利益分配问题,共享问题,还涉及安全责任分配问题,不同主体都应该承担各自不同的法律责任,数据安全提供怎样保障,需要清晰明确,一旦造成数据破坏,后果将异常恐怖。例如在一个指数级增长的效益面前,没有一个很好的法律制度,造成的数据安全问题,可能会引发全面的社会不稳定问题。
因此,在东数西算中,不仅要考虑数据集中,还需要建设数盾工程,为数据竖立一个安全的盾牌。在东数西算的整个“数盾”过程当中,数据安全的建设与常规项目相比还是有很大的区别。区别在几个方面:
第一、超高速性能的传输,超高速、超大容量数据的传输,包括加密存储。这种加密存储,它的量级跟我们常规的企业数据或者一些政府数据,完全不在一个数量;
第二、在不同数据存储数量级上,实现数据安全可靠性保障;
第三、各行各业带了标签的数据大集中之后,数据的跨部门、跨领域融合共享的问题。
随着行业云的普及发展,当前不同领域、不同业务部门的不同类别数据,如何做到合理合规的使用,是一个比较大的挑战。数盾工程可以有针对性地进行顶层设计,为数据的安全计算、安全传输、安全交互全盘规划,终将打造出一套令各行业数据融会贯通的安全生态体系。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。