在数据时代,数据安全无疑是最受人们关注的。互联网兴起以来,数据安全就一直是热点话题,频频出现在各大新闻头条。从国家机构、金融行业,到互联网行业,数据安全涉及广泛的领域。企业一旦遭遇数据泄漏,或许会带来营收下降、声誉受损、高额经济处罚、诉讼等后果,对任何企业而言都可能是致命打击。
目前,市面上的数据防泄漏的相关产品(DLP)从传统的管控型、行为监察型,逐步向内容感知型发展。尽管如此,这些产品仍然以被动防护为主,主动防护能力不足,特别是针对隐藏数据的可逃避性追踪。那么,究竟是否有一种行之有效的方法,可以弥补这一弊端呢?
敏感数据是指未经授权访问的信息,一旦泄漏可能会给社会或个人造成严重后果的数据。比如:个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不宜公布的数据,如企业的经营情况、网络结构、IP地址列表等。应该通过在数据安全性和信息安全性方面实施足够的措施限制对敏感数据的访问,因而防止敏感信息在未经授权情况下被披露。
黑客窃取敏感信息,通常是利益所驱。据中消协组织开展的“App个人信息泄露情况”问卷调查显示,超八成受访者曾遭遇个人信息泄露问题。最令人担忧的问题是个人信息被用来从事欺诈活动,占70.5%;其次是被出售或交换给第三方,约占52.4%。黑客可以将敏感数据出售给他人,购买者可以利用他人的信息或数据达到非法牟利或犯罪的目的。例如,使用受害者的信用卡或以他们的名义借贷;或者黑客用窃取来的数据用于针对网络钓鱼、攻击和勒索;某些黑客也可以针对企业,盗取其商业机密等。
世界各国政府都在为此陆续出台相关法律政策。在中国,全国人大常委会法工委共同起草了《数据安全法》草案,已经提请十三届全国人大常委会第二十次会议审议。而在欧洲,GDPR将欧盟数据保护法的范围扩展至所有处理欧盟居民数据的外国公司,要求所有公司:提供数据泄漏的通知、任命一名数据保护官、需获取用户同意方能进行数据处理、匿名化数据以保护隐私。Cybersecurity Ventures预测,从2017年到2021年的五年内,全球在网络安全产品和服务上的支出累计将超过1万亿美元(https://www.ibm.com/security/data-breach)。如此庞大的数字,可见无论是金融、运营商、生态系统,还是运营类APP,各个行业平台对数据安全的重视和投入都成增长趋势。如何有效地保护敏感数据显然变成了当务之急。
有了国家层面的立法保障,我们也看到近年来,数据防泄漏的相关产品(DLP)从传统的管控型、行为监察型,逐步发展到内容感知型。但目前市面上的DLP产品仍存在不足之处。主要体现在这些DLP产品还停留在被动式防护的逻辑上,主动防护能力不足,特别是针对隐藏数据的可逃避性追踪。市面上各类应用程序本身存在的漏洞正在被第三方滥用。国家计算机网络应急技术处理协调中心发布的《2019年我国互联网网络安全态势综述》报告指出,按安全漏洞所影响对象分类,有近80%的漏洞对象是发生在应用程序与Web应用程序。
因此,对于敏感数据泄漏的安全防护应该从源头抓起,提升软件源代码的安全管控能力,特别是对软件代码中敏感数据去向的管控,以及是否存在安全隐患、被第三方恶意窃取、工程师的无意识泄漏等问题。通过对软件代码进行深度的静态代码分析(SAST)能有效解决以上的问题,原因在于:
要在源头上实现敏感数据泄漏安全主动防护,可通过程序开发或运营方主动标记敏感数据字段,并对程序执行需要调用的系统API接口进行检查,包括系统打印、文件存储、IPC pipe、IPC socket等,确保敏感数据不被主动或者被动地泄漏给第三方,从而帮助企业经营管理的数据合规、有效降低数据泄漏风险。鉴释的SAST工具,能够主动地发现可能导致数据泄漏或数据泄漏的缺陷,帮助从源头解决问题。
另一个值得关注的问题,是企业对于信息安全方面的支出和预测不足。美国最顶尖的网络安全专家之一Eric Cole博士指出,随着网络攻击的增加,企业不断在安全方面付出高昂成本,但确经常把钱花在错误的地方。大部分与信息安全有关的支出,未被计为与信息安全有关(https://www.inc.com/joseph-steinberg/why-cybersecurity-spending-is-much-higher-than-reported.html)。不得不说,发生此类现象,IT安全官有无法推卸的责任。大部分时候,这是由于IT安全官忽视与程序员的沟通,而只关注协议和网络级别的安全问题。
除了有相关法律法规的保障作为前提,数据安全解决方案也应满足不同行业对数据安全的需求,提供全面的保障。静态分析可以对源代码进行深度检测与扫描,在软件开发、持续集成、持续交付的各个阶段,引导安全编码的早期介入。如此一来,可以主动防止敏感数据泄漏,从而有效地保障个人隐私与企业经营的数据安全。我们很高兴地看到,鉴释来自不同领域的合作伙伴,都将静态代码扫描作为企业网络安全的第一步,把对源代码的安全视为一项重要的战略投资。相比市面上大多数缺乏主动防御机制的DLP解决方案,静态代码扫描的解决方案无疑可以填补这一空白。而更重要的是,数据安全不仅仅是IT安全官或数据隐私官的责任,也是开发人员共同的责任。
肖琳杰,上海鉴释科技公司解决方案工程师,主要负责软件开发生命周期(SDLC)流程自动化、软件质量管理与优化、软件数据安全。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。