从龟甲兽骨、竹木简,到丝绸、编织物,再到纸张、计算机,人类文明随着文字承载体的演变升级得以保存、传承,也得以追溯、考究。在这段历史长河中,世界上演化出了数千种语言,而存在于计算机世界的代码语言也是其中之一。
为了让这门“语言”不会随着时间流逝和技术进步而消失,人们选择了一种比较“原始”的方式来保存它——去年7月,GitHub把所有代码全部写入一种特殊材料的胶片上,然后封存于北极地底保存。这些代码,来自于全球超过九百万开发者的贡献,代表着当下最前沿的科技发展。在开源发展史上,这是浓墨重彩的一笔。
除此之外,在刚刚过去的2020年,开源圈子还有很多值得被记录的事件:比如,这是Java成立的第25周年,众多与COVID-19相关的工具、数据集和研究成果被共享到GitHub上,而华为也正式开源了鸿蒙OS代码。
可见,开源已经成为眼下非常时兴的潮流。横向看,它正在继续推动着科技的不断向前;纵向看,它正在从社区大步走向商业,开始与产业融合发展。这是因为,如今各行各业加速数字化所需的云计算、大数据、人工智能等新一代信息技术的出现和发展,无一例外,都离不开开源技术、开源文化、开源生态的支持。
举例来说,包括Hadoop、HPCC、MongoDB等在内的开源大数据工具已经成为企业进行数据处理、数据分析的主流工具,Caffe、CNTK、Mahout等也是非常顶级的开源人工智能项目;此外,百度PaddlePaddle提供的一直就是开源的深度学习平台,而旷视的深度学习框架Brain++也在去年宣布正式开源;在基础架构层面,开源还是云计算非常关键的技术,目前市场上的许多主流公有云和很多企业使用的私有云基于的都是开源技术。
这意味着,在数字化转型被提速的2021年,开源这把“火”注定也将“愈烧愈烈”。那么,企业如何跟上这波趋势不被“out”?可以在哪些数字化转型场景用好开源?又如何在使用开源的过程中更好“避坑”?
1月28日 14:00-15:30,在线参与“企业开源实践联盟城市高管在线圆桌会.南京站”,与开源实践先行者以及红帽技术专家共同探讨企业的“数智化”转型路径,以及混合云平台构建过程中的开源价值。
活动亮点
扫描图片上方二维码,立即报名
席位有限,先到先得!
好文章,需要你的鼓励
33年后,贝尔纳多·金特罗决定寻找改变他人生的那个人——创造马拉加病毒的匿名程序员。这个相对无害的病毒激发了金特罗对网络安全的热情,促使他创立了VirusTotal公司,该公司于2012年被谷歌收购。这次收购将谷歌的欧洲网络安全中心带到了马拉加,使这座西班牙城市转变为科技中心。通过深入研究病毒代码和媒体寻人,金特罗最终发现病毒创造者是已故的安东尼奥·恩里克·阿斯托尔加。
这项由多伦多大学领导的研究首次系统性地揭示了分词器选择对语言模型性能的重大影响。通过训练14个仅在分词器上有差异的相同模型,并使用包含5000个现实场景测试样本的基准测试,研究发现分词器的算法设计比词汇表大小更重要,字符级处理虽然效率较低但稳定性更强,而Unicode格式化是所有分词器的普遍弱点。这一发现将推动AI系统基础组件的优化发展。
人工智能安全公司Cyata发现LangChain核心库存在严重漏洞"LangGrinch",CVE编号为2025-68664,CVSS评分达9.3分。该漏洞可导致攻击者窃取敏感机密信息,甚至可能升级为远程代码执行。LangChain核心库下载量约8.47亿次,是AI智能体生态系统的基础组件。漏洞源于序列化和反序列化注入问题,可通过提示注入触发。目前补丁已发布,建议立即更新至1.2.5或0.3.81版本。
北京大学研究团队提出NExT-Vid方法,首次将自回归下一帧预测引入视频AI预训练。通过创新的上下文隔离设计和流匹配解码器,让机器像人类一样预测视频下一帧来学习理解视频内容。该方法在四个标准数据集上全面超越现有生成式预训练方法,为视频推荐、智能监控、医疗诊断等应用提供了新的技术基础。