至顶网软件频道消息: 深度学习已经彻底改变了我们对现代生活中大量数据的处理方式。然而,新闻媒体对于AI的报道往往集中在人工智能的商业应用以及如何重塑企业业务层面。如今令人耳目一新的成果终于出现--世界银行与WeRobotics以及OpenAerialMaap正合作启动一项新的公开AI挑战赛,旨在发掘尝试学习在人道主义应用领域的巨大潜力--特别是在应对重大自然灾害层面。
现代深度学习工具当中,最令人兴奋的应用领域之一正是利用神经网络以前所未有的精度对图像进行识别。如今,最先进的神经系统能够检查数以亿计的图像,根据内容将其划分为数万种类别,同时评估其位置、情感、污染以及自然灾害等背景,甚至识别出其中所噸出的"暴力"水平。除此之外,新模型的创建也变得愈发简单易行。
然而在自然灾害发生之后,对随之而来的危害以及生命安全保障需求进行分类等工作还没有得到人工智能技术的加持。通过与WeRobotics以及OpenAerialMap开展合作,世界银行启动了新的《公开AI挑战赛:南太平洋岛屿航拍影像》活动,旨在立足全球开放研究社区汲取新的人工智能方法,从而以快速且可扩展的方式处理灾区航拍影像,并借此实时向救援人员及救援机构提供重要的评估与规划性指导。
正如此次AI挑战赛公告中所言,"过去十年以来,非洲、汤加、瓦努阿图以及萨摩亚的数百个岛屿不断遭受龙卷风侵袭,导致数百万人面临生命威胁,并带来高昂的经济损失。"这些岛屿面临着包括地震、海啸、飓风、火山喷发、山体滑坡以及干旱在内的各类自然灾害的威胁。而世界银行方面指出,"在全球自然灾害程度最为严重的15个国家当中,有4个属于太平洋岛国。"
从卫星图像到无人机航拍照片,获取鸟瞰全景的能力对于迅速分辨民用与态度损坏程度、了解运输走廊状况以及判断救援工作优先级序列无疑至关重要。但其中的一大关键性障碍在于,可用图像的数量往往远远超过人类在必要时间周期与分辨率条件下全面评估所有图像的能力。
而此次AI挑战赛的目标,正是为了解决这一难题。其将初始关注重点集中在两个方面:在航拍图像当中分辨出树木与道路。
果树长期作为南太平洋岛屿中重要的经济与粮食来源,而灾害对其造成的广泛损害可能会产生长期影响。因此,本次挑战赛的第一项任务即为构建一套图像分类器,负责获取一张航拍图像并返回一个注释层,且其中至少要以80%的准确率识别出照片中所有椰子树、香蕉树、木瓜树以及芒果树的位置。在生产场景中,我们可以借此实时比较灾害发生前与发生后的图像,从而精确判断树木损失数量以及特定树种的受损情况。鉴于移动设备在神经网络资源执行方面的快速发展,我们甚至可以想象这种算法最终将能够以实时方式在无人机内置的处理资源上运行,从而指引其自动导航至受损最严重的区域并进行图像拍摄。
第二项任务则要求从图像中识别道路,并确定其属于单车道、双车道铺天盖地路面,抑或普通土路。在最终被部署在现场之后,这种算法将能够为灾区提供近实时道路状况报告,从而帮助援救人员快速规划援助运输路线,并优先组织重要道路的重建工作。
也许在不久的未来,这类人工智能工具将能够实现完全自主的分类能力。在这种分类工作当中,救援机构将能够在灾难发生后自动启动一组无人机,对整个受灾区域进行拍摄,识别破坏程度并为规划人员提供报告--全部工作都将在灾害结束后的30分钟内完成,且无需任何人为干预。我曾在多篇文章当中提到技术专家与援助组织共同合作以应对世界面临的各类巨大挑战,而这种良好的合作伙伴关系将"给世界带来翻天覆地的变化"。因此,在听闻这一全新挑战活动时,我诚挚希望其能够为解决援助以及发展层面的一系列最为棘手的难题带来答案。
综合来看,这一新举措之所以如此令人兴奋,不仅因为其将深度学习用于人道主义用途,同时亦代表着不同专业知识团体(本案例中为世界银行、WeRobotics以及OpenAerialMap)团结起来共同利用深度学习技术改善灾害响应能力,为后续研究工作提供免费数据集,亦面向人工智能技术社区发出激动人心的呼吁。毫无疑问,这既是一个有趣的研究问题,也将给我们的日常生活带来切实影响。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。