仅仅在五年前,人工智能计算机还基本上识别不了图像,更别说像人类一样分析图像。但突然之间,人工智能计算机已经超越了人类。
谷歌大脑(Google Brain)项目负责人Jeff Dean表示,“2011年,计算机识别图像的错误率为26%。”谷歌大脑与其他科技巨头一起在引领近期的图像识别以及语音识别及自驾车领域的革命中作出了自己的贡献。他表示,而现在,电脑查看和分析图像的能力超出了人眼所能做的事情。
Dean在德国海德堡举行的一次研究活动中表示,“如果你几年前告诉我能做得到这一步,我一定不会相信你。但由于人工智能(AI)计算机视觉的发展,电脑现在‘可以看了’……这也打开了我们的视野,让我们看到了更多可能性。”
在本周第五届海德堡获奖人论坛(HLF2017)上,探究AI和机器学习更多应用可能性是一个主要课题。HLF为世界上最有希望的年轻科学研究人员及经验丰富的计算机科学家和数学家提供了融合交流的机会,他们都是在自己领域里赢得了最高荣誉的研究人员。这些获奖人是计算ACM奖、图灵奖、Fields奖,亚伯奖和Nevanlinna奖的得主。
Google Brain负责人Jeff Dean
Dean因其在分布式系统方面的工作曾获2012年ACM计算奖。他是谷歌的奇人。Dean在HLF 2017上深刻综述了AI使能技术应用在改善医疗保健和医学研究上的成果。
AI用于医疗保健和医学研究是有其道理的。据最近的埃森哲报告资料显示,至2021年,AI医疗保健行业年增长率将达40%,预计2021年的医疗保健市场将达66亿美元。目前的医疗保健市场徘徊在6亿美元左右。
Dean在本周的HLF上概述了一系列有关AI医疗成果的信息:
癌症诊断
病理学家要负责阅读检测乳腺癌、前列腺癌和其他癌症的幻灯片和测试结果。尽管这些人是经过训练的,研究却表明,几个病理学家只能在大约42%的时间内在乳腺癌的诊断上取得一致。
Dean表示,有个深入学习研究项目用了谷歌现存的Inception深度学习工具和康奈尔大学的一些定制机制,该研究项目显示,这样得到的结果要好得多。
该研究结果是在2017年3月发布的。其研究报告称,Google Brain的AI医学研究小组用了数百种病理图像训练计算机的癌症检测,准确度水平达到接近90%。
X射线成像
瑞典两个月前的一项研究显示了类似的结果,颇令人鼓舞。该研究利用X射线诊断骨折。
在这项研究中,瑞典Karolinska研究所、皇家理工学院和丹德里德医院的研究人员发现,深度学习计算机视觉可以和骨科医生一样准确地发现骨折。领导这项研究的Karolinska研究所的Max Gordon写道,这证明AI网络的评估能力与人类专家相若,而且,我们希望能够通过高分辨率X射线图像获得更好的结果。“
Dean在谈到这项工作时表示,“计算机视觉和AI技术即将从根本上改变”医疗诊断。他表示,这对病人的影响几乎是即时的。
计算机视觉与糖尿病视网膜病变
糖尿病视网膜病变(DR)是一个很好的例子。糖尿病视网膜病变如果能及早发现就可以很好地得到治疗。但如果错过及早发现的时机,此疾病可导致视力丧失甚至失明。根据亚特兰大疾病控制中心的数据,全球有4亿人面临DR风险。
研究表明,问题的症结在于,即便是训练有素的眼科医生要诊断出DR都有困难。Dean表示,“如果找两位经专业认证的眼科医生对健康的眼睛和患DR眼睛的图像进行诊断(见下图),四轮下来,只有60%的时间里他们的诊断是一致的。而两个小时后, 65%的时间里他们的诊断是一致的。“
糖尿病性视网膜病变诊断的图像比对(左:健康;右:患DR病)图片来自谷歌
Dean补充表示,“有点恐怖”, 但却适合用AI方法迎接挑战。他表示,“假若这些新的计算机视觉系统可以在认别猫狗差异时达到人类的准确度,那么这些计算机视觉系统应该在识别”各种与医疗有关的东西时派上用场。
研究人员为AI系统提供了15万张眼睛图像,研究结果显示,AI系统的AI软件最终的诊断准确度水平超过人类。
展望未来
AI应用在医疗保健领域的其可能性可以列一个很长的表。Dean表示,从发现药物、整体患者护理到绘制人脑的突触连接等等,AI将很快改变数百万计人的医疗保健和治疗。谷歌并不是该领域的唯一玩家。 IBM公司Watson团队、微软的AI研究人员以及Facebook公司都在研发AI健康算法和解决方案。
许多诸如特斯拉公司首席执行官埃伦·穆斯克(Elon Musk)的科技领军人物曾对人工智能可能失控而威胁到人类表示担心。有关的辩论短时间内还要热闹一阵,至少会持续到科技奇点(Singularity,参看https://en.wikipedia.org/wiki/Technological_singularity)到达之前。但对于那些更加关心生活质量的人来说,很显然,他们从Dean本周带来的信息里看到了更多的希望。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。