至顶网软件与服务频道消息:攀岩运动员Abbie Robinson,尽管顶着光芒四射的世界冠军头衔,但视觉障碍一直困扰着她。
▲ 图:19岁的攀岩世界冠军Abbie Robinson,在COVID-19期间,使用AI设备继续完成学业。
17岁那年,Robinson被诊断出患有斯塔加特黄斑变性,这是一种少年性黄斑变性疾病,会导致病人逐渐丧失视野中心区的视力。换句话说,她将越来越难以细致感知色彩,也让阅读与观察等日常行动变得格外困难。
但这并没有阻止她拿下攀岩世界冠军,保持个人独立性,并继续在利兹大学攻读专业。
但与其他大部分学生一样,随着英国在COVID-19疫情下全面隔离,Robinson也不得不待在家中学习。为了完成学业,她正依靠一种使用机器学习与计算机视觉技术的设备,帮助自己完成疫情隔离期间的日常活动。
该设备来自于OrCam公司推出的MyEye2设备。这款设备配备有人工智能(AI),能够直接安装在普通眼镜架上,并直接用语音读出印刷文本或者数字文本中的内容。
她表示:“我的主要需求就是阅读。现在,我终于能够顺畅地读完一本普通书了。有了这种正常阅读的能力,我也可以阅读很多额外的材料与论著。”
由于无法在课堂上直接讨论和辅导,大学讲师们只能为学生们准备了更多阅读材料,这也使年轻人们近来的阅读需求显著提升。MyEye2设备同时支持人脸识别功能,Robinson可以在一定范围内快速辨认出自己的好友。
另外,她也用MyEye2设备读取演讲中的展示信息、培训时间表、训练计划以及食品标签等等——对芝麻过敏的她,尤其关注这最后一点。
当然,MyEye 2唯一做得不够的,就是在攀岩过程中为她提供帮助。 “但我也非常理解,毕竟MyEye 2并不是为此而设计。它给我带来巨大帮助,支持我正常完成日常生活。”
她还提到,“在使用MyEye2之前,完成生活中任何一件琐事,都需要双倍的时间,导致我真的很难保持一周20个小时的攀岩训练。我的生活可以说是连轴转,毫无喘息之机。”
另外,她也说起MyEye2的另一项重要功能——除了阅读训练教程,它还帮助这位年轻的冠军独自出行。现在,无需他人的指引,她就能直接读取指示牌上的信息。
至于OrCam MyEye2设备的工作原理,其使用计算机视觉来处理识别到的每一幅图像中的数百万个数据点,并从中筛选出对用户最有用的信息。这台设备能够检测出用户的手指激活操作,大声读出文本,同时用语音向设备佩戴者提示人脸、产品、纸币面额以及颜色等信息。
虽然这款产品背后的底层技术OCR(即光学字符识别)已经存在多年,但OrCam方面正努力将这项成果引入更多设备,帮助用户解答与文本内容相关的种种问题。例如,用户可以手持电费单,并要求设备读出其中的付款截止日期。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。