ZDNet至顶网软件频道消息: 谷歌启动了一个名为Baseline Study的全新科研项目,希望全面描绘健康人的身体究竟应该是何模样。
为了完成这一项目,谷歌将从175人那里匿名搜集基因和分子信息,之后还会再搜集数千人的相关数据。
该项目目前还处于发展初期,由50岁的分子生物学家安德鲁·康拉德(Andrew Conrad)负责。他曾经开创了便于广泛开展且成本低廉的HIV测试方式,用于对捐赠的血浆进行检测。
康纳德2013年3月加盟Google X,他已经组建了一个由70至100人组成的团队,涵盖的领域包括生理学、生物化学、光学、成像学和分子生物学。
虽然目前还有很多大型的医疗和基因研究项目存在,但Baseline搜集的信息数量更大,范围更广。他们希望帮助研究人员更早地发现心脏病和癌症的各种迹象,进而推广预防措施,而不仅仅把精力放在治疗上。
该项目并不局限于具体的疾病,而是会使用各种全新的诊断工具搜集成百上千的不同样本。之后,谷歌便会利用其庞大的计算能力来寻找这些信息中隐藏的“生物标签”,从而帮助医疗研究人员提前发现疾病。
例如,该研究可能会发现一些能够帮助人们分解高脂肪食物的生物标签。拥有这些生物标签的人,可以将患上高胆固醇和心脏病的时间延后,没有这类生物标签的人则会更早患上心脏病。一旦Baseline发现了这一标签后,研究人员便可通过检查了解哪些人缺乏这类标签,并帮助他们纠正习惯,或者开发出新的治疗方法,帮助其更好地分解高脂肪食物。
谷歌拥有当今全球规模最大的电脑网络和数据中心,可以迅速提供搜索结果和视频服务。这同样可以用于存储和分析医疗信息。
目前为止,多数已经发现的生物标签都与晚期疾病有关,因为这种研究普遍集中于病人。因此,利用现有数据尽早判断疾病的效果不佳。研究人员认为,这一新项目将成为一次意义重大的跨越,因为人体太过复杂,而科学家目前对于DNA、酶和蛋白质之间的相互作用,以及饮食等环境因素对人体的影响都知之甚少。而此次研究可以为科学家提供更多信息。
谷歌表示,Baseline将采用匿名方式进行,搜集的数据也仅限于医疗目的。这些数据不会与保险公司分享。
尽管如此,此事还是引发了很大的担忧。这些数据今后将为保险公司带来巨大的价值,他们一直以来都希望通过各类信息降低风险。除此之外,还有人可能会在招聘和结婚时参考相关数据。
Baseline将聘请杜克大学和斯坦福大学的医学院对其进行监督,由他们控制信息的使用方式。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。