AWS近日表示,通过推出一项名为Amazon Omics的全新专用服务加大对遗传学研究的投入。
AWS在本周举行的AWS re:Invent上表示,Amazon Omics旨在帮助医疗保健提供商和生命科学组织存储、查询、分析基因组和转录组数据,以及其他类型的组数据,然后生成有助于改善健康和推进科学发现的洞察。
AWS首席开发布道师Channy Yun在博客文章中解释说,医疗保健和生命科学公司通常会收集各种生物数据,目的是利用这些信息来改善患者护理并推进科学研究,这种研究被业内人士称为“组学”研究。
Yun解释说:“这些组织会绘制出个体对疾病的遗传易感性,根据蛋白质结构和功能确定新的药物靶点,根据特定细胞中表达的基因分析肿瘤,或者研究肠道细菌会给人类健康带来怎样的影响。”
组学的全部意义在于,通过收集数千人的基因数据,并对其进行比较和分析,研究人员可以产生新的洞察来预测疾病、各种不同药物和治疗的疗效。因此,组学对于推进医学研究和药物发现是至关重要的。
组学研究的一个大问题是,必须是大规模进行的,这可能会给那些没有能力处理这些数据的医疗保健公司和生命科学组织带来问题。
AWS首席医疗官兼技术健康AI副总裁Taha Kass-Hout在接受采访时表示:“这类数据非常复杂,围绕细胞生物学的数据呈现爆炸式增长,这超出了人类自身的理解能力。”
组学研究涉及到处理PB级的数据,因此研究人员需要一种经济高效的方式来存储这些信息,以及简单的方式访问这些信息。Yun说:“你需要在保持准确性和可靠性的同时,扩展数百万生物样本的计算,还需要专门的工具来分析人群中的遗传模式,并训练机器学习模型来预测各种疾病。”
AWS认为这就是Amazon Omics的用武之地。Amazon Omics可以支持对组学数据的大规模分析和协作研究。Amazon Omics不仅提供了此类信息的一种有效存储方式,而且让研究人员可以轻松利用其他AWS服务来分析整个人群的基因组数据,还可以自动配置和扩展生物信息学工作流程,使研究人员能够大规模运行分析管道。
Amazon Omics服务主要面向生物信息学家、研究人员和科学家,由三个主要部分组成:用于组学优化的对象存储,以更低成本高效地存储和共享数据;用于生物信息学工作流程的托管计算,使执行数据分析变得简单;用于优化的数据存储,可以对人口规模进行变异分析。
Amazon Omics实际上就是支持性分析,为此它兼容Amazon SageMaker等服务,后者可针对非常特定的目的训练机器学习模型。例如,用户可以训练机器学习模型来分析组学数据,并预测某些人是否易患某些类型的疾病,还可以将个人的基因组数据与其在Amazon HealthLake中的病史结合起来。
Amazon Omics现在已经在AWS位于美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(新加坡)、欧洲(法兰克福)、欧洲(爱尔兰)和欧洲(伦敦)的区域上线。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。