AWS近日表示,通过推出一项名为Amazon Omics的全新专用服务加大对遗传学研究的投入。
AWS在本周举行的AWS re:Invent上表示,Amazon Omics旨在帮助医疗保健提供商和生命科学组织存储、查询、分析基因组和转录组数据,以及其他类型的组数据,然后生成有助于改善健康和推进科学发现的洞察。
AWS首席开发布道师Channy Yun在博客文章中解释说,医疗保健和生命科学公司通常会收集各种生物数据,目的是利用这些信息来改善患者护理并推进科学研究,这种研究被业内人士称为“组学”研究。
Yun解释说:“这些组织会绘制出个体对疾病的遗传易感性,根据蛋白质结构和功能确定新的药物靶点,根据特定细胞中表达的基因分析肿瘤,或者研究肠道细菌会给人类健康带来怎样的影响。”
组学的全部意义在于,通过收集数千人的基因数据,并对其进行比较和分析,研究人员可以产生新的洞察来预测疾病、各种不同药物和治疗的疗效。因此,组学对于推进医学研究和药物发现是至关重要的。
组学研究的一个大问题是,必须是大规模进行的,这可能会给那些没有能力处理这些数据的医疗保健公司和生命科学组织带来问题。
AWS首席医疗官兼技术健康AI副总裁Taha Kass-Hout在接受采访时表示:“这类数据非常复杂,围绕细胞生物学的数据呈现爆炸式增长,这超出了人类自身的理解能力。”
组学研究涉及到处理PB级的数据,因此研究人员需要一种经济高效的方式来存储这些信息,以及简单的方式访问这些信息。Yun说:“你需要在保持准确性和可靠性的同时,扩展数百万生物样本的计算,还需要专门的工具来分析人群中的遗传模式,并训练机器学习模型来预测各种疾病。”
AWS认为这就是Amazon Omics的用武之地。Amazon Omics可以支持对组学数据的大规模分析和协作研究。Amazon Omics不仅提供了此类信息的一种有效存储方式,而且让研究人员可以轻松利用其他AWS服务来分析整个人群的基因组数据,还可以自动配置和扩展生物信息学工作流程,使研究人员能够大规模运行分析管道。
Amazon Omics服务主要面向生物信息学家、研究人员和科学家,由三个主要部分组成:用于组学优化的对象存储,以更低成本高效地存储和共享数据;用于生物信息学工作流程的托管计算,使执行数据分析变得简单;用于优化的数据存储,可以对人口规模进行变异分析。
Amazon Omics实际上就是支持性分析,为此它兼容Amazon SageMaker等服务,后者可针对非常特定的目的训练机器学习模型。例如,用户可以训练机器学习模型来分析组学数据,并预测某些人是否易患某些类型的疾病,还可以将个人的基因组数据与其在Amazon HealthLake中的病史结合起来。
Amazon Omics现在已经在AWS位于美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(新加坡)、欧洲(法兰克福)、欧洲(爱尔兰)和欧洲(伦敦)的区域上线。
好文章,需要你的鼓励
在AI智能体的发展中,记忆能力成为区分不同类型的关键因素。专家将AI智能体分为七类:简单反射、基于模型反射、目标导向、效用导向、学习型、多智能体系统和层次化智能体。有状态的智能体具备数据记忆能力,能提供持续上下文,而无状态系统每次都重新开始。未来AI需要实现实时记忆访问,将存储与计算集成在同一位置,从而创造出具备人类般记忆能力的数字孪生系统。
中国人民大学和字节跳动联合提出Pass@k训练方法,通过给AI模型多次答题机会来平衡探索与利用。该方法不仅提升了模型的多样性表现,还意外改善了单次答题准确率。实验显示,经过训练的7B参数模型在某些任务上超越了GPT-4o等大型商业模型,为AI训练方法论贡献了重要洞察。
OpenAI首席执行官阿尔特曼表示,公司计划在不久的将来投入数万亿美元用于AI基础设施建设,包括数据中心建设等。他正在设计新型金融工具来筹集资金。阿尔特曼认为当前AI投资存在过度兴奋现象,类似于90年代互联网泡沫,但AI技术本身是真实且重要的。他承认GPT-5发布存在问题,并表示OpenAI未来可能会上市。
南加州大学等机构研究团队开发出突破性的"N-gram覆盖攻击"方法,仅通过分析AI模型生成的文本内容就能检测其是否记住了训练数据,无需访问模型内部信息。该方法在多个数据集上超越传统方法,效率提升2.6倍。研究还发现新一代AI模型如GPT-4o展现出更强隐私保护能力,为AI隐私审计和版权保护提供了实用工具。