至顶网软件频道消息: 由于用于检索数据的新技术出现,将大量数据存储在DNA上的前景现在更加接近于现实了。
微软热衷于合成DNA作为未来的长期存档介质,这样做可以解决目前对更多数据存储的需求。以前的研究表明,仅仅几克的DNA可以存储艾字节的数据,并且可以完整保持2000年以上。
不过,也有缺点,即将数据写入DNA的成本较高且非常缓慢,其涉及将0和1转化为DNA分子腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤,同时从DNA提取数据需要将其排序并将文件解码回0和1。查找和检索存储在DNA上的特定文件也是一个挑战。
正如微软研究院和华盛顿大学的科学家所解释的那样,如果没有随机访问或从DNA存储中选择性检索文件的能力,你就需要对整个数据集进行排序和解码以找到并检索出你想要的几个文件。创建随机访问会减少需要完成的排序数量。
为了实现对DNA的随机访问,他们创建了一个连接到每个DNA序列的"引物"库。引物与聚合酶链式反应(PCR)一起被当作目标,通过随机访问这些目标可以选择所需的DNA片段。
华盛顿大学解释说:"在合成含有来自文件数据的DNA之前,研究人员在每个DNA序列的两端附加了来自引物库的PCR引物对象。"
"他们随后使用这些引物通过随机访问选择所需的链,并使用了一种新的算法,旨在更有效地解码数据并将其恢复到原始的数字状态。"
研究人员还开发了一种能够更高效地解码和恢复数据的算法。微软高级研究员Sergey Yekhanin表示,新算法对写入和读取DNA序列错误的容错性更高,这会减少恢复信息所需的排序和处理。
据研究人员表示,虽然这不是第一次实现对DNA的随机访问,但这是第一次按照他们所做的规模完成的随机访问。
研究人员用合成DNA编码记录了200MB的数据,其中包含了35个文件,大小从29kB到44MB不等。这些文件包含了高分辨率视频、音频、图像和文本。
自从介绍这种技术的论文发表之后,他们还在DNA上对400MB的数据进行了编码和文件检索。
研究人员们认为,他们用于随机访问的方法将扩展到物理隔离的DNA池,每个池中都包含了数个TB的数据。
好文章,需要你的鼓励
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
这是一项关于计算机视觉技术突破的研究,由多家知名院校联合完成。研究团队开发了LINO-UniPS系统,能让计算机像人眼一样从不同光照下的照片中准确识别物体真实的表面细节,解决了传统方法只能在特定光照条件下工作的局限性,为虚拟现实、文物保护、工业检测等领域带来重要应用前景。
被盗凭证导致80%的企业数据泄露。随着AI智能体投入生产,管理10万员工的企业将需要处理超过100万个身份。传统身份访问管理架构无法应对智能体AI的大规模部署。领先厂商正采用蓝牙低功耗技术替代硬件令牌,实现基于距离的身份验证。行为分析可实时捕获被入侵的智能体,零信任架构扩展至智能体部署。这代表了自云计算普及以来最重要的安全变革。
这篇文章介绍了北京人工智能研究院开发的OmniGen2模型,一个能够同时处理文字转图像、图像编辑和情境生成的全能AI系统。该模型采用双轨制架构,分别处理文本和图像任务,并具备独特的自我反思机制,能够自动检查和改进生成结果。研究团队还开发了专门的数据构建流程和OmniContext评测基准,展现了开源模型的强大潜力。