自2010年将SMS、chat、email及Facebook Messages整合到1个收件箱后,我们就开始使用HBase。自此之后,社交巨头Facebook就一直扩展这个基于HDFS的分布式键值存储系统以满足自己的业务需求。基于其高写入和低随机读取延时,那个时候HBase被选择作为Messages平台的潜在持久数据存储系统。此外,HBase还具备一些其他优点,比如纵向扩展、强一致性以及自动故障转移带来的高可用。从那时起,Facebook就开始重度使用HBase,比如Messages这样的在线事务处理以及一些经常用到在线分析的地方,当下HBase已用于内部监视系统、Nearby Friends功能、索引查询、流数据分析以及为内部数据仓库抓取数据。
HBase可靠性
在Facebook通常会出现这样一个情况,选择一个潜在满足需求的技术堆栈,然后不停的去优化。对于Facebook来说,可靠性尤为重要,而当下我们使用HBase需求面临的挑战是单主机失败、机架级故障以及密集存储之间的细微差别。解决这些方法的途径之一就是使用主从设置,在两个集群之间做异步更新。然而,这样做的话,我们需要面对集群级别的故障转移,如此主从故障转移将会花费数分钟的时间,而异步操作毫无疑问会带来数据丢失,HydraBase帮我们解决了这一问题。
HBase基础
在了解HydraBase之前,首先解释一些HBase的基础概念。在HBase中,数据是物理共享的,也就是所说的regions。regions通过region服务器管理,每个region服务器会负责一个或以上的region。当数据被添加到HBase,它首先会被写到一个write-ahead log(WAL),即HLog。一旦写入,这个数据会被存储到一个内存MemStore中。一旦数据超过了某个阈值,它们就被持久化到磁盘。随着MemStore持久化到磁盘的HFiles数量增多,HBase会将几个小的文件合到一些大的文件中,来减少读的开销,这就是所谓的压缩。
当某个region服务器发生故障,这个服务器负责的所有region都会转移到另一个服务器,执行故障转移。鉴于HBase故障转移中的实现方式,这将需要做WAL的分割和复制,这将大大的延长故障转移的时间。
HydraBase相关
上文所说正是HydraBase与之最大的区别,取代region都只被单一的region服务器控制,在HydraBase中,每个region可以被一群region服务器控制。当某个region服务器发生故障,备用的region服务器会立刻接手服务它所控制的region,这些备用的region服务器可能横跨不同的机架甚至是数据中心,通过不同的故障域来提供高可用。控制每个region的服务器会形成一个quorum,每个quorum都有1个负责region服务器来处理来自客户端的读和写请求。HydraBase使用RAFT一致协议来保证跨quorum的一致性,每个quorum都使用2F+1,HydraBase可以承受F级故障。region server通过同步写入WAL来保障一致性,但是只有一部分的region server需要完全的写入来保证一致性。
quorum中的成员只存在active或witness两个模式,active模式成员会写入到HDFS,期间会执行数据持久化和压缩。witness成员只会参与复制WAL,但是在负责region服务器失败时可以立刻使用。
HydraBase部署模型
HydraBase部署
在这个情况下,HydraBase的部署跨越了3个数据中心,quorum的大小为5。通过这样的设置,负责region server可以转移到该区域的任何一个成员。如果只是图1中的Active Leader失败,同一个数据中心的Witness Follower将取而代之,客户端的请求将给它发送。如果丢失的是整个数据中心,见第二张图,第二个数据中心的Active Follower会取而代之,鉴于数据中心2的region server仍然可以给HDFS中写数据,因此即使是数据中心1不可见,数据仍然可以访问。
图1
图2
HydraBase的另一个好处是有效的解耦逻辑和物理备份,此外,因为不需要分割日志,故障转移将会很快速的执行,HydraBase能将Facebook全年的宕机时间缩减到不到5分钟。Facebook目前正在测试HydraBase,并计划在生产集群中逐步开始部署。
好文章,需要你的鼓励
RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环境源和用户源两大类,通过风险目标意图和完成两个维度进行评估。对十个代表性MLLM代理的测试结果表明,当前代理在风险目标意图上的不安全率高达84.93%,在风险目标完成上达59.64%,揭示了AI代理在计算机使用安全性方面存在的严重隐患,为未来可信AI系统的开发提供了重要参考。
牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连贯视频。研究团队还构建了包含20,170个视频对的高质量数据集,实验表明IllumiCraft在视觉质量、提示对齐和时间一致性方面显著优于现有方法,开创了可控视频生成的新可能。
中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160K。研究不仅提供了公开的评估框架,还总结了提高超导温度的物理策略,如空穴掺杂和轻元素引入。该基准已在GitHub开源,为AI驱动的超导材料发现提供了重要支持。
MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出了ChainEval评估指标,同时评估最终答案正确性和中间推理步骤一致性。对30个大语言模型的测试表明,即使最先进模型在处理复杂金融推理时仍有很大提升空间,且模型规模是决定推理能力的关键因素。