ZDNet至顶网软件频道消息:Instagram已基本完成AWS到Facebook基础设施的迁移。听到这个消息,笔者并不惊讶。首先,社交巨头拥有自己的大规模数据中心;其次,作为风头正劲的互联网公司之一,社交巨头拥有着大量的服务,其技术堆栈及API可以轻易满足Instagram的架构需求;再次,在Facebook规模,不管是从成本,还是从性能及可用性上看,迁移都是上上之选。最后,避免平台的约束和锁定,Instagram将有更大的发展空间。
言归正传,下面我们看一些博文摘译:
在2012年加入Facebook之后,我们就发现了多个与Facebook基础设施的集成点,这将允许我们更加快速的开发产品,同时还能提高社区的安全性。开始时,我们使用的是ad-hoc端点接入,但是随后就发现这限制了我们的敏捷性及Facebook服务的利用率。
在2013年4月后,我们开始大规模的迁移到Facebook数据中心,其中的重点是服务可用性的平稳过渡,以及最小化基础设施级改变来避免其中的操作复杂性。开始时非常简单,在EC2和Facebook的一个数据中心之间建立连接,然后一块一块的迁移。
但是随后就发现事情并非那么容易,主要的问题就是Facebook私有IP空间和EC2的冲突。我们的方法是,首先使用Amazon的Virtual Private Cloud(VPC),随后使用Amazon Direct Connect将之与Facebook连接。
鉴于每天都会开启新的EC2实例,这个任务看起来非常艰巨。为了最小化服务停机时间以及操作复杂性,EC2和VPC实例是否在同一个网络至关重要。AWS并没有提供安全组或者私有EC2与VPC网络的共享方式,公共地址空间成为两个私有网络的唯一通信渠道。
因此,我们发明了Neti,一个动态的iptables操作守护进程,使用Python编写,通过ZooKeeper支撑。Neti不仅提供了缺少的安全组功能,还为每个实例都提供了单独的地址,不管是EC2还是VPC。Neti管理了数千个NAT以及实例上的过滤规则,从而保证了独立的、flat “overlay”安全通信。NAT规则会为实例选择一个最有效的通信途径,跨越VPC和EC2边界时会选择公共网络,内部通信则会选择私有网络。这些对我们的应用和后端系统都是透明的,因为Neti会提供一个恰当的iptables规则。
从EC2到VPC花费了大约3周时间,随后所有实例就运行在一个兼容的地址空间,下一个阶段无疑就是迁移到Facebook数据中心。
多来以来,Instagram围绕EC2建立了一整套生产系统管理工具,其中包括配置管理脚本,用于服务开通的Chef,以及服务于运营任务的Fabric,从应用到数据库,这些针对EC2环境的工具都将不适用于数据中心环境。
为了给这些工具提供可移植性,我们使用了LXC。配置工具用于建立基础系统,Chef则运行在container中,用以安装和配置Instagram特定软件。为了支撑横跨EC2及Facebook数据中心的基础设施,当下的Chef加入了新的逻辑用以支撑Facebook内部使用的CentOS,之前在EC2上使用的是Ubuntu。同时,用于基础任务的EC2命令行工具也被一个全新的工具代替,它被设计成了一个抽象层,提供了类似EC2工作流中的环境,为技术和人们使用方式做过渡。在这些都完成后,VPC到数据中心的迁移只花费了两周。
写在最后
对于Instagram来说,迁移可以带来显而易见的好处,同时,我们也相信会有更多这个类型的应用被收购后会做出类似的举措,比如未来我们可能会看到WhatsApp迁离SoftLayer。然而对于云服务提供商来说,这绝对不是件想看到的事情,Instagram之类的到还好说,如果是Netflix这样的合作伙伴,撇开直接收入,生态圈受到的影响显然更加深远。
好文章,需要你的鼓励
Turner & Townsend发布的2025年数据中心建设成本指数报告显示,AI工作负载激增正推动高密度液冷数据中心需求。四分之三的受访者已在从事AI数据中心项目,47%预计AI数据中心将在两年内占据一半以上工作负载。预计到2027年,AI优化设施可能占全球数据中心市场28%。53%受访者认为液冷技术将主导未来高密度项目。电力可用性成为开发商面临的首要约束,48%的受访者认为电网连接延迟是主要障碍。
商汤科技研究团队开发的InteractiveOmni是一个突破性的全模态AI助手,能够同时处理图像、视频、音频和文字,并具备强大的多轮对话记忆能力。该模型采用端到端架构,实现了从多模态输入到语音输出的统一处理,在多项基准测试中表现优异。特别值得关注的是,4B参数版本就能达到接近7B模型的性能,且已开源供研究使用。
亚马逊云服务宣布投资500亿美元,专门为美国政府构建AI高性能计算基础设施。该项目将新增1.3千兆瓦算力,扩大政府机构对AWS AI服务的访问,包括Amazon SageMaker、Amazon Bedrock和Claude聊天机器人等。预计2026年开工建设。AWS CEO表示此举将彻底改变联邦机构利用超级计算的方式,消除技术障碍,助力美国在AI时代保持领先地位。
腾讯混元团队联合北航、清华推出Honey-Data-15M,这是一个包含1500万高质量图像-问答对的开源数据集,通过创新的双层思考链策略让AI学会深度推理。基于此训练的Bee-8B模型在复杂推理任务上表现卓越,证明了专注数据质量能让开源AI达到商业级水平。