近日,由Alluxio、北京大学计算机学院、中关村融创企业开放创新促进会、中关村创业大街联合举办的“2023全球AI前沿科技大会”暨Alluxio Summit北京站成功落下帷幕,收获广泛关注与参与!
本届大会围绕“智算加速,建瓴未来”这一主题,设置了主论坛和AI/ML与大数据分析两个平行分论坛。来自中国科学院、北京大学、加州大学伯克利分校、卡耐基梅隆大学、面壁智能、科大讯飞、Databricks、Anyscale、中国华能、中国联通、微软、蚂蚁金服、知乎、bilibili、携程、OPPO、Uber、Memverge、Shopee、诺亦腾、PingCAP等全球AI和数据领域的专家、学者出席峰会并发表了精彩演讲,共同探讨最新研究成果与未来趋势,与Alluxio相结合的丰富应用场景和实践经验。
本次大会吸引了上万名来自不同行业的数字化创新与实践者们的关注,他们通过现场参会及观看直播的方式积极参与其中,不断与专家学者们进行互动交流,共同呈现了一场精彩非凡的科技盛宴!
建设数字经济时代的基础设施
在大会主论坛中,中国科学院院士梅宏进行了大会致辞,他主要从深度学习的三要素之一“数据”切入,从数据作为战略性资源和生产要素的更为宏观的视角,结合当前数字化转型的时代趋势,分享了建设数字经济时代基础设施的深刻见解。
梅宏院士认为要实现数据价值的充分释放,促进数字经济的高速高质发展,需要在互联网之上构建一套“以数据为中心、以数据互操作为核心能力”的新的公共服务层,将数据从应用中解耦出来,作为可独立管理的资源,进而把分散在互联网上的数据资源有效组织起来,使数据实现高效汇聚融合和共享流通。他评价Alluxio是近年来大数据和人工智能领域冉冉升起的明星之一。Alluxio创立的初衷,就是希望打造一款支持数据互操作的分布式文件系统,为多源、异构、异质的数据提供统一的存储、管理和处理平台,这是数字经济时代基础设施不可或缺的一类系统软件。
此外,他高兴地看到,今天的Alluxio正在面向人工智能特别是大模型等新型应用场景,不断扩展和提升数据互操作的基础支撑能力,比如在模型训练和推断等任务中对大量非结构化数据和小文件的高效管理,在泛在异构硬件上数据互操作的性能加速,面向服务器无感知计算应用的数据读写可扩展性提升等方面,都提出了令人兴奋的创新技术和切实有效的解决方案。
面向未来的AI & Data Analytics Infra— Alluxio 3.0
在大会主题演讲中,Alluxio 创始人兼 CEO 李浩源首先介绍了Alluxio的愿景与使命:通过赋能关键基础设施数据平台,使得企业与组织机构能更好地利用数据得到价值,从而加速人类社会的发展与进步。为了达到此愿景,Alluxio将为核心关键数据应用,提供数据服务平台。
接着,李浩源将 2023 年定义为 Alluixo 的深度学习与AI的开启元年。在这一年,Alluxio技术与产品进入高速迭代创新阶段,目前全球前十的头部互联网公司已经有九家在用Alluxio。在国内,很多大模型项目的背后都可以看到Alluxio的身影,比如与蚂蚁金服合作,为他们的多模态训练任务提供支持;跟知乎合作,为知海图大语言模型从训练到服务各个阶段提供支持。
就在大数据和人工智能互相依托的新智能时代背景下,Alluxio 3.0,面向未来的AI和大数据分析的基础架构平台应运而生,并同时发布了最新产品Alluxio Enterprise AI 与为Alluxio Enterprise Data开发的重磅特性Alluxio Edge。
李浩源表示,Alluixo Enterprise AI 将打破 AI 数据治理的“不可能三角”,帮助用户实现既要支持千亿级的数据集规模,又要支持TB级流量带宽和毫秒级数据访问延迟,还要保证成本可控的总体目标。通过Alluxio Enterprise AI,我们的客户能够随时随地启动他们的训练任务,并且能在海量训练数据集的任务中,即使使用普通存储硬件,也能消除I/O瓶颈,实现2至4倍的训练性能提升,这样可以极大降低用户训练成本,提高数据和AI人员的工作效率。同时,Alluxio支持云原生容器化自动部署,完全适配PyTorch、TensorFlow等现有机器学习框架,可以做到上层引擎“无感知”,训练脚本“零改动”,数据准备“无拷贝”,数据清理“全自动”的极低工程实施和运维成本,从而帮助用户搭建性能更高、可动态扩缩容的AI/ML数据访问平台。
而 Alluixo Edge(中文名“星翼”),作为Alluxio Enterprise Data 产品新增的重磅特性,专为大数据分析打造,可使Trino和Presto的端到端查询性能提高1.5至10倍;在I/O加速方面,能带来10至50倍I/O吞度量的提升,就像给用户的基础架构插上了翅膀,飞快加速!不仅如此,云存储API的调用成本在使用星翼后可减少50%至90%,而数据缓存有助于减少网络拥塞以及存储系统需要接受的请求数量,因此也有助于减轻底层存储的负载。
降本增效,知乎与Alluxio的故事
在主论坛中,来自面壁智能的联合创始人兼CEO、知乎合伙人兼首席技术官李大海谈到,过去一年,知乎与Alluxio在AI大模型领域展开了很多合作,并取得了显著成绩。自从将 Alluxio 纳入知乎的多云架构,知乎在大模型训练方面实现了卓越的速度提升。模型训练速度提升了2至4倍,这样,我们的数据科学家和人工智能专家能够更快地将模型进行迭代,提高模型准确性并增强整个人工智能开发流程。此外,知乎在大模型服务方面的速度也提升高达10倍,可以实现更快的服务响应时间,带来最终用户体验的提升。不仅如此,Alluxio还将知乎的 GPU 利用率从50%提升至93%,非常令人惊叹!
李大海给出评价:Alluxio在知乎的多云架构中发挥了重要作用,解决了数据安全、跨云、专线流量等一系列问题,为数据处理和模型训练提供了高效、安全、便利的解决方案。
央企大数据平台架构发展趋势与应用场景
在大会分论坛中,中国华能集团有限公司信息中心平台架构师孟子涵介绍,华能作为能源央企隶属于国务院国资委,是全球最大的清洁能源供应商之一。2021年与Alluxio合作,形成华能统一纳管架构方案,是央企中比较核心的一套体系,能够让全集团所有重要的数字化资源真正的统一集中,实现让存储、计算、数据、应用、技术能力在全集团范围内最大化的流动起来,让大家最大化的利用和使用这些资源,释放其价值。不仅如此,Alluxio与集团底层数据湖集成在一起,用集群和集群的方式,通过Alluxio技术建立了数据资产调度、数据互联高速通道。未来,计划与Alluxio在数据库层面建立虚拟数仓,建设把数据湖、数据库所有数据可以涵盖在一起的虚拟数据底座,让华能数据达到逻辑的统一、实现虚拟数据源的连接、多元异构数据的查询、数据缓存的计算,形成数据可用空间,未来更好支撑华能业务项AI、BI两个方向加速转型。
更多精彩内容
在精彩丰富的嘉宾演讲中,来自卡耐基梅隆大学计算机学院软件研究所的方飞副教授,通过《Game Theory and Machine Learning for Addressing Societal Challenges: From Theory to Real-World Impact》的主题为我们详细介绍了将博弈论与机器学习相结合可以带来哪些神奇的化学反应。
加州大学伯克利分校Sky Comuputing Lab主任Ion Stoica 则为我们展现了研究项目Sky Computing的早期研究成果和经验。
面壁智能的商业化副总裁缪钧玮和科大讯飞北京研究院副院长李家琦也为大家详细介绍了各自最新面世的大模型产品特点与实际应用。
除此之外,针对“大模型是否加剧了数据不平等”这一圆桌话题,来自Alluxio的创始成员兼开源社区副总裁范斌,与北京大学二级教授、博导张铭老师、Alluxio创始人兼CEO李浩源、诺亦腾联合创始人兼CTO戴若犁、科大讯飞北京研究院副院长李家琦四位嘉宾一同展开了深入讨论,让现场观众直呼过瘾。
“智算加速,建瓴未来”,AI和数据价值的全面释放,离不开更智慧、更强性能、更经济高效的计算能力与基础设施平台的强力支撑。而Alluxio在全球许多用户中,已成为一个至关重要的数据平台,可为智算插上翅膀,为业务效率带来巨大提升。Alluxio将与大家一同携手,建瓴未来,智胜未来!
好文章,需要你的鼓励
AMD CIO的职能角色早已超越典型的CIO职务,他积极支持内部产品开发,一切交付其他部门的方案都要先经过他的体验和评判。
医学生在选择专业时,应当考虑到AI将如何改变医生的岗位形态(以及获得的薪酬待遇)。再结合专业培训所对应的大量时间投入和跨专业的高门槛,这一点就更显得至关重要。
我们拥有大量数据,有很多事情要做,然后出现了一种有趣的技术——生成式AI,给他们所有人带来的影响。这种影响是巨大的,我们在这个领域正在做着惊人的工作。