ZDNet至顶网软件频道消息: 对于第六届中国云计算大会,我总结了给自己10大意外、10个收获和10个已确定和不确定的概念。如下:
给我的10个意外中,首先是有三对6个专家的3个观点雷同,之前我相信他们没有机会讨论:
1、吴基传理事长在致辞中说:大数据已成为我们今后认识事物的根据,而怀进鹏院士则说,大数据的利用改变了我们的思维;
2、张亚勤博士说互联网应用从现实走向了虚拟,又正在从虚拟中走向物理化;
3、吴基传理事长首先在致辞中强调云计算的生态圈正在形成,而联通焦钢总说在云计算中共创生态圈;
4、两年来我一直认为非结构化数据的产生有形成非结构化数据库管理系统的可能,但李德毅院士却说,非结构化数据完全是原生态,不可能有库的存在,Hadoop开源系统实际上是半结构化数据系统;有非结构化数据,但并没有非结构化数据库存在的可能;
5、杨放春博士的观点最让我意外,他认为无线互联网的频率资源挑战比传统互相网大得多,每赫多少比特要根据不同的应用环境而定,而频率资源非常有限,到4G、5G时代只有向高频发展,而越高频和其覆盖的面积成反比,最后可能会200米就会设有基站;
6、吴基传理事长认为,基站不需要密集,可用云基站来解决,他说建一个云基站资源池,用便宜的光纤传递资源;
7、张亚勤博士认为混合云会永存;
8、李德毅院士认为大数据的完整性和有效性比其科学性更重要;
9、中国移动李正茂副总裁说目前用户上网时间平均达100分钟,已是2000年10分钟的10倍;
10、吴基传理事长认为欧洲5000年历史没统一成一个国家是由于文字没统一,而中国在2000多年前的统一是由于秦始皇统一了文字,而人类所有的语言将用数码统一。
我总结的大会9个专家、行业专家、学者已定义或有待定义的10个概念、结论是:
1、吴基传提出:大数据与云计算的关系相辅相成;
2、吴基传提出:云计算是大数据运营、挖掘的平台;
3、怀进鹏提出:大数据特征呈现4V:规模大、变化快、品种杂、价值密度低;
4、怀进鹏院士提出互联网行业已变成数据运营商;
5、怀进鹏院士提出:IT业是否向DT业转型?
6、怀进鹏院士出:互联网从通信平台向智能平台转化;
7、计算中心三段转移是从CPU转向存储,从存储转向带宽社交参与;
8、焦钢提出:CPU是18个月性价翻番,存储为9个月性价翻番,带宽需求是半年翻番;
9、怀进鹏院士提出:大数据分析处理能力靠软件,现有软件工具不适应;
10、吴基传理事长提出:安全的4重逻辑:没有网络安全就没有数据安全,没有数据安全就没有信息安全,没有信息安全就没有国家安全。
我的自己的10大收获是:
1、目前云计算大小用户(包括存储租赁用户)已超4000万,吴基传理事长贡献;
2、大数据正处在启动阶段、认识阶段,过渡的炒作会忽略它存在的挑战,怀进鹏院士贡献;10的15次方之后为大数据的起点,李德毅院士贡献;
3、大数据分为自然界数据、生命数据、社交大数据三部分组成,李德毅院士贡献;
4、大数据的结果从精确到非精确性改变,怀进鹏院士贡献;
5、分析事物的逻辑已从因果到关联,怀进鹏院士贡献;
6、三大运营商已对云服务有系统的框架、规化、产品目录、应用案例;
7、大数据科学目前还是伪命题,怀进鹏院士贡献;
8、目前的大数据管理还处于半非结构化阶段,李德毅院士贡献;
9、大数据进入众挖阶段,李德毅院士贡献;
10、大数据、云计算的相关的一切对我们已认知科学产生挑战,李德毅院士贡献。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。