3月30日,由百分点科技主办的“2023数据科学峰会”在北京金隅智造工场·科技秀场成功召开。此次大会以“数据·进阶”为主题,邀请权威专家学者以科学视角和全球视野解读数据科学、数字政府建设及数字化业务,在现场重磅推出一站式数据价值实现平台,并联合全球权威咨询机构IDC发布首份数据能力进阶白皮书。
权威专家趋势洞见
当前,数字经济成为全球经济增长的关键动力,也成为我国经济发展的新引擎,带动产业数智化转型进入纵深阶段。数据科学以其价值的基础性和技术的集大成性成为新一代信息技术浪潮中浓墨重彩的一笔。
北京大学数学科学学院、光华管理学院教授,中国科学院院士陈松蹊从统计学科的角度阐述了数据科学的发展历程。他表示,数字中国建设,释放数据生产力是关键。真正要把生产力释放出来,不能只靠存储和算力等基础设施建设,更需要“数据文化”建设,尤其是场景驱动的数据分析等数据科学“软”实力建设。
北京大学政府管理学院副院长黄璜介绍,新时期数字政府建设,需要在推进国家治理现代化总体目标下提升政府治理能力,建立“用数据”和“治数据”思维,形成多层次数据治理体系,通过治理与技术架构平台化,统筹资源与能力建设,实现决策支持数据化、协同治理平台化、服务交互智能化。
上海纽约大学全球杰出商学讲席教授陈宇新认为,目前应用型人才较多,进一步原创性的突破要从更基础的数学理论上发掘潜力。对于数字经济来说,数据质量的认证将会变得非常重要,认证和确认数据源可靠性的技术或服务将会兴起。
IDC首份数据能力进阶白皮书正式发布
聚焦数字化转型的痛点和需求,百分点科技联合全球权威咨询机构IDC重磅发布首份数据能力进阶白皮书——《用数据创造价值 以智能激发增长——数据科学基础平台白皮书》,IDC中国副总裁兼首席分析师武连峰出席大会并进行了正式发布。
在《白皮书》中,调研数据显示,政企普遍对基础设施承载能力、行业经验成果、全流程一体化数据应用能力以及数据方法论等较为关注,其中“一体化数据链路能力,支持端到端的数据价值实现”占比达到29%。
武连峰表示,数字化业务时代已经来临,数据要素在资金、客户、运营、创新等领域创造价值,需要打造数据获取与治理、数据挖掘与展示、数据变现与创新三大能力。在此基础上,他提出聚焦组织数字化转型的核心需求、将数据科学纳入发展战略、评估数据就绪度与成熟度、选用可持续迭代的全栈能力平台、选择合适的数据科学服务商等八大策略。
数据科学持续进阶 百分点科技重磅产品发布
随着数字经济持续增长,政企机构进入数字化转型的纵深阶段,大量的数据需要进入到可分析、可解释、可参与预测和决策的场景中来,并加速实现由数据驱动的全面业务整合和创新。
百分点科技董事长兼CEO 苏萌表示,数据科学在过去50年里从1.0的小数据时代,2.0的大数据时代,走入了3.0的AI时代,未来将迈向数据原生时代。当下市场需求不再是断点式技术和工具,而是端到端的数据科学解决方案,在长链条里实现数据价值。
随着数据科学通用工具的一体化和平台化、领域知识的程序化和服务化,交互方式的自然语言化,数据科学技术将像互联网一样普惠大众,业务和决策人员将可以跨过程序员直接与数据进行交互,提高分析和决策效率。
为此,百分点科技基于十多年的理论和技术积淀,推出一站式数据价值实现平台——百分点数据科学基础平台(DeepMatrix),服务于数据工程师、数据分析师和数据科学家,助力便捷高效地将数据转化为业务知识并辅助决策和行动,最终释放数据价值。
百分点科技CTO刘译璟介绍,数据科学基础平台具备两大特征。首先是知识化,平台不断沉淀领域中的数据科学知识,包括程序性知识、事实性知识和概念性知识。传统企业的数字化转型面临着冷启动问题,平台能够借助行业内已有的专业知识为其破局。其次是智能化,数据科学基础平台内置了智能辅助开发系统,可以自动化地辅助开发者选择方案以及完成数据适配,并智能化地进行方案精调和改进。同时,能够在数据治理的多个环节依托知识库及语义理解等智能技术帮助开发者提高效率。
立足全球视野 聚焦产业实践
在此次大会上,来自产业链上下游的知名企业领袖同台分享了数智化转型中的经验、问题与思考,立体而全面展示了当前产业发展现状。
中国中免科技信息部总经理徐刚表示,数字化转型是企业发展的必然选择,而数据是转型的关键,需要十年育“数”,立足长远,拉通全链条数据,形成内外部数据生态圈,应用数据科学指导业务决策,打造以客户为中心的全流程数据支撑能力,用数据驱动企业效能提升。
华为EBG全球公共事业系统部数字化转型咨询规划总监王煜认为,以数据为核心的数字化转型,需要以“数据”为生产要素,以5G、云、AI等ICT技术为生产工具,以软件为载体,以服务为目的,从而实现企业管理和运营效率的提升,以及产品和商业模式的创新。
百度智能云智慧城市总经理刘捷表示,AI知识增强大模型出现,推动城市由感知智能向认知智能迈进,通过数据驱动和AI赋能,城市数字化场景持续创新,实现洞察有深度、治理有精度、兴业有高度、惠民有温度,城市生活越来越幸福。
最后,在以“全球视野下的数据科学发展趋势与展望”为主题的圆桌对话环节,来自学界、咨询机构、企业的专家分别从不同的角度进行解读,不断进行思想碰撞。对于数字经济发展的未来趋势,数字技术与产业深度融合成为各方共识。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。