至顶网软件频道消息: 1844年,莫尔斯发出人类历史上的第一份电报:“上帝创造了何等的奇迹!”电报的发明,揭开了电信史上的第一页。现如今,随着信息技术的不断发展和AI数据分析能力的飞速提升,大数据在今后可以创造出什么样的奇迹呢?在2017 中国大数据技术大会(BDTC 2017)的媒体群访中,澳洲昆士兰大学教授周晓方、微软亚洲研究院副院长 首席研究员刘铁岩、华东师范大学教授钱卫宁、滴滴出行高级副总裁章文嵩与大家共同探讨了大数据的未来应用问题。
如今企业实施的大数据系统,大多展现的是一个非常炫酷的面板和一些看上去很吸引眼球的数据分析,但数据的实际应用价值并没有什么确切的体现。就这个问题,四位专家分别表达了自身对目前大数据的观点:
章文嵩总裁首先阐述了自己的观点:“不是为了数据而数据,首先要了解需要用大数据解决的问题是什么?怎么来定义这些问题?如果把问题梳理清楚然后基于这些问题,看看在数据上能不能做很多的启示,真正要解决问题出发而不是为了数据而数据。”
随后周晓方教授对这个问题进行了深入分析:第一个方面是刚才说的,我们有一个问题,然后看需要什么样的数据,用这些数据如何来解决我们的问题。第二个方面,我们现在有了数据以后,怎么样去解放思想,创造新的应用价值。企业界和科研界可以合作解决这个问题。大数据的话,前面刚才大会的主席发言也都说了,是我们时代的特征。大数据已经是事实的存在,而且数据应用的技术在那里,各种应用场景现在也都落地了。因此,CRO们不能为了大数据而大数据,而是你到底应该做什么事情,你有什么样的数据,需要什么数据,用这些数据怎么样把我们已有的工作做的更好,用这些数据怎么样能够把我们一些新的应用推动起来。
刘铁岩院长:数据是我们拥有的一部分,我们拿到数据是一个基础,我们一定要从过程中找到价值,过程是我们做机器学习的这个过程,我们再讲大数据一定要把数据和智能结合起来,要有全盘的规划。在这个角度来讲我们要拿什么数据是为了实现刚才各位说的实现某种目的我们寻找合适的数据,而不是拿到所有的数据觉得反正是个宝贝留下来就好,数据大也有很多好的方面,很丰富,也有很多坏的方面,是噪声,有些可能是错误的,如果没有一个有效的算法和方法,把噪声去除掉,把信息挖掘出来,其实大数据不见得是有价值的。
最后钱卫宁教授做了对这个问题进行了总结:我们的一个看法是说,数据其实很像我们以前的电,有电之前跟有电之后应用是不一样的,如果我有了电我还是在用蒸汽机会觉得说这个电没有多大的作用,现在又了数据之后,我们可能说一个业务的模型或者决策的模型都是要变的,所以就是说可能你刚才讲的有了数据之后我只是一个展示只是出一个报表这个还是属于传统的这个思维模式,但是更多的要讲说我们有了这个数据之后怎么样根据这个数据重构,去重新来设计我们整个业务的流程,这样可以把数据用的更好。
在上个问题中提到数据价值,数据好的方面,也有很多坏的方面,是干扰,是噪声怎样才能通过有效方法,把噪声去除掉,把信息挖掘出来?下面几位专家就数据清洗的问题又进行了更深入的探讨。
周晓方教授:数据质量管理是大数据的一个问题,要从数据的完整性方面来看待这个问题。比如网上一部分人的观点不能代表整个社会,因为数据不完整。还有时效性、准确性、一致性等等,这个都是传统的问题。数据清洗这个问题已经研究了很多年。现在我们自己的研究团队也是一直在推这个数据质量管理,现在荣耀都被AI拿走了,但是为AI进行支撑的数据管理、数据分析、各种大数据的差异都是在后面默默在做的。如果不把这个底层的数据支持做好的话,那么也就是酷炫的都没有用。
章文嵩总裁:数据质量非常关键,如果数据不准你得出的任何结论都有问题。这里面我们面临的一些问题,解决的办法涉及到数据的收集、生产、传输整体的这个过程,我们对数据肯定是层层要做校验,哪些校验有些环节数据不准了,或者有些环节数据丢了。就拿滴滴来说最重要的一个漏洞,用户进来那个冒泡表达了他的这个目的地,冒泡之后我们有很多的动作,然后用户是个发单,平台是否派单,派单后执行最后到完单支付。这个漏斗模型其实层层环节都要校验。所以这个数据,可以帮我们定位哪些买点是对的,哪些环节是我们网络传输软件处理的BUG导致数据丢失了,这是层层校验,就跟财务做校验一样,每个环节都要校验,确保数据准确性和软件的正确性。
刘铁岩院长:我接触过很多传统企业,在跟我们聊的时候更多不是讲大数据,是讲AI。在深入沟通的时候,解决第一问题是大数据问题而不是智能问题。他们的愿景是想用智能解决某个应用,实际上整个公司里的数据根本没有管理好组织起来,回到大数据真的非常重要。先是数字化,然后是传统的管理再是数字清洗。从做机器学习和AI角度来看,什么是数据清洗什么是数据管理,我们希望从最原始的数据开始出发,然后通过特别复杂的链路,连到最终应用上。每个环节可能都提供反馈信息。如果我们不做端到端的处理,割裂开有可能会出现什么现象?我们在前期做数据处理的时候以为是噪声的问题,可能是信号,我们以为是信号的东西也许是噪声。那么怎么在整个数据链路的智能化的过程中都给大家一个机会,曾经当成是噪声清洗掉的东西是有机会重新挖掘和反复匹配的,曾经被你认为是有用的东西要不断的甄别里面的宝贝在哪里,问题在哪里,这是一个补充。
在随后的讨论活动中,几位专家还就智能出行的无人驾驶对人们生活的改变,通过大数据如何减少东西部贫富差距等问题进行了深入沟通。将技术讨论提升到了民生问题的高度。
我们相信,随着大数据技术的深入应用,未来紧缺的公共资源应该可能得到更加合理的分配。比如春运的火车票可以给有切实回家需求的购票者更多的购买机会,急需就医的患者可以更方便进行挂号,公众的交通也能得到有针对性的调节。大数据的明天将会令人们的生活更加美好。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。