ZD至顶网软件频道消息:GDP和粮食价格是否有关,如果有,会是什么关系?GDP和信访投诉的关系,又是如何?这些问题看起来很有意思,肯定有人很想知道答案。但放在以前,获得这些问题的答案是一件费时费力的事情,因为这需要一个专门的团队经过一段时间的研究才能回答。不过,今天这种现状有了改变,借助大数据技术无需专家团队的介入也可以知道答案。这要得益于大数据技术的一个鲜明特点:它能很容易地发现事物之间的相关关系,而传统研究侧重于发现因果关系,这要费时费力得多。
王伟哲和他的团队在某地开展一个大数据项目时就发现,当地GDP的增幅与其粮食价格的变动直接关联;同样,GDP与信访投诉量也高度相关。王伟哲就是在为当地政府建设大数据平台时知道这些问题的答案的。从2015年开始,越来越多的政府机构开始利用大数据技术来为决策提供支持。对此,一直扎根在大数据领域的王伟哲感受非常明显。
王伟哲是北京东方金信科技有限公司的CEO。成立于2013年的东方金信,是一家随中国大数据产业快速成长起来的企业,主要提供大数据平台和大数据解决方案。根据王伟哲的计划,今年公司规模很可能达到200人的规模。政府是其主打行业市场之一。
单就政府市场来看,王伟哲说,2017年,政府对大数据的需求量会更旺盛。“因为在政府部门大数据技术有着很大的应用空间,一方面政府掌握的数据量足够大,另外政府数据足够真实。” 王伟哲在接受ZD至顶网记者采访时告诉记者。
具体而言,大数据在政府的应用主要归为三大类:大数据服务百姓(如人口与民生服务分析、人口与社区数据分析);大数据协助经济增长(如人口与资源承载);大数据协助政务畅通(政府公共服务水平评价)。
以人口统计为例,在现有体制下,公安局、统计局和发改委都可以给出自己的数据,如公安局按照户口登记信息来汇总,统计局按照抽样统计数据来推断,到底那个数据准确,其实心里并没有底,但通过大数据技术把各个门类的数据进行汇总,包括交通、房屋买卖等信息,然后分析,就能得到一个相对准确的数据,甚至要比公安局和统计局的数据更为准确。东方金信就承建过这样的项目。
东方金信是一家典型的技术驱动型公司,采用顾问式营销的方式来开展业务。在目前的团队当中,销售人员的比例不到十分之一。在分工上,销售的主要工作也只是处理合同相关的工作,与客户的沟通到项目实施大部分是由技术人员来完成的。东方金信的核心产品是基于Hadoop的分布式数据平台,公司自主研发的海盒大数据产品套件是基于分布式架构的大数据平台,该产品套件包括大数据基础平台、大数据分析平台、分布式内存系统、大屏展示工具和数据实时同步工具,涵盖了大数据产业链的数据采集、数据存储、数据管理、数据计算、数据分析挖掘以及数据应用的全部环节,可以为企业级客户提供一站式的分布式大数据解决方案。
一家成立刚刚4年的公司,能在短时间里形成一套成熟的大数据解决方案,并且得到广泛认可,一方面要归于大数据市场的成长和Hadoop的技术不断完善和成熟,另一方面则要归于公司拥有一个掌握了Hadoop核心技术的团队。根据王伟哲的说法,东方金信核心团队来自Google、阿里、 Teradata、HP、IBM等全球著名企业的核心数据开发人员,具有丰富的分布式研发能力和数据分析挖掘能力。同时,东方金信还拥有一支来自美国加州伯克利,卡内基梅隆,佛罗里达,斯坦福、清华、中科院、北大等高校10多名博士和多名硕士组成的研发团队,具备强大的持续自主研发能力。
可能正是基于上述原因,谈到技术王伟哲非常自信。他说,公司是首批通过工业和信息化部数据中心大数据能力和性能认证的六家企业之一。现在,东方金信已经用大数据技术为金融、政府、工业、健康等多个领域实施项目。王伟哲还特别强调,要确保大数据项目的实施成果,让大数据与业务的融合非常重要的。“从根本上,大数据解决的是计算的性能问题,大数据能力的发挥必须依托业务。到底大数据有多大用,要取决于业务与大数据结合的程度。”
王伟哲认为,东方金信是一家有情怀的科技公司,因为“我们非常关注大数据底层平台的开发”,“在国内,像我们这样做底层平台的,不会超过三家”。王伟哲对政府市场踌躇满志,他说,智慧型服务型政府是大势所趋,大数据在政府行业的应用非常广阔。东方金信非常愿意与业内伙伴一起联手,发挥技术优势,让更多的政府项目落地,让大数据全面地为民服务。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。