至顶网软件频道消息:1844年,莫尔斯发出人类历史上的第一份电报:“上帝创造了何等的奇迹!”电报的发明,揭开了电信史上新的一页。现如今,随着信息技术的不断发展,和AI数据分析能力的飞速提升,大数据在今后可以创造出什么样的奇迹呢?
如今企业实施的大数据系统,大多展现的是一个非常炫酷的面板和一些看上去很吸引眼球的数据分析,但数据的实际应用价值并没有确切的体现。不能为了数据而数据,首先要了解需要用大数据解决的问题是什么,怎么来定义这些问题?把问题梳理清楚,然后基于这些问题,看看在数据上能不能做很多的启示,要从解决问题出发而不是为了数据而数据。
在利用大数据解决问题的时候,首先要看需要什么样的数据,用这些数据如何来解决我们的问题。其次,有了数据以后,怎么样去解放思想,创造新的应用价值。企业界和科研界可以合作解决这个问题。大数据是时代的特征,已经是事实的存在,而且数据应用的技术在那里,各种应用场景现在也都落地了。因此,CIO们不能为了大数据而大数据,而是思考到底应该做什么事情,有什么样的数据,需要什么数据,用这些数据怎么样把已有的工作做的更好,从而把新的应用推动起来。
华东师范大学教授钱卫宁的观点是,数据其实很像以前的电,有电之前跟有电之后应用是不一样的,有了电还是在用蒸汽机会觉得说这个电没有多大的作用。现在有了数据之后,可能说一个业务的模型或者决策的模型都要改变。所以就是说有了数据之后我只是一个展示只是出一个报表这个还是属于传统的这个思维模式,但是更多的要讲说我们有了这个数据之后怎么样根据这个数据重构,去重新来设计我们整个业务的流程,这样可以把数据用的更好。
在上个问题中提到数据价值,数据好的方面,也有很多坏的方面,是干扰,是噪声怎样才能通过有效方法,把噪声去除掉,把信息挖掘出来?
澳洲昆士兰大学教授周晓方表明,数据质量管理是大数据的一个问题,要从数据的完整性方面来看待这个问题。比如网上一部分人的观点不能代表整个社会,因为数据不完整。还有时效性、准确性、一致性等等问题。数据清洗这个问题已经研究了很多年。现在数据质量管理的荣耀都被AI拿走了,数据管理、数据分析、各种大数据分析都是在后面默默为AI进行支撑。如果不把这个底层的数据支持做好的话,那么就是再酷炫也都没有用。
在滴滴出行高级副总裁章文嵩看来,数据质量非常关键,如果数据不准得出的任何结论都有问题。解决的办法涉及到数据的收集、生产、传输整体的这个过程,对数据肯定是层层要做校验,哪些校验有些环节数据不准了,或者有些环节数据丢了。就拿滴滴来说最重要的一个漏洞,用户进来那个冒泡表达了他的这个目的地,冒泡之后我们有很多的动作,然后用户是个发单,平台是否派单,派单后执行最后到完单支付。这个漏斗模型其实层层环节都要校验。所以这个数据,可以帮我们定位哪些买点是对的,哪些环节是我们网络传输软件处理的BUG导致数据丢失了,这是层层校验,就跟财务做校验一样,每个环节都要校验,确保数据准确性和软件的正确性。
微软亚洲研究院副院长 首席研究员刘铁岩接触过很多传统企业,在沟通的时候更多不是讲大数据,是讲AI。在深入沟通的时候,解决第一问题是大数据问题而不是智能问题。他们的愿景是想用智能解决某个应用,实际上整个公司里的数据根本没有管理好组织起来,回到大数据真的非常重要。先是数字化,然后是传统的管理再是数字清洗。从做机器学习和AI角度来看,什么是数据清洗什么是数据管理,我们希望从最原始的数据开始出发,然后通过特别复杂的链路,连到最终应用上。每个环节可能都提供反馈信息。如果不做端到端的处理,割裂开有可能会出现什么现象?在前期做数据处理的时候以为是噪声的问题,可能是信号,我们以为是信号的东西也许是噪声。那么怎么在整个数据链路的智能化的过程中都给大家一个机会,曾经当成是噪声清洗掉的东西是有机会重新挖掘和反复匹配的,曾经被你认为是有用的东西要不断的甄别里面的宝贝在哪里,问题在哪里,这是一个补充。
我们相信,随着大数据技术的深入应用,未来紧缺的公共资源应该可能得到更加合理的分配。比如春运的火车票可以给有切实回家需求的购票者更多的购买机会,急需就医的患者可以更方便进行挂号,公众的交通也能得到有针对性的调节。大数据的明天将会令人们的生活更加美好。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。