据悉2018年全国知识图谱和语义计算大会将于2018年8月14日至8月17日在天津召开,会议前期CCKS系列评测任务早已拉开帷幕,睿至大数据控股子公司睿力科技公司(英文简称Keenpower)凭借出色的专业能力在任务四——“开放领域的中文问答”中,拔得头筹。
CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接,CCKS 2018共设立4个相关主题评测任务,分别是:面向中文电子病历的命名实体识别、面向音乐领域的命令理解、智能客服问句匹配以及开放领域的中文问答。
本次睿力科技所参与的是“开放领域的中文问答”。该任务基于开放领域知识库的中文问答,简称COQA (Chinese Open-domain Question Answering)。即对于给定的一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取等子任务。这些子任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。
据专业人士解答,该测评任务比较的是从人类语言文字到现实世界实体映射的准确度,是知识图谱的基础性任务。
本次测评任务所面向的问题域属于问题域——搜索意图准确度提高问题,整个业界尤其是在企业领域进行搜索大都是通过基于搜索引擎进行实现,传统做法在搜索精度上难以有效提升,尤其是针对句子的搜索准确度更低。
“知识图谱技术”作为人工智能技术的核心技术之一,可以解决从语言文字到现实世界实体的映射、基于实体关联关系的推理与分析。基于知识图谱技术,可以为司法、电商、互联网金融、公安、国安、城管等行业提供精准化的搜索、个性化的推荐、面向自然语言的智能问答、案卷自动编写、趋势预测与研判等服务。
睿力科技作为本次任务的冠军,长期专注于挖掘数据内部的深度关系,采用知识图谱、深度学习等手段构造了一体化的数据分析平台,并创造性的将云计算、图计算、流计算等多样化的计算方式融于一体,打造了拥有自主知识产权的“数据云图”产品,帮助客户深入挖掘数据价值,实现数据“激活”。
本次测评中,睿力科技团队综合运营CNN神经网络、文本相似度计算等技术,有效提升了从语言文字到现实世界实体的映射准确度问题。
目前该测评任务已经结束,在目前的比赛结果排名中,睿力科技团队获得测评比赛的第一名。
北京睿至大数据有限公司作为企业数字化转型战略级伙伴,致力打造中国卓越的云计算及大数据运营商。睿至大数据以“客户需求”为先,秉承“极致创新”理念,专注于云计算、大数据与智慧城市等领域的创新研究与行业实践。
2014年成立以来,实现了跨越式发展:以产业前瞻研究和行业深度理解为双引擎,基于云计算、大数据等先进技术形成了贯穿企业数字化转型生命周期的“全栈式”产品及解决方案,包括IT战略咨询、规划、设计、实施、运营与商业模式创新等,目前,政府、能源、金融、电信、医疗和教育等行业客户已与睿至大数据开展深入的合作。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。