在全球迈向数字经济和智能世界的今天,所有的企业和组织正依托数字化平台,以期通过各种使能技术为自身业务进行智能加持,把握市场先机,提升业务绩效。自2012年以来,大数据在全球创造了1400万个就业机会。根据今年5月中国人社部发布的一份报告显示,预计2020年年末,中国大数据行业人才需求规模将达210万。越来越多的公司增加了在大数据方面的投资,有报告称去年全球在大数据分析方面的支出超过了1800亿美元。
但与此同时,如何挖掘数据背后蕴藏的巨大价值,并将其与日新月异的AI、云、物联网等新技术完美融合?选择正确的工具,才能帮助企业和众多数据领域的专业人员达到事半功倍的效果。
JetBrains为目前各种主流编程语言提供相应的集成开发环境(IDE),作为一家专注于开发者的公司,在近期举办的华为全联接2020大会上,其技术布道师和团队工具市场经理以专题演讲的形式与参会者们分享了JetBrains给开发者们的一站式解决方案。在为开发者打造的众多高效智能工具当中,JetBrains的Big Data Tools大数据开发工具因其专业、高效、可扩展等特性受到了业内的广泛关注。
早在去年11月,JetBrains首次推出了结合Java集成开发环境(IDE)IntelliJ IDEA的Big Data Tools 大数据开发工具,同时开启早期体验计划,旨在帮助Java开发者更高效地处理大数据。今年5月,JetBrains针对早期体验计划的Big Data Tools大数据工具插件做出进一步更新,新版本的插件在此前仅适用于IntelliJ IDEA用户的基础上,现在同样可用于DataGrip和PyCharm Professional。如此,这款工具首次让基于IntelliJ平台的多种开发工具之间能够相互协同工作。这表明JetBrains在成功进军大数据开发工具领域后,正有条不紊的为数据行业的专业人员创建能涵盖更多工作场景的工具。
新版本的Big Data Tools大数据开发工具插件允许数据领域的专业人员将其所使用的工具集中到DataGrip(一站式提供数据库管理的IDE)和PyCharm(Python语言专属IDE),这意味着即使是那些不熟悉Java的用户,也能通过IDE轻松地使用Apache Spark、Hadoop的HDFS和AWS S3等工具。
对于使用Scala和Spark SQL编写Zeppelin notebook的情况,Big Data Tools 大数据开发工具插件可提供智能导航、代码补全、检查和快速修复以及在notebook内重构,无需离开IDE即可浏览、创建和运行Zeppelin notebook。该插件还允许用户在IDE工具窗口中检查Spark作业执行、查看集群环境和存储信息,以及浏览和管理HDFS、S3和其他受支持的存储文件。此外,它还支持Parquet类的分栏式存储格式。此前市场上没有便于使用分栏式文件格式的工具,这使其更显独特。
多数使用Scala开发Apache Zeppelin的数据工程师都在用IntelliJ IDEA编写Scala和Java代码,这是因其优秀的体验和智能编码辅助功能使然。因此,Apache Zeppelin与IntelliJ IDEA之间的集成很自然,现在它允许数据工程师在无需离开IDE的情况下,即可使用Zeppelin notebook、Spark应用程序和S3文件。这对于数据领域的专业人员来说变得越来越重要,因为在许多情况下,通过本机IDE使用数据工具更加舒适且高效。
JetBrains大中华区负责人李玥萱表示: “各大行业对大数据的应用不断深入,与此同时企业对合适工具的需求也与日俱增。JetBrains正在利用深厚的行业知识为开发人员、数据科学家和工程师提供最专业、高效和可扩展的工具,并将覆盖大数据开发应用的各个场景。我们相信,这将帮助中国的数据行业专业人员更快地构建大数据解决方案,并持续获得舒适的应用体验。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。