在全球数字化转型的浪潮中,数据已成为推动经济发展和管理效率提升的核心驱动力。作为数据、分析和人工智能领域的领先混合平台,Cloudera为云和本地环境提供了基于Apache Iceberg的开放式数据湖仓一体架构。该平台不仅能够有效解决高度敏感数据的管理复杂性,还能从中提炼出更大的价值,为各行各业数字化转型提供有力支持。
在税务管理领域,Cloudera能够帮助组织机构大幅提升数据处理效率、安全性和可扩展性。以蒙古国税务局(Mongolian Tax Administration,MTA)为例,为确保从纳税人税务登记中获取的信息准确、完整且可靠,税务局需要依赖数据整合与分析来制定科学的税收管理策略。然而,数据碎片化、访问瓶颈和系统低效问题严重降低了其工作效率。通过引入Cloudera,蒙古国税务局成功整合了分散的数据源,实现了数据的集中化管理与实时分析,显著提升了管理的智能化水平。
解决数据碎片化、访问瓶颈和系统低效问题
税务局的旧系统缺乏统一的数据和分析平台,也缺少人工智能(AI)的支持。数据分散在多个独立的系统中,导致数据收集和整合效率低下。每个数据源可能采用不同的格式和访问协议,需要人工干预才能统一数据以进行分析。
人工数据收集不仅耗时且容易出错,数据质量和格式的不一致更是雪上加霜。数据收集、整合和验证的过程耗时过长,导致数据分析的准备工作变得冗长。
此外,非IT人员对数据的即时访问权限有限,这也拖慢了决策进程。IT部门常成为瓶颈,因为其他部门使用数据前需依赖该部门完成数据提取、转换与加载。
随着数据量的不断增长,税务局的旧系统难以有效扩展。缺乏可扩展性导致延迟加剧与成本攀升,管理和分析大规模数据集也变得更加困难。
借助Cloudera实现可扩展、安全且全面的数据管理
2020年,蒙古国税务局选择使用Cloudera。作为一个在数据、分析和AI领域领先的的混合平台,Cloudera能够帮助企业将各类数据转化为有价值的可信洞察。蒙古国税务局选择在本地部署Cloudera,使用自己的物理服务器而非公有云服务。
Cloudera帮助税务局实现了数据管理流程的集中化,显著降低了处理多种数据源和格式带来的复杂性,提高了数据处理效率。通过在本地部署Cloudera,数据可以存储在可控的环境中,税务局借此增强了数据安全性。考虑到数据的财务敏感性,这一点至关重要。
蒙古国税务局信息技术中心主任Altankhuyag.B表示:“我们选择Cloudera的关键原因在于,Cloudera为数据管理和分析提供了端到端的完整解决方案。Cloudera还涵盖了数据生命周期的所有阶段,从数据摄取、处理到分析和机器学习,全部集成在一个平台中。这帮助我们确保数据治理,提高工作效率,同时支持更多的数据和分析用例。”
该平台内置了对多种高级分析的支持,助力整个组织能够更快、更明智地做出决策。随着税务局需求的增长,平台可以灵活扩展,以处理激增的数据量和更复杂的分析与AI任务,且无需新增大量基础设施投资。
数据湖仓一体架构还包括Apache Iceberg和Impala。面对包含8亿行表格的庞大数据集,这些功能有助于税务局高效管理和分析庞大的数据集。采用Iceberg后,税务局能够更有效地处理多种来源的海量数据,并满足其对大规模数据管理和实时更新的需求。
Altankhuyag解释道:“Cloudera的开放式数据湖仓一体架构与Apache Iceberg增强了我们管理和分析数据的能力。其可扩展的架构适应了我们不断增长的需求,使我们能够在不进行大量基础设施投资的情况下,更快、更明智地做出决策。”
通过Cloudera和高级分析提升审计准确性与合规性
Cloudera还可轻松与其他分析、机器学习和AI软件集成。税务局将Cloudera与Konstanz Information Miner(KNIME)分析平台结合使用,执行与评估纳税人合规性相关的机器学习算法。凭借Cloudera中的可信数据和KNIME的分析能力,税务局提高了合规模型的准确性,进而改善了分析结果。
例如,通过分析税务审计的历史数据,税务局可以识别不合规的模式,优化审计选择流程,并量化评估审计结果,从而做出更明智的决策。这使得税务局能够主动解决逃税和不准确报税等问题,确保税收系统的公平性和透明度。
采用Cloudera以来,蒙古国税务局的运营效率显著提高。由于流程的优化,税务局对逃税案件的调查速度提高了约8倍。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。