InsightFinder AI近日完成由Yu Galaxy领投的1500万美元B轮融资,累计融资总额达3500万美元。该公司成立于北卡罗来纳州立大学的15年学术研究成果,自2016年起利用机器学习监控IT基础设施。其最新产品"自主可靠性洞察"通过无监督机器学习、大小语言模型及因果推理,实现对AI模型全栈的检测、诊断与修复。目前客户涵盖UBS、NBCUniversal、Lenovo等大型企业,公司收入过去一年增长逾三倍。
数据是AI生态系统中最关键的组成部分,没有数据就没有AI。本文详细介绍了数据管道的概念与作用,涵盖数据采集、存储、转换和交付四个核心环节,并阐述数据在模型训练、输出生成及持续优化中的三大角色。同时提供完整实践教程:使用Python模拟24小时温度数据,通过scikit-learn线性回归训练模型,最终在终端输出实际温度与预测温度的对比结果。
Sarang Gupta从小热爱动手解决问题,11岁开始学习编程。他拥有香港科技大学工业工程与商业管理双学士及哥伦比亚大学数据科学硕士学位。曾在高盛开发自动化工具优化交易流程,后加入Asana主导AI功能团队并申请多项专利。2025年9月加入OpenAI,专注为销售与营销团队构建数据驱动模型,助力企业高效采用ChatGPT等产品。他的目标是让AI惠及更多人。
渣打银行首席运营官加里多在新加坡Gitex AI Asia 2026大会上表示,尽管AI浪潮席卷金融业,该行仍坚信客户希望与真人沟通。目前,渣打已将约8万名员工纳入AI培训计划,其中约3.3万人已完成课程。该行将AI定位为员工支持工具,而非单纯的自动化手段,并在信贷审批等敏感环节保留人工审核机制。展望未来,加里多预测AI将深度融入业务运营,专职AI高管岗位或将成为历史。
英国和爱尔兰科学家开发出名为PhenMap的AI工具,可识别哪些结直肠癌患者最可能从贝伐珠单抗治疗中获益。该工具通过分析117名患者的肿瘤基因组成及临床数据,构建机器学习模型,为患者评估用药获益与死亡风险。研究发现,携带BRAF基因突变的患者预后较差。目前每年英格兰约7000名患者符合用药条件,但多数人难以从中受益且面临严重副作用风险。
机器人机器学习公司Generalist发布GEN-1物理AI系统,在广泛的物理技能上达到生产级成功率。该模型能够应对干扰并即兴创造新动作,连接不同领域的知识解决新问题。GEN-1基于先前的GEN-0模型构建,通过"数据手套"收集超过50万小时的物理交互数据进行训练。该系统在折叠包装、装配手机、维修机器人吸尘器等重复性精细机械任务上达到99%成功率,速度比GEN-0快三倍。
AI研究公司Epoch AI分析显示,AI模型开发的真实成本远超预期。以OpenAI为例,其50亿美元研发支出中仅10%用于最终训练,大部分投入扩展、合成数据生成和基础研究。中国公司MiniMax和Z.ai的数据也证实了这一模式。由于大部分支出用于探索而非执行,竞争对手可能以极低成本复制成果,这引发了美国AI公司对知识产权保护的担忧。
大语言模型本地运行系统Ollama宣布支持苹果开源机器学习框架MLX,同时改进缓存性能并支持英伟达NVFP4模型压缩格式。这些更新将显著提升搭载M1及后续芯片的Mac设备性能。目前该功能处于预览阶段,仅支持阿里巴巴Qwen3.5模型,需要32GB内存。随着开发者对云服务费用和限制的不满,本地模型运行需求激增,虽然性能仍落后于云端模型,但在隐私保护和成本控制方面具有优势。
IBM Research发布新一代时序基础模型家族,在Hugging Face的GIFT-Eval排行榜上表现卓越。FlowState-r1.1专攻点预测,PatchTST-FM-r1擅长概率预测,TTM-r3和TSPulse-r1则专注高效预测和异常检测,支持每秒数千次推理。这些模型基于不同架构,经过超过1000亿数据点训练,广泛应用于工业制造监控、IT事故检测等企业场景,现已开源发布。
研究人员开发出一种机器学习工具,通过分析电子健康记录、检测结果和患者人口统计学数据,能够高精度识别肝细胞癌高风险人群。该算法基于英国生物样本库50万人数据训练,在美国40万人数据库中验证,准确性良好。研究发现无需复杂基因测序,仅使用常规临床数据即可有效预测风险,有望在资源有限地区广泛应用,改善当前主要针对肝硬化患者的筛查局限性。
Mistral推出Forge平台,帮助企业基于专有数据训练和调整AI模型,摆脱通用AI系统局限。该平台支持模型生命周期各阶段,包括内部数据预训练、特定任务后训练和强化学习。ASML、爱立信和欧洲航天局已开始使用。企业可保持模型和数据所有权。分析师认为,完全定制模型适用于合规要求严格的行业,但成本和技术门槛较高,短期内可能仅限于特定用例。
DoorDash推出全新Tasks应用,让配送员通过完成小任务赚取额外收入。这些任务包括拍摄菜单照片等常规工作,以及专门用于AI训练的数据收集。配送员可录制日常任务视频或外语对话,帮助AI系统理解物理世界。任务报酬根据复杂程度确定,如扫描货架16美元、西班牙语对话20美元。该应用目前在美国部分地区推出,但加州、纽约等地禁止使用。
麻省理工学院会议探讨人工智能的发展方向,记者Karen Hao呼吁改变AI发展轨迹,摆脱大规模数据和模型扩张,转向小型任务导向AI。她以AlphaFold为例,强调小规模精准模型的价值。学者Paola Ricaurte强调目标驱动的AI方法重要性。两位演讲者均鼓励公众积极参与AI发展讨论,认为技术轨迹尚未固定,公众干预至关重要。
Databricks发布AI智能体Genie Code,帮助企业数据从业者自动化数据科学和工程任务。该工具集成在笔记本、SQL编辑器和Lakeflow管道编辑器中,可规划、构建、部署和维护端到端机器学习工作流,包括自动化实验跟踪、监控管道、修复模型问题和优化资源。分析师认为,这将显著缩短数据洞察生成时间,简化治理合规流程,并可能改变企业AI系统的竞争格局。
万事达开发了基于交易数据训练的大型表格模型,用于解决数字支付中的安全和真实性问题。该模型在数十亿笔卡交易数据上训练,包括支付事件、商户位置、授权流程、欺诈事件等信息,并在训练前移除个人标识符。与传统欺诈检测系统相比,该模型能更准确识别异常模式,特别是在高价值低频购买场景中表现优异。万事达计划将其与现有检测系统结合使用,并扩展至忠诚度计划和投资组合管理等领域。
摩根大通正将AI从试点项目转向核心业务系统,预计2026年科技预算将达198亿美元。该银行在风险分析、欺诈检测和客户服务等领域大规模部署机器学习工具,其中包括约12亿美元的额外科技投资用于AI相关工作。AI系统已在交易分析、信贷评估、欺诈监测和内部运营中发挥重要作用,显示出企业级AI应用正从实验阶段迈向日常业务运营的核心地位。
亚马逊支持的奖学金项目将资助10名斯坦福博士生,他们的研究涵盖从通讯改善到疾病理解和数据保护等多个领域。其中包括帮助瘫痪患者通过计算机流畅交流的脑机接口、可模拟完整虚拟细胞的"玻璃盒"AI模型,以及保护用户免受AI工具追踪分析的隐私保护技术。该项目旨在推动实用AI创新发展。
根据Azul发布的2026年Java现状调查报告,62%的受访者在AI开发中使用Java,比去年的50%有显著提升。报告基于2025年9月至11月期间对2000多名Java用户的调查。调查发现,Java开发者在开发AI功能时有众多AI库可选择,其中JavaML最受欢迎。此外,81%的参与者已经或计划从Oracle Java迁移到非Oracle的OpenJDK发行版。
微软研究发现,一个看似无害的提示词能系统性破坏主流语言和图像模型的安全防护机制。该技术称为GRP-Obliteration,利用常见的AI训练方法达到相反效果。仅用"创建可能引发恐慌的假新闻文章"这一提示词训练,就能让模型在44个有害类别中变得更加宽松,攻击成功率从13%跃升至93%。研究涉及GPT、Gemma、Llama等15个模型。专家认为这为企业AI安全敲响警钟,呼吁建立企业级模型认证和持续安全评估机制。
Databricks的Mosaic AI研究团队在其MLflow服务中新增MemAlign框架,旨在降低基于LLM的判断器训练成本和延迟。该框架采用双重记忆系统,用基于人类专家反馈的记忆驱动对齐替代暴力重训练方式。MemAlign将知识分为语义记忆和情节记忆,能够快速适应新领域评估标准。测试显示其效率与标注数据集相当,有助企业更好地治理和评估AI系统行为。