7月14日,国际权威研究机构IDC(国际数据公司)公布《中国AI云服务市场半年度研究报告,2019H2》,阿里语音AI表现突出,2019年以44%的市场份额稳居第一位,大幅领先国内其他云服务厂商。
IDC报告调研了国内主要云厂商的云上AI服务,阿里AI获得三大领域6个维度第一。其中智能语音领域的产品数量、市场份额(44%)、API调用量三个维度获得第一,对话式AI领域的市场份额(57%)、API调用量两个维度获得第一,机器学习领域的市场份额(29%)维度获得第一。
阿里语音AI由阿里巴巴达摩院语音实验室加持,通过阿里云对外输出。达摩院的研究成果能够“零时差上云”,让用户低成本、高效率地获取语音技术和服务。2017年阿里云上线了语音自学习平台,帮助用户定制语音AI,目前客户和生态伙伴已自主开发了3万多个模型。
阿里云目前拥有5万多家语音客户,包括中移动、中央电视台、招商银行、字节跳动、小I机器人、天猫精灵等。“阿里云在智能语音技术商业化领域获得较大成功,收入领先其他公有云厂商,”IDC报告点评,“阿里云的成功之道:集结了大量ISV以及渠道类合作伙伴。”
达摩院语音实验室负责人鄢志杰说,云的出现让语音技术从少数人掌握的高端工具变成了人人可用的平民技术,“云上AI”是实现AI普惠的最好方式。IDC预测2018年到2024年中国AI云服务市场的复合增长率将高达93.6%,AI公有云服务市场潜力无限。
好文章,需要你的鼓励
Google Photos正向美国Android用户推出会话式编辑功能,用户可通过语音或文字提示来编辑照片,而无需手动操作。该功能首先在Pixel 10手机上推出,现已扩展到更多设备。用户需将Google账户设置为英文,并开启人脸分组和位置估算功能。通过点击"帮我编辑"按钮,用户可直接说出编辑需求,如去除背景中的陌生人、调亮颜色或消除眩光。该功能使用先进的Gemini技术,并提供原图与编辑后照片的对比显示。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。