“有两次我曾经被问到这样一个问题,计算先驱查尔斯.巴贝奇(Charles Babbage)在1864年的时候写道:‘祈祷吧,巴贝奇先生,如果你把错误的数字放进机器里,会有正确的答案出来吗?’我没办法正确理解可能引发这个问题的混乱思路。”
因此,“垃圾进,垃圾出”的基本软件原理诞生了。然而,今天,人工智能(AI)已经增加了对巴贝奇难题的赌注,因为来自人工智能的“垃圾输出”导致了令人震惊的偏见。
人工智能——特别是机器学习和深度学习——将大数据集作为输入,从这些数据中提取基本规律,并根据它们提供结论。
例如,如果你想使用人工智能在招聘时给出哪位候选人是最佳选择的建议,你提供为算法提供了过去成功的候选人的相关数据,它将会把这些数据和目前的候选人进行对比,并给出建议。
这里只有一个问题。如果输入的数据带有偏见——比如说,主要由年轻的白人男性组成(也就是我们所说的“垃圾进”),那么人工智能会向你推荐谁呢?你猜对了:大多是年轻的白人男性(这是可以预料得到的结果,也就是“垃圾出”)。
正如巴贝奇可能可以肯定的那样,这里的问题在于输入的数据,而不是人工智能算法本身。但是这更多的是数据带有偏见,而不是坏数据。“数据本身就是数据,”Fourkind的机器学习合作伙伴Max Pagels表示。“这不是社会偏见,这只是一堆数字。需要仔细构建数据集以避免引入社会偏见,但是它本身并没有偏见。”
人工智能算法本身是否带有偏见也是一个悬而未决的问题。“(机器学习算法)尚未针对公平性的任何定义进行优化,”加州大学伯克利分校信息学院副教授Deirdre Mulligan表示。 “他们已经进行的优化都是针对完成任务的。”
好文章,需要你的鼓励
今天讲的出海案例是维科精密,这家汽车电子与功率半导体精密部件厂商正在泰国建设总投资3.10亿元的生产基地。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。
随着AI智能体对实时数据访问需求激增,企业维护独立事务与分析系统的成本和复杂性日益凸显。Databricks、Snowflake、EDB等厂商纷纷推出融合架构。分布式PostgreSQL提供商pgEdge近日发布ColdFront测试版,采用冷热数据分层架构,自动将旧数据迁移至Apache Iceberg对象存储,同时保持PostgreSQL作为唯一应用接口。分析师指出,DuckDB正成为此类架构的事实标准嵌入式分析引擎,但由此产生的集中风险值得CIO关注。
MemoBench是哈佛大学等机构联合推出的视频生成评测基准,专测AI在物体消失再重现场景下的记忆能力,揭示了当前所有主流模型的核心盲区。