至顶网软件频道消息: 从前,车、马、邮件都很慢。人与人的文字交流多是一群人写、另一群人看,缺乏即时互动性。
现在,设备、网络、信息都很快。人与人的沟通离得再远也像是面对面,虽然拉近了亲密距离,但也扩大了冲突范围,导致舆论环境“乱象丛生”。
正因如此,网络暴力和言论攻击成了摆在所有社交平台面前的棘手问题。为解决这一难题,这几年来Facebook、Google、Instagram等互联网社交巨头尝试了各种方法,除了不断增加人工审核的力度之外,也开始利用人工智能等技术手段来打造和谐的互联网环境。以Instagram为例,通过使用Facebook推出的DeepText机器学习算法,它已经实现了对内容的智能化筛选、对垃圾邮件的删除以及对不友善评论的过滤。
然而,何为“不友善”?这个问题是难以界定的。
比如,以前“呵呵”表达的是一种不失礼貌的微笑,但现在却常被解读成具有嘲讽意味的词汇。而如果放到不同的语境中,它既可能是朋友之间的调侃,也可能是陌生人之间带有攻击性的交流态度。
所以,要重整互联网环境首先要解决的其实是尺度和标准的问题。
第一步:找到社区的“最大公约数”
对此,在国内,知识分享平台知乎早在2013年就推出了社区内的良性讨论公约,并在2016年上线了评论折叠功能和社区管理机器人“瓦力”,利用人工智能技术对社区进行治理。
上线后的一年里,知乎不断优化“瓦力”的算法和功能,目前已经能够实现答非所问、不友善识别、广告导流、敏感图片识别、低质提问识别等功能。而据知乎社区治理团队介绍,接下来 “瓦力”机器人还将上线“阴阳怪气”(反讽语言)识别功能,通过对用户行为数据的分析、学习,基于语义和用户关系进行更深层次的理解和建模。
6月23日-24日,知乎以“阴阳怪气”为主题办了一场书法展,用别具一格的方式展示了知乎平台上许多具有“阴阳怪气”意味的评论内容,比如:“嗯 你很棒棒”、“没有好好学语文?”、“该吃药了”、“答主你还活着吗?”、“哈哈哈 太好笑了”等等。
对应保罗·格雷厄姆提出的有关“反驳的八个层次”,知乎把这类言论归结为“不针对发言内容,而是批评对方的语气”以及“提出反对意见,但不给或给出极少数论据支持”两个层级,并认为这通常会给创作者和交流者带来负面的体验。
当然,回到最初提出的“尺度和标准”问题,由于网络语言和情感分析的复杂性,加上中华文化的博大精深,不同的人物关系、对话场景和时间下,一千个人眼中可能解读出两千个“哈姆雷特”。因此,“阴阳怪气”言论的判定也很难拿捏,每个人的情绪阈值不同,同样的语料在不同语境下也会引发不同情绪,即便由人工来审核判定都存在差异化,对于人工智能算法而言挑战也就更加显而易见。
对此,知乎认为,除了语义分析,其中非常重要的还要基于用户普遍感受要找到社区的“最大公约数”,让数据标注、用户体验和算法三方的尺度对齐,然后再交由“瓦力”反复学习和训练。
综合三大模型,多维度提升识别准确率
基于此,知乎团队从情感倾向性、亲密关系、文本特征三方面入手,构建了情感模型、用户亲密度模型和文本识别模型三大模型,通过多维度交叉分析的方式对算法进行训练,大大提升了“瓦力”的阴阳怪气识别准确率。
具体是怎么回事?据知乎内容质量管理团队技术负责人刘兆来介绍,首先是通过知乎社区里的举报、反踩等负向用户行为进行收集和标注,为机器提供训练数据;随后在训练中把文本特征、数值特征、反讽词表,以及一些表现符特征等融入到模型中,并通过各种同义替换、规则模版方式对训练数据进行扩展和增强,以缓解训练数据不足的问题。
与此同时,“瓦力”还会提取文本、句法、表情符等特征,并利用一个带attention的CNN和LSTM融合模型进行分类,最终判断出内容是否为“阴阳怪气”语料。
知乎运营总监孙达云表示,目前“瓦力”对阴阳怪气评论文本的识别准确率已非常接近“社区最大公约数”,能够实现对95%以上违法违规、垃圾广告信息和不友善内容的主动打击、覆盖和筛选,每日可处理内容近万条。
同时,知乎将在近期对该技术进行产品化尝试,向用户提供“瓦力”阴阳怪气智能过滤选项。也就是说,以后当我们回复“瞧把你能的”之类有反讽嫌疑的评论时,就可能被“瓦力”无情处理。当然,为了不影响体验,用户可以自由选择开启或关闭该功能。
具体来说,如今“瓦力”已能实现对“暗藏玄机夸奖”(比如忍不住关注答主了,你的答案很有水平!你博士快毕业了吧!)、“好为人师”(比如我觉得你挺惨,虽然长这么大了,还真应该回小学改造)、“强行反驳”(比如你开心就好、请开始你的表演)等数类阴阳怪气的内容进行识别。当然,孙达云也强调,由算法筛选出来的内容最后还会由人工进行一轮审核,从而避免遗漏或误伤。
“未来我们还会将不断优化‘瓦力’的识别能力,提高模型泛化能力,同时不断迭代更新模型,紧跟学术前沿的同时,适应网络语言的变化潮流,不断提升准确率和召回率,最终将阴阳怪气识别技术全面应用到社区治理中。”
除此之外,刘兆来还指出,知乎接下来将会把AI技术应用去其它场景中,比如对站内数据进行知识图谱的构建、识别图文相关性、实现视频理解等等。
我们看到,截止到今年5月,知乎的注册用户已经达到1.6亿,并收获了超过1亿的回答。在这样庞大的社交平台上,通过人工智能技术的投入,对于解决网络暴力问题、优化互联网社交礼仪是极具意义的。
好文章,需要你的鼓励
Instabase 公司完成 1 亿美元 D 轮融资,估值 12.4 亿美元。该公司提供非结构化数据处理平台,可从多种文件中提取信息并标准化。新资金将用于增强数据提取、分析和搜索功能,以满足企业 AI 需求。
人工智能在建筑设计领域正展现出惊人潜力。从生成令人赏心悦目的建筑效果图,到创造无限游戏世界,AI 正逐步改变设计流程。尽管人类仍是核心创作者,但 AI 辅助工具正迅速普及,未来可能会大幅提升设计效率和质量。这一趋势引发了对 AI 取代人类建筑师的担忧,也带来了硬件革命和地缘政治影响。
研究显示,高收入公司的CEO正将人工智能置于业务战略的核心地位。欧美企业声称已具备AI项目的基础条件。专家建议避免过度乐观,关注投资回报,构建稳健的数据基础,并优先考虑循序渐进的推广策略。研究还发现,最成功的公司往往是那些高层领导有意识地不直接参与AI战略制定的公司。
微软研究团队开发了名为 MatterGen 的扩散模型系统,用于高效发现新材料。该系统可从大量候选材料中筛选出具有特定性质的新材料,比传统方法快速高效得多。这项技术有望加速电池等关键领域的创新,推动材料科学的发展。