至顶网软件频道消息: 阿里妈妈是阿里巴巴旗下的大数据营销平台,一直致力于大数据驱动的营销解决方案,利用机器学习技术赋能营销业务,帮助商家更好的发展。搜索营销是阿里妈妈重要的营销形态。提起搜索营销,如果你只能想起来竞价词拍卖,真的就太 out 了。在这个信息爆炸、多种社交工具齐飞的时代,当互联网另一端的用户采用难以捉摸的个性化方式进行搜索行为时,仅仅依靠竞价词排名已经无法精确理解用户的意图。而数字营销的出现,让用户的行为变的可记录,可分析;机器学习的出现,让商家开始从海量数据的分析和建模中对用户的消费行为做出预判;深度学习的发展,则开始让商家有机会借助计算机“参透”网络另一端用户的真情实感:当一个广告出现在他的面前,他是否喜欢它、点击它、购买它。
在阿里妈妈资深算法专家刘凯鹏(花名:治平)看来,搜索营销是数字化营销的重要手段,也是人工智能技术在工业界最成功的应用场景之一。人工智能技术能从根本上改变搜索营销的效率和形态,对于阿里妈妈搜索营销团队来说,人工智能技术是解决搜索营销中的业务问题的重要技术手段,阿里妈妈搜索营销团队结合深度学习等人工智能技术,在内容理解、用户理解、用户行为预估、智能出价、商品周期优化等方面进行搜索营销的技术和业务创新。
搜索营销迎来智能化时代
人工智能技术地位不断提升,这样的布局来自于阿里妈妈对搜索营销的理解。据治平介绍:搜索营销的第一阶段来自于竞价词拍卖,也就是商户购买关键词,系统对此进行召回、排序运作,通过关键词将用户关联到相关广告,对点击率进行预估,按照预期平台收益大小来排序候选广告。
移动时代到来后搜索营销进入第二阶段,用户搜索行为呈现个性化和碎片化态势,通过关键词关联广告,分配流量的方式面临挑战。需要深入的理解用户意图,个性化的分配流量。同时,在个性化的背景下,还需要帮助商家解决好流量的控制问题,帮助他们更好的表达他们的营销意图。在商家的整个受众选择,出价,预算,包括创意的制作等等各个方面帮助他们适应个性化的变化 。
人工智能和深度学习的发展和演进,给数字营销带来变革,也使搜索营销进入第三阶段——也就是智能化阶段。一方面通过图像技术,NLP,深度学习等技术更好的“模拟人”,通过模拟人的视觉感知过程加深对图像的理解,通过模拟人的记忆和推理过程来理解用户的整个行为序列,达到对用户更好的理解,在满足广告主营销诉求的同时让用户更好的找到自己需要的商品;另外通过人工智能和深度学习技术应用于营销场景中的匹配,预估和出价,在用户角度会感知到展示的广告更符合他的意图,在商户维度会感知到流量采买上有更多的抓手,而出价技术能力的提升,提供给了商户更强的自动化推广工具。
智能化时代:阿里妈妈早有准备
对于阿里妈妈来说,智能化搜索营销时代的核心,就是理解用户:理解用户的行为、商户的商品和投放策略。
治平所在技术团队当前所专注的技术包括:在模型方向上,专注于深度学习、强化学习、在线学习、元学习、图像技术等;在匹配方向上,目前则专注在用户 query 理解、改写、初选和智能出价领域,涉及信息检索、机器学习(包括深度学习和增强学习)、图挖掘、自然语言处理等技术;在机制方向上,通过使用深度强化学习、并行优化算法来实现广告的智能流量分配和流量计费。以上这些人工智能技术作用于营销这一业务场景下,会对业务带来明显变化:利用人工智能技术可以实现更精准的搜索广告点击率预估、转化率预估、用户意图挖掘;匹配算法可以快速高效的从海量候选广告集合中筛选出一个最符合用户意图的高质量集合,输送给排序模型,也可以帮广告主筛选出最匹配的流量集合,以及在这些流量上的最优出价。
在今年,阿里妈妈技术团队在智能化搜索营销上的举措有很多,模型方向的计划是:从感知、记忆、判断几个环节,利用人工智能技术进行深度建模,将“模拟人”做到极致;匹配方向的计划是:上半年发布在文本、图像和超大规模网络的匹配技术升级,下半年发布智能出价的技术升级。
技术驱动业务:让搜索营销如虎添翼
在治平看来,如果细数技术与业务之间的关联,有这样三个阶段:技术支持业务、技术增强业务、技术驱动业务。数字化营销发展到今天,面对智能化搜索营销时代的到来,新的技术形态的出现会让原来不可想象的业务场景成为可能,让技术催生出新的业态,这在以前是想都不敢想的。
具体到阿里妈妈搜索营销业务,因为其整个阿里集团闭环数据生态的独一无二性,它的数据形态、平台形态和电商形态,无论与做营销的 Google、Facebook,还是与做电商的 Amazon,都不一样。可以认为是融合了 google,amazon,facebook 的数据应用场景。
“淘系基本上完全是以图像为吸引载体,因此在对图像的理解方面,我们有很强的动力让我们做得更好;再结合深度学习技术,我们可以把对图像的理解继续深入”。当然治平也承认:“业务独特性也会让我们面临的技术挑战更大、更难。”
据治平介绍,在技术和业务深度结合方面,阿里妈妈针对独特的业务特点做出最佳的技术选择,并把技术发展到世界一流水平。阿里妈妈搜索营销团队在用户理解和用户对于广告行为的预测上会有极大投入;在深度学习模型训练、训练架构上,也是重中之重。“我们在训练整个并行度和速度上,对比现在业界开源的最先进的框架,有一个到两个数量级的提升”。
据了解,阿里妈妈搜索营销团队在世界顶级会议上多次发表论文,在将于 4 月份在法国举办的 WWW 2018 上,一篇介绍搜索直通车新一代智能广告检索模型的论文被大会收录。在传统的 Query 改写和召回领域,阿里妈妈提出了打破关键词和相关性约束的新一代智能检索模型,这是对传统搜索营销检索框架的重新定义。
既然提到技术的先进性,就离不开背后的技术团队。阿里妈妈搜索营销技术团队的研究方向包括两部分:一是算法策略,二是工程架构。算法策略主要分为两大块,一是服务于平台的流量分配,二是服务于商户在投放中的诊断优化和指导;工程架构则是要对超大体量业务服务完成在高并发情况下的支持。
整个技术团队也会秉承技术驱动业务的理念。通过了解学术界,得以将最新的研究成果借鉴到业务当中;以业务需求为基础,寻求可以借鉴的技术,结合自身想法发展业务;学习借鉴后,将技术发布,推动行业向前演进。
采访后记
对治平采访伊始,他对采访提纲中的最后一个问题颇感兴趣,这个问题被他首先回答:搜索营销对于整个阿里妈妈业务来说,意义是什么?再上升到整个阿里生态方面,搜索营销的价值是什么?
细细想来,如果抛开搜索营销的战略意义和价值,仅仅谈它的技术领先性,抑或业务独创性,的确似乎缺了点儿什么。对于这个问题,咱们看看治平的答案。
从阿里妈妈角度来看,搜索是用户的入口,是商家营销的最主要阵地,搜索营销变现对阿里妈妈来说无论是营收体量,还是业务伸缩,都是重要部分。从技术角度来看,在这样一个大体量数据,大体量用户场景下,把技术做到极致,的确重要而且必要。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。