2023年被称为“大模型”元年。
“你们有几个AIGC用例了?”已成为CIO/CTO 们见面打招呼的“问候”语了。
以至于在业务中没有采用ChatGPT或者还没有开始规划“大模型”用例的企业都不好意思说自己还在搞数字化转型。
但其中的问题也是层出不穷。在规划、开发“大模型”与业务场景的结合时遇到的问题可说是“谁用谁知道”。
大模型:数据治理尚起步,场景落地有难度
尽管企业的CIO们正加大对大模型的研发与投入,但仍要承担相当大的风险。某能源行业的CIO向至顶网记者表示:“大模型不同于其他的数字化转型项目,有较为明确的投资、收益评价方式,实施路径也较为明确。企业在研发大模型用例时,有一些关键环节还存在诸多挑战。”
首先是模型选择问题,市面上有上百种大模型可以选择,大家的侧重点不一样,对于国有企业而言,会优先考虑国内开发的大模型,模型安全与数据安全是首要考虑的问题。
其次,训练数据的质量与行业的知识积累问题。能源行业产业链相对较长,数据治理刚刚起步,各个环节的数据收集、整理是一个复杂过程,数据的多样性、异构性的问题较为严重,不同数据设备、传感器也会产生大量异常数据,以及数据漂移、数据误差导致的数据一致性问题仍然严重。行业知识积累的数据数量尚不充足与完备。
第三、大模型幻觉问题仍是一个严重风险。因此现阶段开发的用例还只能在小范围试点,尚不能形成规模效益。
同样的问题也困扰着其他行业的CIO和实践者。为此我们采访到了新华三集团数字中国研究院常务副院长李飞为我们答疑解惑。
新华三集团数字中国研究院常务副院长李飞
大模型:不能只求“大”,更要追求“准”
李飞认为,企业在选择“大模型”上应重点关注模型大小和复杂度、训练数据量以及模型精度和稳定性这几个关键指标。
他指出:“模型大小和复杂度是重要的指标。它会直接影响到模型的训练速度、内存需求以及部署的难度。一般来说,模型越大,复杂度越高,模型的性能可能也会更好,但同时也需要更多的计算资源和时间来进行训练和部署。”
训练的数据规模是另一关键指标。“因为它会影响到模型的泛化能力和性能。如果模型训练的数据量足够大,数据的质量足够好,那么模型就可以学习到更多的样本特征和规律,从而获得更好的性能,从而生成的内容也更贴合实际,更准确。”
模型精度和稳定性是企业关注的重要指标。这两个指标将直接影响到预测效果和实际应用。一般来说,经过充分训练的大模型可以获得更高的精度和更稳定的性能,但同时也需要更多的计算资源和时间来进行训练和验证。
因此李飞认为企业在选择和使用大模型时,需要根据具体的应用场景和需求来选择合适的模型,并进行充分的训练和验证。
Token是概率,消除幻觉靠训练和对齐
企业时常担心大模型的“幻觉”。大模型幻觉,简而言之就是大模型“一本正经地胡说八道”。李飞解释道:“大模型幻觉是模型生成的内容与现实世界事实或用户期望不一致的现象。其本质原理是大模型并没有像人一样理解了问题和答案,而是基于概率的 token by token 的形式产生的回答。”
“此外,还存在隐私保护安全,大模型可能会在未得到用户许可的情况下收集、使用或泄露个人信息;在价值观对齐问题上,由于人类社会的价值观多元化,如何确保AI的行为与设计者的期望一致是一个难题;在技术安全问题上,如模型遭受黑客攻击、训练数据受到污染或篡改;内容安全方面:涉及生成的内容(如文本、图像)是否符合道德、法规以及其被恶意使用的风险。”
“数据质量差是致使它产生幻觉的一大原因。其中也包括数据缺陷、数据中捕获的事实知识利用率低等问题。除了数据,训练过程也会使大模型产生幻觉。主要是预训练阶段(大模型学习通用表示并获取世界知识)、对齐阶段(微调大模型使其更好地与人类偏好一致)两个阶段产生问题。”
避免大模型的幻觉应从算力、数据、新技术三个方面来解决。李飞认为:“参数量的增加,会让大模型的能力提升,但目前大模型的参数量正以三四个月翻番的速度增长。因此,计算能力很快会跟不上模型的发展需求,因此对计算力的需求、高品质网络的需求与日俱增,需要加快算力、网络品质的提升,包括调度的提升。”
此外,优质训练数据的增加,也会让大模型的能力提升。随着大模型发展走向深度,要训练出满足产业需求、精度极高的垂直行业模型,一定需要更多的行业专业知识,以及企业私域数据。
最后,要解决大模型幻觉问题,就需要发展新的颠覆性技术,来突破结构化信息、陈述性事实、长链条推理、深度语义理解等方面遇到的瓶颈。
针对内容安全,可通过内置安全限制提示词和出入内容过滤拦截功能,可对所有场景下大模型生成内容进行安全性限制,为用户信息和数据安全保驾护航。从信息安全的角度看,新华三百业灵犀(LinSeer)私域大模型具有行业专注、区域专属、数据专有、价值专享的特征,数据专有确保To B、To G数据专有不出域、可用不可见,帮助客户以私有数据训练订制化的人工智能,建设最“放心”的私域大模型。
为了实现价值对齐,研发人员需要在模型层面让人工智能理解、遵从人类的价值、偏好和伦理原则,尽可能地防止模型的有害输出以及滥用行为,从而打造出兼具实用性与安全性的AI大模型。例如,人类反馈的强化学习(RLHF)要求人类训练员对模型输出内容的适当性进行评估,并基于收集的人类反馈为强化学习构建奖励信号,以实现对模型性能的改进优化。
多维度评价大模型,才能找到适合的大模型
企业要研发、训练出能用、好用的大模型首先要有一个合理的评价体系。
以新华三的私域大模型百业灵犀(LinSeer)为例。李飞表示:“今年百业灵犀刚通过了中国信通院组织的大规模预训练模型标准符合性验证,模型开发模块被评为4+,达到国内先进水平。”
“此次评测在数据管理、模型训练、模型管理、模型部署、开发流程一体化五个功能模块展开了全方位、多维度测评。”如此看来,性能评测确实是对模型评估的重要方面之一,目的是为了确定模型的效率和资源消耗情况,以便优化模型的性能。这类评测可以从多角度进行,会涉及训练时间、推理时间、内存占用等诸多方向,但其中以模型大小与复杂度、训练数据量以及精度稳定性等为关键指标。”
具体来说,大模型的大小以及复杂度会直接影响到训练速度、内存需求以及部署的难度。一般来说,模型越大复杂度越高,模型的性能可能也会更好,但同时也需要更多的计算资源和时间来进行训练和部署;而训练数据量则会直接影响到模型的泛化能力和性能,也可以理解为如果模型训练的数据量足够大,数据的质量足够好,模型就可以学习到更多的样本特征和规律,从而获得更好的性能,进而生成的内容也更贴合实际,更准确。大模型的精度和稳定性也是关键指标之一,因为直接影响到模型的预测效果和实际应用。一般来说,经过充分训练的大模型可以获得更高的精度和更稳定的性能。
因此评价大模型的能力,可以从算法模型能力、场景通用能力、安全能力和平台能力这几方面入手:算法模型能力是衡量一个模型本质性能的重要标准,直接关系到能否完成预设任务以及完成的效果如何,可以说强大的算法模型能力是模型性能优秀的基石。
而场景通用能力则是指模型对于各类场景问题的处理能力。“如果一个模型只能在特定的任务或者领域内表现优秀,但在其他任务或者领域内则表现很差,我们可以认为这个模型的通用能力较弱。衡量模型通用能力的方式是在多个不同任务或领域内应用模型,观察模型的表现如何。”李飞这样表示。
此外,平台能力主要是考察模型的效率、扩展性以及稳定性。对于大模型来说,如何在保证性能的同时提高效率、可扩展性和稳定性,一直是个重要问题,这个方向就可以侧重考察大模型处理大数据的能力,模型的训练和预测速度,以及在高并发情况下的稳定性。对于模型的使用者来说,模型的安全性也是至关重要的,安全性的评估可以看到模型在面对恶意攻击时的全面表现。
未来,大模型会走向何方?
如今,大模型在实际应用中遇到最多的问题是什么?无非是不断增长的参数量、硬件资源需求以及持续激增的能耗压力所带来的行业落地困境。在行业应用中,大模型应用往往不是单一的物体检测、语音识别、文字识别等场景,而是集合了多种场景的综合体,在实际落地时需要结合具体场景做针对性的算法调整和应用处理,所以合适的落地工具选择将有效规避大模型与应用场景的割裂,打通模型到业务场景需求的通道,实现应用场景的拓展和衍生,而未来,这一项则是引领大模型发展的重要所在。
对于大模型的未来,李飞认为:“我们其实还要关注模型大小的合理化,毕竟AI大模型的大小需要平衡算力和能耗的开支,应选择适合行业特点以及业务特点的大模型进行私域部署。”
“而伴随AIGC的持续火热,通过区分AIGC业务应用场景势必可加速推动人工智能产业的落地应用,大模型发展也将被大大助力。当然,越发被重视的内容安全合规,例如通过建立内容输入防护、模型本身防护以及内容输出防护为一体的内容安全体系,以及高效的数据治理能力加强行业数据的沉淀等,也都将成为发展中不可或缺的核心内容。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。