从模式上说,Gpt显然要强很多酷很多。
因为bERt的模式需要对特定的任务做大量的调整工作,仍旧无法摆脱现有人工智能技术的困境。
它更像是一个特定任务上的工具,而非是一个智能。
不过直到chatGpt出现之前,几乎没有多少人相信过Gpt的模式真的能够更强。
因为一直以来,Gpt的性能效果都要比bERt方法差了不少。
“即便我将两个方法都做出来之后选择支持Gpt,恐怕也不会有多少人跟随我的脚步吧...他们大概只会觉得,我为了完成当年视频中的宣传效果,已经开始不尊重事实,无法正确看待自己的技术了。”
开源了t方法之后,孟繁岐所有的精力就完全扑在了一件事情上,那就是确立t方法后续路线的两种范式,bERt和Gpt上。
不过这一次,他倒没有着急着手写代码和论文,而是花了很多时间与辛顿师徒以及其他谷歌大脑的同事讨论其中的模式和原理。
“首先,你的这两个路线,肯定都是基于预训练大语言模型的,只是针对后续具体任务的方式不大一样。”
辛顿还是那么擅长把复杂的问题和区别迅速地归纳总结。
所谓的预训练,并不是什么难懂的概念。
所有的模型都是由大量的参数组成的,最初的模型,所有的参数都是依照一些简易的模式随机生成的,这个模型不具备什么能力。
利用这样白纸一张的模型进行人工智能任务的学习,叫做从头训练。
载入已经学到了知识的参数模型,而不是随机产生的参数,就叫做使用【预训练模型】。
比如孟繁岐最开始参赛千分类任务,就是从头训练。
在语言领域当中,模型通常很大,所需要的文本数据也非常之多。
不是每一个都像孟繁岐这样,拥有成百上千张的泰坦Z来做实验的。
倘若现在有一个人,想使用最新的t方法,在自己的任务上使用,比如他想要一个可以辨别哪些语句说了脏话的t方法模型。
那么他就有两个选择,一是随机生成参数,从头训练一个t方法模型。
二,他可以直接载入孟繁岐开源出来的模型参数,然后在自己的数据和任务上做一些细微的调整,俗称基于【预训练模型】的【微调】。
很显然,后者的效果要比前者要好太多太多。
因为前者是从一个什么都不会什么都不知道的模型,从零开始,t方法可不是什么容易训练的模型。
而后者,则是已经在非常庞大的语言数据上学过语言的一般性规律和知识的聪慧模型。
站在巨人的肩膀上,模型学起新东西来,事半功倍。使用少很多的成本就能够取得成效。
“没错,在预训练阶段,我们可以使用大量没有人工打过标签的文本数据,避免了对大量标注数据的依赖。预训练的模型能够抽取出更丰富的语义信息,提高模型在各种自然语言处理任务中的性能。”
这是不论在图像领域、文本领域还是语音领域都已经成为基础的模式。孟繁岐觉得这点没有什么值得讨论的,毫无争议。
“其中的区别就是,究竟是使用特定数据去【微调】模型,还是使用【指令】去提示模型。”孟繁岐如此说道,这两点,就是bERt和Gpt技术最大的区别所在了。
“通常来说,我们都会觉得应该做【微调】。预训练的模型学到的能力比较笼统,如果不专门针对某个任务去做【微调】的话,效果通常都会不大好。”伊利亚和阿里克斯等人都觉得这是常识。
不过如此做的话,显然就无法达到孟繁岐宣传的那种模式和效果了。
举一个很简单的例子,bERt和Gpt都在大量的文本上做了预训练,现在它们有任务了,任务就是判定社交平台上的用户们发言的时候有没有在开车。
那么bERt的模式是【微调】,我会收集一大堆开车搞颜色的文本,然后把它们一个个标注清楚,喂给bERt去训练。
“你小子看清楚了,这样的人就是在开车。”
bERt大量观看开车文本,然后微微调整自己的参数,进行了二次学习,针对性学习。
摇身一变,它就变成了文字交警,专门抓捕社交平台上那些在开车的文本和用户。
但是同时,由于做了针对性的训练,它在其他方面的能力会有所损失,受到一定的影响。
如果让它再做别的任务,就不大行。
而Gpt的模式,则是【指示】。
也就是说,模型不会做二次学习、针对性学习,它不改变自己的参数。
你要做的,是给它一个示范和引导。
“你看一下,帮我找找类似这样的句子。”
然后它就直接开展工作了。
下一次需要做别的任务的时候,bERt就很不方便,只能重新再做针对性学习。
Gpt则看一下新的指示和样例,又能直接再次工作。
这在目前的阶段来看,是非常不可思议的。
至少在场的诸位都觉得这么做是得不偿失,为了某种形式上的先进而损失了大量的性能,毫无必要。
“你这说的是不是太离谱了,你只是做一个示范,给模型一个提示,根本就没有修改过任何的模型参数,为什么它会有效果的提升?”听完孟繁岐对两种办法的形容之后,阿里克斯眉头紧皱:“结果如果真的是这样,那不是彻底成玄学了?”
孟繁岐心说可不么,这东西听起来是不可思议,但确实有效。
直到他重生前,这件事也没有一个特别靠谱的严肃解释。
而且这还不是最神奇的地方。
上面所说的那种,给Gpt一个例子,然后让他做这样的工作,叫做one Shot学习。
因为至少,你还让它看了一个例子,做了一次示范。
而在后来的chatGpt和Gpt-4的时候,更多的用户使用情况,是根本不会给模型任何例子的。
一般冲上来就直接布置工作了,比如“帮我翻译一下这个句子”又或者是“帮我以xx为题写一个xx”。
这种模式叫做Zero Shot学习,连例子都不用给,直接开干。
不管是分类文本,学习情感,写作文案还是翻译句子,不多废话直接安排,它自己就能看懂要做什么。
这才真的符合孟繁岐在人机大战的时候展现的那个概念视频,多种功能合而为一。
同时,它也是Gpt与bERt最为不同的地方,这种独特的使用方式使得chatGpt效果一旦达标之后,直接就成为了现象级的产品。
毕竟谁能拒绝这种十几合一的多面手智能小助手呢?实在太酷了。
“你规划中的bERt和Gpt,其实就是自编码和自回归。Gpt会更擅长生成任务,翻译和问答。bERt则会更加擅长重建文本,做语言的分类。”
辛顿仍旧非常老辣地抓住了两种方式的重点,但即便是这位AI老教父,他的预测终究还是出现了偏差:“我个人觉得,bERt的模式会强大很多,双向编码虽然牺牲了直接生成文本的能力,但对语言中各个词汇的理解会更加到位。Gpt只能单向预测下一个文本,它对句子之间的内在联系理解是不够到位的。”
孟繁岐觉得辛顿虽然支持bERt,但他的预测和分析并不能算错。
毕竟chatGpt经历了1、2、3、3.5四代迭代,才孕育出了chatGpt。
在亿级别的时代,Gpt需要四五倍的参数量才能够维持bERt级别的性能。
谁都没有想到,模型参数量到达接近两千亿的规模之后,竟然涌现出了这般神奇的超能力。
如果只从目前几千万甚至只有几百万的参数量规模去考虑的话,Gpt的实力的确很难去和bERt相比拟。
“我推荐伱还是把主要的精力放在bERt这种模式上,t方法的效果已经非常优秀了,在你加入了双向形式,专注编码之后,在很多特定的任务上都会有巨大的突破。”
孟繁岐只是笑了笑,没有争辩,作为重生人士,他清楚哪些建议比较有价值,哪些建议是被时代所局限了。