亲,欢迎光临天天书吧!
错缺断章、加书:站内短信
后台有人,会尽快回复!
天天书吧 > 都市言情 > 重生之AI教父 > 第232章 开始筹备GPT!
  • 主题模式:

  • 字体大小:

    -

    18

    +
  • 恢复默认

人机大战结束之后,孟繁岐原本计划分出一部分精力在自动驾驶相关的任务上,以履行此前与马斯克和黄仁勋的三方协议。

可经历了与马斯克的这番对话之后,孟繁岐打消了这个念头。

他感觉到,马斯克显然是一个控制欲极强的人,如果不先吃点亏的话,终究还是没法真正理解自己技术的价值所在。

“既然他觉得创办openAI比在自动驾驶上与我合作更加重要的话,那就让他先去创办吧。”

“这一次我必须实力说话,掌握关系当中的主导权。”时间越早,孟繁岐的技术优势就越明显,如果眼下不能提前拿捏住马斯克这样的日后大佬。

在以后的合作关系当中,只怕走势会越来越糟糕。

“虽然在三方协议当中,我与黄仁勋马斯克约定了要做自动驾驶,可既然马斯克撕破了脸挖角谷歌,大半年之内我就不方便和他合作了。那就依着他去,让他自己慢慢摸索,我完全可以先把这件事情放一放。”

“我继续做t方法后续的Gpt等技术,把语言大模型在今年初步推动起来,一样是完成了和黄仁勋的合作。”

语言大模型也需要海量的显卡,同样是黄仁勋的核心诉求,走这一条路,相当于绕过马斯克,达成了双方协定。

不得不说硬件厂商就是牛,横竖他老黄是一点不吃亏。

“等合作完全达成,我在英伟达的控股比例也会逐渐达到百分之二左右了。”

老黄的确横竖不吃亏,他孟繁岐既然没法拥有英伟达,就只能尽量多在英伟达和Amd之类的公司中持有股份了。

毕竟此时两者的市值股价相比后来差了太远,尤其英伟达,还不足后来市值的百分之一。

现在买的每一股,几年后都是百倍的价值。

“t方法竟然开源了?怎么会这么快?”这天清晨,有领域内学者按照惯例开始了自己的一天,端一杯咖啡,看了看邮件。

随后便打开了论文平台arxiv和代码平台github,看看今天又有什么最新的进展,有什么新奇的大新闻。

旋即,他惊奇地发现,就在十几天前刚刚震惊世界,爆刷二十几个榜单的t方法竟然悄无声息地就这么开源了。

没有什么专门的预告、宣传和造势,核心作者孟繁岐连个推特都没发,不声不响地就上线公布了。

仔细一看时间,距离上传还不到24小时,就已经有上千个点赞和两百多个分支复制了。

这个数字在代码平台上,含金量可是相当之高的,并不是围脖等社交平台上那样动辄几百万的点赞数据能够相比拟的。

许多影响了世界的技术,可能也就大几千,小几万个赞。

“我赶快点个赞,然后复制一下,再发个推特和脸书,这就算是我看过源码了!”这是许多程序员佯装自己很忙碌的好办法。

虽然这个方法震惊了世界,不到一天时间就有千余人注意到了这份代码,可真的会仔细地结合论文阅读源码,自己在这个基础上做开发,做实验去分析的人,其实还是没有那么多的。

全世界能有个万把人可能都说多了。

不错,六月中旬,谷歌大脑结束了相关代码的整理,低调地选择了开源。

其实,在谷歌内部还是有许多人持不同观点的,他们认为这项技术完全可以稍缓几个月到半年再公开,以谋求更大的利益。

不过在孟繁岐的坚持之下,t方法论文的最终版和方法的代码在整理结束后直接开源,干脆利落。

这个内部消息传出,让此前偏听偏信了cNN那套说辞的人顿时觉得十分羞愧,这完全是小人之心度君子之腹了。

“毕竟就连阿尔法围棋都还没开源呢...那个工作都已经做完半年了,谁能想到他开源t方法如此干脆利落!”

阿尔法围棋孟繁岐虽然是核心贡献者,但撑死了也就只能占个三四成的功劳,还占不到一半。

主体控制权仍旧是deepmind,孟繁岐不好越过戴密斯和席尔瓦等人去宣布开源。

约定在年底,也是几人商讨之后,权衡了利弊才最终决定的。

“这小子不会又在憋下一个大招了吧??”

“我怎么有种不祥的预感??”

“这情况好吓人啊,我现在都不敢做研究了,生怕忙活大半年又被他直接掀翻了,全白干!”

孟繁岐此时的形象,已经差不多成为了领域终结者。

论文一发,生死难料。

谁都不知道哪个领域会是下一个受害者。

吃瓜群众们没有猜错,既然马斯克有自己的小算盘,孟繁岐已经转移重心在紧锣密鼓地继续t方法的后续技术道路了。

初版的t方法并没有那么成熟,取得发布会上的那些成绩,需要大量的数据和计算资源才能做到,孟繁岐认为开源它并无大碍。

一般人根本玩不起这东西。

就在大家还在仔细琢磨论文,研究代码的这段时间,就足够孟繁岐准备好后续三大方向的框架了。

等这群人还忙于复现,调整参数,在训练过程中持续踩坑阶段的时候,孟繁岐后续的实验都能做一半了。

等他们真的能够有一些什么不够成熟的发现时,孟繁岐基于t方法的后续:Gpt、bERt和t5三大路线的论文,说不好都已经整装待发了。

“我就是要故意漏出一些破绽,给学界一些希望和曙光,然后在他们觉得自己行了的时候,狠狠地掏出更强的方法,给他们致命一击!”

不得不说,他实在有点恶趣味。

但另一方面,这也是为了孟繁岐私人的利益。

只有开源放出t方法,让更多的人提前采用它、认可它,英伟达才能够更早地对这个方法有充分的信心,对t方法做硬件的专门适配,双方的合作关系更加紧密。

此举能够大大加深他与英伟达之间的羁绊,自然是需要大力推动的。

“bERt方法和Gpt方法名字里面都有一个t,这个transformer便是两者的基础。bERt的全称是来自t方法的双向编码器表示,而Gpt的全称是预训练生成式t方法。”

“这两个名字虽然听起来让人觉得云里雾里的,但可以用一种很好记的方式去理解。基础的t方法与此前经典的循环网络一样使用了编码器和解码器组合的结构,bERt专精于编码器,而Gpt专精于解码器。”

t方法提出一段时间之后,学者们发现,这种全新的结构并不一定非要遵循原本的那种编码器解码器结合的模式,而是可以仅仅只使用一种格式就取得很优秀的结果。

“其实自然语言处理的任务,核心是一个有关概率的游戏。这些模型在大量的文本和数据上进行训练之后,模型就会非常擅长做填空游戏。它会根据上下文,在文字的空白处填写答案。比如:我今天股票【空格】了。AI就会发现,赚和赔这两个字拥有极高的出现概率,因而会根据其他前后文,选择一个概率更高的词生成在空格位置。”

虽然比较不可思议,不符合人类对语言的理解,但事实的确是如此。

即便是Gpt-4那样档次的语言模型,机器也没有任何一点点理解了这个世界。

它只是特别擅长根据前后文,根据你的问题去生成最大概率让你比较满意的回答,这是根据海量文字数据得来的能力。

这点和我们猜谜语特别像,只是看过海量数据又精于计算的模型算得特别准。

“在t方法发布的技术路线之上,bERt和Gpt是两个最有人气的语言模型,在原本的时间线上,谷歌和openAI选择了不同的路线。”

孟繁岐大概回忆了一下技术路线,这两者的共同点是都使用了大量的文本数据做了预训练,即让模型预先学习海量文本中的知识。

两者最大的区别,是bERt采用了针对不同任务类型做细微专门调整的方式。

而Gpt则是通过更加未来的形式,只需要用户直接与其对话,提供指令,便可以去要求它做特定的任务。