“我个人可能会觉得,目前的计算能力还有不小限制。因为我的思路是想要从车身环绕的摄像头中,直接重构出三维空间的上帝视角图像,并为其中的每一个体积元素(3d版本的像素)去标注是否在空间中被占据。”
“想要做到这一系列事情,我的计算资源实在远远不够。”孟繁岐面对黄仁勋,理由自然永远是算力不够,哭穷才能要到资源:“与此同时,我又有太多的想法可以做,因此自动驾驶方面我确实不够积极。”
孟繁岐不急,可黄仁勋很急!
阿尔法围棋虽然登上了自然封面,但它对英伟达的帮助是很小的。
这个软件算法很厉害,但没有那么多硬件上的需求,不可能说十几亿人每人买两张显卡去跑人工智能围棋程序。
反观自动驾驶,那可是20亿车辆的潜在市场,每年都有上亿辆新车生产出来。
但凡新生产的车辆中,有一成左右购买英伟达售价最便宜,仅百来美元的tegra芯片,这里面的流水就已经超过十个亿美金了。
车企这部分的成长空间非常之大,是一条很长远的道路,想想以后万一要是抢占了大几成的车载芯片份额,黄仁勋馋得口水都快流下来了。
“缺少算力,我们可以合作嘛!”黄仁勋直接顺手拿起旁边的泰坦Z:“我优先供应一大批给谷歌大脑,但前提是你要做出自动驾驶方面的重大突破。”
跟马斯克说算力不够,那只能两个人一起挠头。
跟黄仁勋说算力不够,你小子是在看不起谁呢!
看到我手里这硕大的核弹了没有?有需求,你说话!
对于泰坦Z,孟繁岐肯定还是十分心动的。
毕竟他想搞chatGpt不可能是一步登天的事情,他需要尽快搞定训练平台,分布式训练方法和一些前置技术的发展。
深度学习平台杰夫等人已经在推动,前置的软件技术也不复杂,孟繁岐在年初对搜索引擎的更新里,就已经有不少算子的实现了。
最麻烦的还是分布式方法,和大批量的先进硬件设备在限制孟繁岐的发挥。
今天来看,硬件设备这方面,似乎今天可以有很大的进展了。
有了这批泰坦Z设备,在按照约定研发自动驾驶技术之余,也得先出几个版本的迷你chatGpt,让各大公司尝到一点语言大模型的甜头。
这样一来,复现chatGpt的环境才能够成熟起来。
若是想要处理比较大型的语言模型,14年老黄刚刚发布的这款12G显存泰坦Z,是非常必要的硬件设备,短期内基本上没有特别好的替代品。
因为显存这个属性还是相当珍贵的,要知道2020年底发售的Gtx 3080显卡,显存也才12Gb。甚至22年底的4080显卡,也只分12G和16G两个版本。
从产品的时间线上对比一下,就可以很明显地感觉到14年这款泰坦Z的可怕之处,12Gb的显存基本上可以说是前无古人,令人倍感震惊。
不到两年前,12年的旗舰显卡Gtx 680,显存仅仅只有可怜的2Gb。
后来世人们都知道chatGpt的威力,但很少有人仔细算过这笔账:先不提数据的事情,只说想要训练这个改变了世界的模型,到底需要多少的算力和设备。
英伟达的市值突破万亿,背后的原因是chatGpt引发的AI算力军备竞赛。
而制造这起军备竞赛的openAI本身,其实一直都很缺乏算力,openAI因为无法负担chatGpt的训练算力,而选择与金主爸爸微软合作。
这也是为什么他们曾经一度因为用户的需求量太大而停止提供服务,还是硬件设备不够。
微软为他们耗费了好几亿美元,组建了超过万张A100显卡的超级算力平台。
每一张A100都拥有80G的显存,也就意味着openAI当初为了得到chatGpt这个模型,准备了大约百万Gb大小的显存。
这么换算下来,怎么也得十万张泰坦Z才能够达成相同的显存效果。
十万张泰坦Z,这下可是真真正正的核弹了。
并且这还只是显存与微软保持了一致,由于设备的年代差异,泰坦Z运算的速度还得比A100再慢上不少。
别的什么乱七八糟的都先不提,按泰坦Z的定价算,光是买这些显卡就得整整三个亿美金。
这笔钱孟繁岐现在肯定是掏不起的,就算他掏得起,老黄也掏不出那么多泰坦Z来。
并且,这十万张显卡也不是凭空就能计算的,相应的主板电源cpU等其他配套设备,你也不能太差吧?
彼此之间的交互通讯设备,也得配齐,否则发挥不出这些显卡的全部能力。
这些东西准备好,价格又得翻一倍,至少得五六个亿美金。
设备运转起来,跟挖矿特别像,光是每天需要的电费也是百万级别的天文数字,训练一整个chatGpt出来的成本自然不低。
只是想要得到这个模型,就得大几个亿美金进去。后续chatGpt提供给用户使用,所需要的算力和设备只会更多。
因为训练模型只是单个实体在持续更新自己的内容,耗费的资源虽多,却是一次性的,一劳永逸。
而用户在使用的时候则是多个内容不再变化的实体持续推理,模型则需要反复根据用户不同的新输入一直生成回复。
虽然推理比训练的损耗小了许多,但也架不住百万千万的用户一起使用。
当时微软为了chatGpt的广泛使用,在六十多个数据中心,给openAI腾出了几十万张GpU显卡,简直是壕无人性。
惹得自家的员工都嫉妒坏了,为什么他们openAI可以用,我们微软自己的员工用不了?
这不公平!
“chatGpt级别的模型的大小还是跟现在我做过的那些差了太远了。”孟繁岐在心中开始飞速地计算了起来。
他需要估算出,自己到底大概需要多少张泰坦Z,一会才好跟老黄讨价还价。
深度学习的模型参数很容易计算,不过算完总是容易忘记。
孟繁岐有一套独特的办法,使得他可以对各个经典模型参数量之间的比例基本上了如指掌。
那就是以郑爽为基本计量单位。郑爽日薪百来万,一年就是六七个亿,可以记录6.5亿为一爽。
经典的残差网络,也就是孟繁岐去年的成名作,差不多0.033爽。
chatGpt,1760亿参数,差不多250爽。
也就是说,孟繁岐目前经常训练的模型,参数量上距离chatGpt得有7600多倍的差距。
这实在是现阶段难以负担的规模。
“不过好在chatGpt的爆火后来引发了许多学者去思考如何将这个模型压缩得更小。”
孟繁岐对此感到庆幸,由于chatGpt规模实在太大了,导致绝大部分玩家都根本玩不起这个东西。
因而整个业界都在想办法,到底怎么样才能够以百分之一百分之二左右的规模做到类似、乃至接近chatGpt的效果。
“所以说,人穷也是有好处的,穷则思变嘛!”
若不是大家都玩不起250爽的大模型,又怎么会一个个都如此擅长把3到4爽大小的模型做好呢?
“我可以初步实现一版本十多亿左右参数的迷你chatGpt,这样我需要的显卡数量大约在800到1000张左右,总价两三百万美金,这就在我很容易负担的范围之内了。”
孟繁岐希望黄仁勋为谷歌大脑提供一大批显卡是没错,但如今的他可并不缺钱了。
显卡进了谷歌,势必要被分走一大部分,用途上,也不能够百分百自己说了算。
不如多花点钱,自己先做一个超算中心。
微软那样上万张A100的究极奢华十亿美金计算中心,孟繁岐做不起,但做一个大几百、乃至千张泰坦Z的规模,还是负担得起的。
不就是钱嘛!不差钱!
唯一的问题在于,不知道老黄的泰坦Z到底生产了多少。
毕竟虽然两边都有合作的意向,可若是存货不多,黄仁勋也不可能真的让孟繁岐把这批显卡全都自己搬走了。