不知不觉当中,时间来到了14年9月初。
距离孟繁岐在韩国首尔宣布通用对话智能已经三月有余,距离openAI成立,也已经有两个月之久了。
这段时间当中,似乎技术短暂地进入了停滞期,除了一些跟进式修修补补的工作之外,AI界没有什么大动静。
不过孟繁岐的这个核心小团体却很清楚,有趣的事情马上就要开始了。
语言方面,初版的bERt和Gpt已经训练完成,图像方面,换脸的技术也已经逐渐接近成熟。
“语言生成,图像换脸和语音生成都已经稍微像点样子了,不过怎么去发布,还是有点讲究的。”经历过上次人机大战之后,孟繁岐已经深刻体会到了,直接发论文公开代码,其实关注度会大打折扣。
得让普通民众参与进来,以一种大家都可以理解的形式进行。
这一次,孟繁岐就准备逐一发布,先以文本模型模仿人类的能力作为噱头引发关注,有了大量关注度之后再继续放出后续的换脸和声音合成技术。
就如同上次人机大战一样。
“不过你确定bERt和Gpt真的能够潜伏在群聊当中而不被人识别出来吗?”稍微看了一些bERt模型和Gpt模型的回复之后,路易斯和克莱尔两人对这个计划能否奏效非常怀疑。
初版的bERt和Gpt方法已经基本完成了,孟繁岐于一两周前提出了这样一个设想,组织一个一两百人左右规模的群聊,让大家在里面畅所欲言的聊天。
待得三四天后,再告诉他们,其实人群当中混入了一个数字生命。
“这其实就是一种另类的图灵测试,一般来说,进行图灵测试的人,会试图分辨与自己对话的到底是机器还是人类。可是通常来说,人类是不会进入图灵测试状态的。”
孟繁岐指的是,在大多数情况下,人类是不会怀疑与自己进行对话的究竟是人类还是机器。
“一个人到底是不是处于图灵测试状态,他的思维模式很可能会产生非常巨大的变化,因此我们这其实是一个多阶段的测试。”
“第一阶段,我们在公布存在数字生命之后,让用户在一两分钟内,就必须凭记忆和感觉做出回答和预测。”
“第二阶段,我们允许他们仔细翻阅这几天的聊天记录,给他们24小时的时间,让他们深思熟虑后做出猜测。”
“第三阶段,我们允许所有人彼此之间讨论交流,看看他们能不能在一两天之内,讨论出一个比较靠谱的结果。”
“我们倒不是觉得这个流程有什么问题,这个阶段设置还是非常科学的。关键是现在bERt和Gpt的语言对话能力,好像显得太过笨比了一些。”路易斯和克莱尔大量阅读了一些机器回复,觉得但凡是脑子正常的人,都可以很轻松地辨别出来这两个机器人。
“你们被知识诅咒了。由于你们知道到底谁是AI,因此不免会过于关注AI的回复,并且任何蛛丝马迹都会加剧你们的怀疑和猜测,实际上是带着答案找问题。”
韩辞掏出一张没有标注AI的聊天记录,让路易斯和克莱尔去分辨到底哪些是AI发布的,两人自信满满地迅速给出了自己的答复,却被韩辞告知,这张聊天记录里其实根本没有AI。
“我们评判AI的时候,总是以一种非常严格的标准去评价,但实际上在聊天群和互联网里,智商和言论让人震惊的情况是非常常见的。”
韩辞是八月底来到硅谷的,自上次西尼会议结束,分别之后。韩辞犹豫了良久,最终还是选择了来到斯坦福交换。
在这个选择当中,世纪围棋大战对她的影响良多。
加上鄂维南院士也劝她,有她这般得天独厚资源的可不多,一上来就赶上了AI的起风口。
路易斯、克莱尔和克拉克搬进来之后,孟繁岐正好还剩下一间空房。
得知韩辞九月来到李飞飞门下交流学习,顺理成章地就留给了她。
毕竟Flow类的技术,扩散模型系列,都少不了数学方面的知识。
而韩辞刚刚搬进来,就正好赶上了这个小团体的第一次出击,一次很像是AI狼人杀的类图灵测试。面对公众,以宣传bERt和Gpt方法的语言能力。
“我已经把推特发出去了,大家还蛮积极的。”孟繁岐感觉有些意外:“我只说是一个AI方面的交流群,讨论一些相关的知识和生活什么的,结果竟然有这么多人报名。我们到时候还是按Ip筛选一下,尽量保证他们彼此之间距离远一点,不要相互认识。”
“你说是建一个AI的交流群,但又不用已经成熟知名的社交媒体平台,大家肯定有所怀疑吧。说不定都已经猜到了你想搞一次类似图灵测试的东西。”唐璜觉得这点实在是遗憾,不使用成熟的平台,很多人肯定会觉得里面有猫腻。
“这个没有办法的,若是在脸书推特这样知名的平台上建群交流,那就有太多此前的账号资料和动态图片等其他信息可以参考了。如果我们不给AI准备虚假的这些东西,很容易就会被认出来,大家倘若都在关注这些内容,我们的这个测试就失去了意义。”
bERt和Gpt现在都仅仅只具备语言能力,孟繁岐希望大家能够将注意力集中在语言内容上,从单纯的聊天内容去分析讨论,而不是什么注册时间、历史照片等盘外招去分析AI。
因此孟繁岐专门搭建了一个临时的对话平台,除了头像、昵称与历史对话之外基本没有其他功能。
“采用这个临时对话平台,也可以比较方便让我们的模型直接获取其他群友的聊天内容。不过克莱尔和路易斯的担忧也是有道理的,目前的bERt和Gpt很难直接做出很好的潜伏,我们需要给它们分别设计发言的策略,采用额外的逻辑,来使得它们更像是聊天群中的其他人类。”
“群内的聊天有什么特性,我已经初步整理了一版,大家帮我查缺补漏看一看。”孟繁岐此前已经想了很多注意事项。
在群组内聊天其实是一种比较特殊的文字交流形式,每次信息的长度不能太长,不宜长篇大论;语言的表达方式也不宜太过正式书面,要以口语俚语和各种网络梗为主。
“关键是人设必须前后一致,不能明天说的内容和今天就矛盾了,这次我们必须针对每一次的输入,不仅加上前文的几条对话来触发输出,更得加上一个固定的人设。”
此前几人测试的时候,模型主要以读取最后五条十条聊天记录为主,最开始还行,时间一长它说的话彼此之间就容易矛盾。
其中一个测试的话题,就是2014年的世界杯。
但凡涉及足球的内容,就总是免不了梅西与c罗的争端。bERt和Gpt这样的语言模型,面对群内这种对抗激烈的争论场面,很容易反复横跳,显得非常混乱矛盾。
不过这种现象在一定程度上,非常像是后来的乐子人,又或者是【串子】。
他们既不是梅西粉丝,也不是c罗粉丝,不过却很乐于在双方粉丝面前说对方的好话,以挑起双方的争端。
“我们给他们设计两种不同的模式吧,这次的目标主要是以隐藏为主,大家觉得哪些类型最不容易被怀疑是AI?”孟繁岐觉得需要明确思路:“话太少也不行,一直不发言虽然不会被怀疑,但这个行动也就同时失去了价值。”