第160章 橘子大模型(第二更)
做一个人工智能,不是方豫给柚子吩咐一下就可以的。
可能是出于安全方面的考虑,塞卡利斯在创造柚子的时候,并没有给这个球添加自主创新意识。
只有柚子的所有人对它下达明确的指令,他才会就指令进行下一步的信息收集与演算。
对于一个系统性的任务,柚子需要主人给他把系统性任务分解成为一个个独立而明确的任务。
如果方豫只是告诉它:柚子,做一个通用型人工智能出来。
它会完全不知所措,也无从着手,它不会去主动分析这个任务需要什么样的前置知识,也不会创造性的去执行这个任务。
这样一来,就需要方豫自己先对人工智能大模型有相当的了解才可以。
给柚子指明一个方向,分解任务,柚子执行。
如果执行成功,那就是搞成了,如果不成功,说明方豫对人工智能的理解有问题,方向不对,就需要换方向。
归根究底,柚子这么懒也是有原因的!
“现在,把我刚才说的方案做一个初步推演,然后把推演结果告诉我。”方豫一边给柚子下指令,一边噼里啪啦的在电脑上改总结。
柚子写的阶段总结太超前了,方豫得删除一部分,还得改错一部分,再交给童永山。
现在方豫已经在童永山心目中建立起了计科高手的印象,索性一阶段童永山就没再找任何计科专业的大佬合作,而是直接和柚子科技达成的合作研究意向。
至于说柚子科技是谁的,童永山更不在乎。
就算这家公司就是自己这个学生的又能怎样?有一个肯投几千万在科研上的二代学生不香吗?
要是被其他教授知道,早就嫉妒坏了吧?
“主人,resnet与dbn的结合对处理长距离依赖关系的能力应不会有任何提高,我们需要更换模型组合。”经过短时间的运算,柚子闪着银白色的星光回答道。
“那就替换一下,看看哪些模型之间能擦出火来。”方豫在服务器上圈定了模型范围,交给柚子进行演算。
模糊演算是柚子本身所具备的法则之一,本质其实是预言学派的一些基础理论在柚子身上的应用。
与计算机模型中提取关键因子进行模糊演算的方式完全不同,相比起来,柚子的模糊演算准确性要高得多。
“找到了!”没过多久,柚子就发出了振奋的声音。
“《带注意力的序列到序列》中提到的注意力机制模型与位置编码技术和lstm、cnn、ffn等神经网络的结合,可以形成新的框架,经过训练后添加其他模型,可以形成目前测算中效率最高的大模型。”柚子迅速在方豫的电脑屏幕上投出了相应内容。
“我会把这些模型放到我自己的框架内,由我的框架进行重组。”
说着,柚子身上的银色星光逐渐变成了一条缓慢流转的光带,这是柚子在用自己的本体帮助阵列服务器进行辅助运算,再把辅助运算的结果传输至服务器网络。
只要找对了路,柚子的运算能力远非现如今任何一台超级计算机所能相提并论的。
不过三分钟,身上流淌的银色光带便重新变回了点点银色星光。
“框架重组完成,底层法则添加完毕,上传服务器系统后进行初次学习。”柚子平铺直叙的声音传来,似乎变了一个球,跟电影里的人工智能一样。
方豫不为所动搓了搓手指:“好好说话!”
柚子明显一激灵,语气谄媚:“主人,大概还要30秒,新的框架就能上传至服务器,其后就可以做模型数据训练了。”
话说着,体积并不大的框架模型已经完整上传至服务器机组,服务器内的柚子分身就开始往新框架中添加处理过的数据。
12组gpu服务器、196颗teslam60算力全开,服务器的散热风扇以一万五千转的速度旋转着,将热量排至这不足五十平米的空间中。
“目前已完成40gb的数据清洗,现在开始用这部分数据进行第一次训练,这个模型需要30万步的迭代可以完成收敛,预计将耗时3小时21分。”