第110章 openai最近有点儿跳,得限制一下!
郝成请了一顿饭,何钢吃了满肚子的心事。
饭局刚刚一结束,他就立刻回到酒店,联系上了于东。
“老何,我咋发现你每次一去临州,都会变得这么慌慌张张的呢?”于东甚至调侃上了。
“你先别忙,听我说。”
何钢仔细的将郝成在车上的话简单跟于东复述了一遍,而后总结道:“可不要看这东西是郝成在扯闲篇,是在泛泛而谈大路的概念,是没有透露任何ai训练方法的。
“但实际上,他这个泛泛而谈,跟我们一大群人去聊天,他不一样!”
“我知道,他已经训练出小沙了,他的大路概念那是正确的概念。”于东长长的呼了口气:“从这泛泛而谈中或许能找到方向。
“但光听这些也没有用啊!”思索了很久,于东也是无奈道:“你说的所有的东西,我只能总结出三个字‘类似人’,而这种方向,团队早就考虑过了。
“但现在的问题不是方向,是方法,我们没有找到任何的方法。唯一的好消息是,我们以传统方式训练ai的成本也大大的降低了,效率却大大的提高了。”
于东说的这个倒是实情,不仅仅是华为、抖音、腾讯甚至openai,训练ai的成本都降低了。
究其原因,也很简单,他们让小沙帮他们做数据清洗、标定和反馈。
数据清洗原本是一个非常复杂且繁琐的工作,也是训练ai非常关键的步骤,数据清洗的质量越高,ai训练的质量也就越高。
以往,这个工作都是由人工来实现的,也有用ai来做的,但是效果就会很差,往往会投喂一些垃圾数据,造成模型被污染,进而产生一些低级错误。
而现在有了小沙,这项工作可以更快速的进行,准确率甚至不比人工清洗差。
而更关键的一个问题,以往gpt类的模型,是rlhf,也就是基于人类反馈的强化学习。
怎么做的呢:就是先预训练一个语言模型,然后做微调。
微调怎么调呢:就是你问一个问题,语言模型给你回答,然后人工给这些回答进行排名,然后获得一个有质量排序的数据集,用这个数据集反过来再去微调相关的模型参数,一遍又一遍循环往复,然后答案就会越来越接近人想要的。
而现在,小沙代替了人工的这个步骤。
rlhf模型先前被认为不可能无限提高,其中最重要的一个原因就是,随着参数越来越多,数据量越来越大,人工去获取一个有质量排序的数据集也变得越来越不可能。
于是有人就认为,自我反馈模型,也就是让模型自我去评价去提升的模型才是未来,纵然它有时候显得很弱智。
但是现在,有了小沙,小沙替代【基于人类反馈的强化学习】里边的人类,变成了【基于小沙反馈的强化学习】,这一切就又变得可能了!
不仅解决了自我反馈容易弱智的问题,同时解决了人工反馈效率过低、成本过高的问题。
这就相当于将两个模型的优点直接结合了。
而且,超大规模超超大规模,也不用担心人工的问题了。
所以,各家的模型现在进步都非常大,原因就在于此。
想要变得跟小沙一样厉害,那当然不可能——基于小沙训练的ai想超过小沙那本身就是一个悖论。
但是,只要舍得堆积算力,无限的堆积算力,再加上用小沙代替人类进行反馈的强化学习,理论上最终能极限逼近小沙的水准。
当然,理论只是理论,现实中不存在无限算力,考虑实际情况,用这种方式结合超大算力训练一年,达到小沙的六七成水准应该是可能的。
华为这边默默的评估过,现在几乎所有的ai训练企业都在偷偷的这么干。