第110章 OpenAI最近有点儿跳,得限制一下!(第2页)

 

rlhf模型先前被认为不可能无限提高,其中最重要的一个原因就是,随着参数越来越多,数据量越来越大,人工去获取一个有质量排序的数据集也变得越来越不可能。

 

于是有人就认为,自我反馈模型,也就是让模型自我去评价去提升的模型才是未来,纵然它有时候显得很弱智。

 

但是现在,有了小沙,小沙替代【基于人类反馈的强化学习】里边的人类,变成了【基于小沙反馈的强化学习】,这一切就又变得可能了!

 

不仅解决了自我反馈容易弱智的问题,同时解决了人工反馈效率过低、成本过高的问题。

 

这就相当于将两个模型的优点直接结合了。

 

而且,超大规模超超大规模,也不用担心人工的问题了。

 

所以,各家的模型现在进步都非常大,原因就在于此。

 

想要变得跟小沙一样厉害,那当然不可能——基于小沙训练的ai想超过小沙那本身就是一个悖论。

 

但是,只要舍得堆积算力,无限的堆积算力,再加上用小沙代替人类进行反馈的强化学习,理论上最终能极限逼近小沙的水准。

 

当然,理论只是理论,现实中不存在无限算力,考虑实际情况,用这种方式结合超大算力训练一年,达到小沙的六七成水准应该是可能的。

 

华为这边默默的评估过,现在几乎所有的ai训练企业都在偷偷的这么干。

 

“需要跟郝成说一下这个情况吗”何钢问了一嘴。“这他应该知道吧”于东一愣:“以前,很多模型都用chatgpt反馈做初期训练,训练到一个阶段了才转人工反馈的,都是惯例了。”

 

“我估摸着他还真不知道,他现在应该没关注其他的ai同行。”

 

听何钢这么说,于东直接嘴角一抽,是啊,一群弱鸡同行,有什么好关注的呢:

 

“那还是说一下吧,这事影响还是挺大的。尤其是openai,他那算力堆的,而且最近有点儿跳,得限制一下。”

 

“对了,苹果指望就是这个呢吧”何钢脑子里突然把两件事儿联系到一起了。

 

“嗯。”于东笑道:“苹果之所以现在还没有彻底急眼,就是得到了openai的承诺,而openai之所以这么有把握,是因为他们又购买了上千亿美元的显卡。

 

“对投资者号称是研发了一种新的算法,可追赶小沙。实际上,说白了就是【基于小沙的深度学习】。”