第110章 OpenAI最近有点儿跳,得限制一下!

第110章 openai最近有点儿跳,得限制一下!

 

郝成请了一顿饭,何钢吃了满肚子的心事。

 

饭局刚刚一结束,他就立刻回到酒店,联系上了于东。

 

“老何,我咋发现你每次一去临州,都会变得这么慌慌张张的呢”于东甚至调侃上了。

 

“你先别忙,听我说。”

 

何钢仔细的将郝成在车上的话简单跟于东复述了一遍,而后总结道:“可不要看这东西是郝成在扯闲篇,是在泛泛而谈大路的概念,是没有透露任何ai训练方法的。

 

“但实际上,他这个泛泛而谈,跟我们一大群人去聊天,他不一样!”

 

“我知道,他已经训练出小沙了,他的大路概念那是正确的概念。”于东长长的呼了口气:“从这泛泛而谈中或许能找到方向。

 

“但光听这些也没有用啊!”思索了很久,于东也是无奈道:“你说的所有的东西,我只能总结出三个字‘类似人’,而这种方向,团队早就考虑过了。

 

“但现在的问题不是方向,是方法,我们没有找到任何的方法。唯一的好消息是,我们以传统方式训练ai的成本也大大的降低了,效率却大大的提高了。”

 

于东说的这个倒是实情,不仅仅是华为、抖音、腾讯甚至openai,训练ai的成本都降低了。

 

究其原因,也很简单,他们让小沙帮他们做数据清洗、标定和反馈。

 

数据清洗原本是一个非常复杂且繁琐的工作,也是训练ai非常关键的步骤,数据清洗的质量越高,ai训练的质量也就越高。

 

以往,这个工作都是由人工来实现的,也有用ai来做的,但是效果就会很差,往往会投喂一些垃圾数据,造成模型被污染,进而产生一些低级错误。

 

而现在有了小沙,这项工作可以更快速的进行,准确率甚至不比人工清洗差。

 

而更关键的一个问题,以往gpt类的模型,是rlhf,也就是基于人类反馈的强化学习。

 

怎么做的呢:就是先预训练一个语言模型,然后做微调。

 

微调怎么调呢:就是你问一个问题,语言模型给你回答,然后人工给这些回答进行排名,然后获得一个有质量排序的数据集,用这个数据集反过来再去微调相关的模型参数,一遍又一遍循环往复,然后答案就会越来越接近人想要的。

 

而现在,小沙代替了人工的这个步骤。