step1,文本生成模型,作为policy model:输入question,返回answer,

step2,文本匹配模型,作为reward model:输入question-answer-pair,返回reward,

两个模型共享encoder。

如InstructGPT论文所示,人工标注过程是标policy model的 预测/生成 top-N结果,给每个生成结果一个[good]/[bad]的标注即Reward,来训练文本匹配reward模型,

其实 文本匹配reward模型 可以没有,直接根据用户标注的[good]/[bad],去掉训练数据里的[bad]数据,只保留[good]数据 给文本生成policy模型 训练是一样的。

参考代码:https://github/openai/lm-human-preferences

更多推荐

从零构建ChatGPT