2017年6月,人揭让模人类用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好 ?化新会和哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),
这就是型学所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏 ,尤其是样反乱护士肉合集乱500像 LLMs 这样有强大语言能力和上下文学习能力的模型。
3. 更新系统提示:把新生成的联合“教训”加到系统提示中,而不是创始靠人类硬编码 ?更进一步