天天速读：ChatGPT 标注指南来了！数据是关键

首页 > 财经资讯 > 内容页

天天速读：ChatGPT 标注指南来了！数据是关键

2023-04-21 16:15:25 来源：程序员客栈

Datawhale干货

作者：太子长琴，算法工程师，Datawhale成员

(资料图片仅供参考)

前言

ChatGPT 刚刚出来时，业内人士一致认为高质量的数据是一个非常关键的因素。且不论这个结论在 ChatGPT 这里是否正确，但高质量的数据对模型大有裨益却是公认的。而且，我们也可以从公开的 InstructGPT 标注指南中对此窥探一二。

本文主要就围绕这份指南进行介绍，主要包括以下几个方面内容：

我们首先会简单介绍 ChatGPT 训练过程中的几个涉及到标注的任务，清楚了任务才能更好地了解标注。然后从宏观角度统领几个方面的设计，包括数据、人员、规范等。标注数据：包括数据收集、数据分析、数据预处理等。标注人员：包括人员筛选、人员特征、满意度调查等。标注规范：包括关键指标、标注方法细则、标注示例、FAQ 等。多想一点：主要是个人的一些补充和思考。总体介绍

根据 ChatGPT 博客（相关文献【1】）的介绍，主要是前两个步骤需要标注数据：第一步的有监督微调 SFT（supervised fine-tuning）和第二步的 RM（Reward Model）。

第一步需要对样本中的 Prompt 编写人工答案，这是高度人工参与过程，而且对标注人员要求很高；

第二步则是对模型给出的多个（4-9 个）输出进行排序，这个对标注人员要求稍微没那么高，但其实也得熟悉一整套标准，否则很容易排出与预期不一致的结果。另外需要注意的是，会从 K 个中取出 2 个的所有组合作为训练数据。

我们再来考虑整体的设计。首先是数据。一般考虑如下一些问题：

数据来源：数据从哪里来，是否需要实时在线更新，如果需要应该如何更新等。数据分析：根据需要对数据进行相应的统计分析，一般就是简单的统计描述，但也有可能进一步探索其中包含的业务逻辑。数据预处理：根据需要对数据进行预处理，比如文本清理、文本过滤、归一化等。

接下来是标注人员。最关键的是让所有标注人员明白标注标准，这是保证数据质量的关键，其中少不了细致的规范、严格的筛选和进一步的培训。一般考虑以下几个问题：

人员筛选：这在需要大量标注人员时尤其明显。人员特征：InstructGPT 对标注人员的各类特征进行了统计，这项工作确实比较少见。满意度调查：InstructGPT 开展的工作，也比较少见。

标注规范，本文的核心，主要介绍：

关键指标：因为其中涉及到「比较」，因此怎么比是个核心问题。标注方法：针对不同任务具体的标注流程。标注示例：针对每个方法给出适当的示例。

最后是关于个人对标注工作的一些思考，有些补充内容会夹杂在上面的内容中，不过这部分我们会统一做下总结。

标注数据

数据来源主要包括两个：OpenAI API 提交的 Prompt 和标注人员编写的 Prompt。API 的数据主要来自 Playground【相关文献2】，因为在用户每次切换到 InstructGPT 模型时，都会弹出一条警告信息，指出这些模型的 Prompt 会被用于训练新版本。没有使用正式产品中 API 的数据，这应该是出于客户隐私和相关法律的考虑。

关键词：

上一页 1 2 3 4 5 6 7 8 9 下一页

上一篇:凯迪拉克ATS-L用什么机油最好，ATS-L用5W30还是5W40 全球看热讯下一篇:国家开发银行：对国家助学贷款实行2023年度免息及本金延期偿还|热消息

减资资产负债表和财务清单在哪里查？利润表里没有资产减值损失怎么填？

1拿到一张资产负债表,首先看表上面的文字,编制报表的公司,报表的时间,报表数据的单位2顾名思义资产负债表由"资产"和"负债与所有者权益两大

闲置车辆处置对三大报表分别有什么影响？三大报表的区别和联系？

对资产负债表影响不大:卖了以后流动资产增加(拿到钱了),固定资产减少(车没了) 对利润表:影响损益卖了以后收入增加,以后期间折旧减少,成本

财务报表哪里查看企业所得税？企业所得税纳税申报表怎么看？

资产负债表中,只反映年初和期未没交的税;利润表中,可以看税金及附加,可以看到营业税,消费税,城建税,教育费附加等;在现金流量表中,一般可

x 广告

天天速读：ChatGPT 标注指南来了！数据是关键

减资资产负债表和财务清单在哪里查？利润表里没有资产减值损失怎么填？

1拿到一张资产负债表,首先看表上面的文字,编制报表的公司,报表的时间,报表数据的单位2顾名思义资产负债表由"资产"和"负债与所有者权益两大

闲置车辆处置对三大报表分别有什么影响？三大报表的区别和联系？

对资产负债表影响不大:卖了以后流动资产增加(拿到钱了),固定资产减少(车没了) 对利润表:影响损益 卖了以后收入增加,以后期间折旧减少,成本

财务报表哪里查看企业所得税？企业所得税纳税申报表怎么看？

资产负债表中,只反映年初和期未没交的税;利润表中,可以看 税金及附加,可以看到营业税,消费税,城建税,教育费附加等;在现金流量表中,一般可

对资产负债表影响不大:卖了以后流动资产增加(拿到钱了),固定资产减少(车没了) 对利润表:影响损益卖了以后收入增加,以后期间折旧减少,成本

资产负债表中,只反映年初和期未没交的税;利润表中,可以看税金及附加,可以看到营业税,消费税,城建税,教育费附加等;在现金流量表中,一般可