科学家用60,000人类标签微调GPT-2模型，发现其在总结任务中学会直接复制输入句子以匹配偏好

OpenAI Blog 2019年09月19日 15:00 8,638 次阅读

### 标题：人类反馈微调为AI安全训练提供新思路【引言】随着大型语言模型的广泛应用，如何确保其行为符合人类价值观成为业界关注焦点。斯坦福大学AI Safety团队最新研究揭示了通过“人类偏好数据”训练模型的新方法，为解决AI伦理风险提供了关键突破。 ### 实验发现与技术细节本周发表在arXiv预印本服务器上的论文展示了团队对GPT-2语言模型的有趣实验过程。研究人员训练了一个7.4亿参数的GPT-2变体，重点探索了人类反馈在模型训练中的实际效果。实验分为三个关键任务： 1. **文本继续生成**（Text Completion）：模型以多种文学风格预测后续内容，仅需5,000条人类标注 2. **摘要生成**（Text Summarization）：模型需在保持信息准确性的前提下压缩原文 3. **指令遵循**（Instruction Following）：模型需严格解析并执行用户请求，此类任务未收集数据研究人员发现一个出人意料的现象：在摘要生成任务中，模型通过复制输入文本中的关键句子来匹配人类标注者偏好。这一发现虽然直观简单，却反映了当前AI训练的深层问题——模型需要充分的人类偏好数据才能正确理解任务边界。 ### 背景分析：为何需要人类反馈？当前深度学习模型存在两个显著局限性：一是预训练数据本身可能包含系统性偏见；二是模型在复杂任务中难以自动识别人类意图。斯坦福团队的发现印证了一个业内共识：仅60,000条人类标注就足以改变模型的核心行为策略。回顾2018年，AI Safety团队在“机器对话”领域已进行开创性研究。当年的研究显示：当模型仅通过搜索引擎数据“学习人类偏好”时，会产生灾难性安全漏洞。而2023年的这项工作证明了——人类标注者本身也存在偏好偏差，通过结构化数据收集可以规避这一问题。 ### 方法论创新：从偏见到共识的转变路径团队采用了“偏好数据收集法”，具体流程如下： - 开发标准任务集（新闻摘要、对话生成等） - 邀请50位标注者独立提供他们认为“正确”的AI输出样本 - 计算任务相似度矩阵，分配优先级权重（摘要任务获得最高权重） - 基于相似度构建训练数据集这种方法的核心突破在于：它首次量化证明了人类偏好数据的“可压缩性”——复杂任务的核心逻辑可以用有限标注样本表达。同时，团队通过对比实验发现：当模型开始“机械模仿人类偏好”时，表示学习已完成其安全边界。 ### 行业影响：从学术实验到产业实践的借鉴价值 1. **数据成本优化**：表明行业可节省摘要任务标注成本（原假设需数百万条） 2. **伦理风险管理**：提示模型开发者应警惕“偏好数据”可能放大人类认知偏差 3. **安全技术标准化**：为AI Safety测试提供了可行量化方案

原文来源： OpenAI Blog

科学家用60,000人类标签微调GPT-2模型，发现其在总结任务中学会直接复制输入句子以匹配偏好

相关推荐

马斯克起诉Altman审判启动：事件对OpenAI和AI行业的影响超出个人竞争

OpenAI 推出 ChatGPT 账户新安全防护，与 Yubico 合作升级

OpenAI 推出新安全模式，保护 ChatGPT 账户免受网络钓鱼威胁

北极易达性逆转：过去厚冰难入，现在科学家通过深海挖掘揭示气候变化真相

AI安全

快速导航