首页 > 科技周边 > 人工智能

PromptTuning使用ShareGPT数据集教程

时间：2026-05-29 17:22:10 278浏览收藏

本文详解了如何将原始ShareGPT对话数据集精准适配于Prompt Tuning（尤其是软提示微调）任务，直击实践中模型收敛困难、提示向量学习失效的核心痛点——通过五步系统性改造：重构为高质量instruction-output单轮对、注入[SOFT_PROMPT]标识并精确构造token级标签、自定义collator以兼容PEFT框架的软提示机制、构建覆盖单轮指令、两轮修正与跨轮一致性的多粒度评估子集，以及引入LoRA辅助初始化提升软提示表达能力与训练稳定性，手把手教你把看似“即拿即用”的开源对话数据，真正转化为高效、可控、可评估的软提示训练燃料。

ShareGPT数据集在Prompt Tuning中的作用：软提示训练的数据准备和配置教程

如果您计划将ShareGPT数据集用于Prompt Tuning（尤其是软提示训练），但发现模型无法稳定收敛或提示向量学习失效，则很可能是由于原始对话结构未适配软提示所需的输入对齐机制与标签构造逻辑。以下是针对软提示微调场景下ShareGPT数据的专用准备与配置流程：

一、提取并重构为软提示兼容的instruction-output对

软提示训练通常依赖冻结主干模型+可学习前缀嵌入，因此需将多轮ShareGPT对话压缩为单轮强语义映射样本，确保每条样本能明确触发目标响应模式，避免上下文混淆干扰软提示梯度更新。

1、遍历ShareGPT JSONL中每条记录的conversations数组，筛选出首条from: "human"与紧随其后的from: "gpt"组成基础指令对。

2、若该human消息含明确任务意图（如“总结”、“翻译”、“改写”），则直接提取为instruction字段；否则使用通用指令模板包裹：“请根据以下用户输入生成专业、准确且简洁的回复：”。

3、将对应gpt回复作为output字段，强制截断至512字符以内，并移除Markdown格式符号与无关表情符号。

4、生成新JSONL文件，每行格式为：{"instruction": "提取或包装后的指令", "output": "清洗后的模型目标输出"}。

二、注入软提示位置标识符并构造token-level标签

为使PEFT框架（如Hugging Face PEFT）正确识别软提示插入点及监督信号，必须在instruction文本前端显式添加特殊占位符，并同步调整labels张量，确保仅output部分参与loss计算。

1、在每条instruction字符串开头插入固定标记：[SOFT_PROMPT]。

2、使用目标模型对应的tokenizer对拼接后字符串进行编码，获取input_ids。

3、构造labels张量：将[SOFT_PROMPT]对应token位置及instruction其余部分全部设为-100（忽略loss），仅保留output部分token的原始id值。

4、验证labels中非-100位置数量等于output经tokenizer编码后的token数，误差超过±2即需重新清洗。

三、适配PEFT PromptTuning模块的dataset wrapper

原生Hugging Face datasets不支持软提示专用标签掩码逻辑，需自定义collator以动态注入虚拟token并屏蔽instruction区域梯度，确保训练时仅优化软提示嵌入参数。

1、定义PromptDataCollator类，继承DefaultDataCollator，在__call__方法中对每个batch样本执行：插入learnable_prompt_length个可训练token ID（如0）至input_ids最前端。

2、同步扩展attention_mask长度，并将新增位置的labels置为-100。

3、调用PEFT的get_peft_model时指定peft_type="PROMPT_TUNING"，设置num_virtual_tokens=20，token_dim=model.config.hidden_size。

4、传入自定义collator至Trainer，禁用默认label_smoothing与sample_packing参数。

四、构建多粒度软提示评估子集

为监控软提示在不同对话复杂度下的泛化能力，需从ShareGPT中抽样构造三类评估切片，分别测试提示对单轮指令、两轮修正、跨轮角色一致性的建模效果。

1、单轮子集：筛选conversations长度恰为2（human+gpt）、且human含动词指令词（如“解释”、“列出”、“判断”）的样本，数量不少于500条。

2、两轮修正子集：提取human-gpt-human-gpt四段结构，取第二条human为prompt，第二条gpt为reference，标注原始第一条gpt是否被隐含否定或补充。

3、跨轮一致性子集：选取含system字段且conversations≥6轮的会话，抽取第4轮human提问与第6轮gpt回复，要求二者语义关联度≥0.8（经sentence-BERT余弦相似度验证）。

五、配置LoRA辅助的软提示初始化策略

纯软提示在小规模ShareGPT子集上易陷入局部最优，引入轻量LoRA适配器可提升初始嵌入空间表达力，同时保持整体参数效率。

1、在调用get_peft_model前，先对model.transformer.h.0.mlp.dense_h_to_4h层注入r=4, alpha=8的LoRA配置。

2、将LoRA权重设为可训练，但冻结原始线性层参数，确保梯度仅流经LoRA分支。

3、使用sharegpt样本初始化软提示嵌入时，以LoRA输出作为初始化均值，标准差设为0.02。

4、训练首epoch关闭LoRA梯度更新，仅优化软提示；第二epoch起联合更新，学习率分别设为3e-3与1e-4。

理论要掌握，实操不能落！以上关于《PromptTuning使用ShareGPT数据集教程》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

ShareGPT