您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:个性化大模型技术实践 - 发现报告

个性化大模型技术实践

AI智能总结
查看更多
个性化大模型技术实践

空崖(高星)@阿里巴巴达摩院自然语言智能实验室 DataFunSummit#2023 目录CONTENT 01个性化大模型的简介02知识与个性化大模型 03个性化大模型中的个性04总结与展望 01个性化大模型简介 DataFunSummit#2023 大模型个性化是个必然 个性化大模型:四位一体的对话智能体 •「知识、个性、情感、记忆」四位一体的类人对话智能体 天猫精灵上的应用 天猫精灵上的应用-鸟鸟分鸟 -“鸟鸟分鸟”个性化大模型体验超预期,AIoT行业有望迎来“寒武纪大爆发”-浙商证券,https://pdf.dfcfw.com/pdf/H3_AP202304061585175117_1.pdf?1680787493000.pdf 天猫精灵上的应用-鸟鸟分鸟 更多角色扮演能力体验 Modelscope创空间体验:搜索“角色对话”https://www.modelscope.cn/studios/damo/role_play_chat/summary 更多角色扮演能力体验 Modelscope创空间体验:搜索“角色对话”https://www.modelscope.cn/studios/damo/role_play_chat/summary 更强的泛多任务化能力 更强的泛多任务化能力 02知识与个性化大模型 DataFunSummit#2023 知识幻觉是个性化大模型应用的一个核心挑战 •知识幻觉的表现:•与事实不一致;•无从考证,没有事实依据; •产生知识幻觉的原因 •数据:数据重复、Bias、时效性,一对多的映射关系•训练:Imperfect representation learning、Parametric knowledge bias•解码:sampling机制 •开放域对话的知识幻觉比其他生成式任务更加明显 •开放域对话话题很发散•来自社交网络的对话训练数据,本身包含很多主观的言论和不权威的信息•既要逻辑一致性,又要人设一致性(对话前后轮逻辑以及身份不一致)•实时性的问题,更容易产生知识幻觉 减少知识幻觉的几个要点 •高质量数据和大规模模型•互联网搜索引擎&私域知识的检索增强•个性化的,人设/记忆的信息增强•数据统一、模型统一的多任务学习•可干预可运营的的对话链路 互联网搜索增强实现更少的知识幻觉 更优的检索增强机制 •更优的搜索 •面向互联网搜索引擎的搜索query生成•面向FAQ知识的检索和排序•融合传统检索和向量检索的多路召回 •更丰富的指导信号 •Fusion-in-Decoder接受更长的信息输入•多粒度的GroundingEvidence预测方法 FAQ问答模型开源:https://www.modelscope.cn/models/damo/nlp_structbert_faq-question-answering_chinese-base/summary多轮改写模型开源:https://www.modelscope.cn/models/damo/nlp_mt5_dialogue-rewriting_chinese-base/summary 更大规模、更高质量、更多样的训练数据 •更大规模数据、更大规模模型 •高质量数据 •Books/Wiki/QA等高知识密度预训练数据•大规模高质量预训练对话数据筛选 •多样的知识密集型任务微调 •QuestionAnswering•KnowledgeGroundedDialog•PersonaGroundedDialog等 03个性化大模型中的个性 DataFunSummit#2023 提升人设一致性的要点 •更强的基座模型,更强的推理能力•针对性地扰动人设构建难样本,数据增强提升训练的鲁棒性•人设一致性的自动判别,反馈增强训练 粗粒度的人格定义-BigFive BigFive是一种人格特质分类法,从1980年代开始在心理特质理论中发展起来。 把复杂人格归因到5个维度上,偏心理学理论研究,普通人难以理解含义,不适合数据标注和效果评估 粗粒度的人格定义-MBTI16 MBTI是人格类型学中一种用于内省的自我报告问卷,它表明人们在感知和决策的方式上存在不同心理偏好。 把复杂人格分类成16种,偏心理学理论研究,普通人难以理解含义,不适合数据标注和效果评估 细粒度的人格定义-638 Personality Traits My original reason for creating this enormous list (or set) was to learn whether the methods ofcombinatorialideonomycould prove helpful inopening up, specifying, nominating, distinguishing,ordering, legislating, indexing, communicating, reducing, and otherwise investigatingthe universeof all actual and possible traits, types, and processes of human character and behavior. I was interested in gaining insight into such questions as: Can theuniverse of personality traitsbecircumscribed? Has it some sort of characterizable and consequential boundary? Are there limits orno limits to human variability, diversity, and psychogenesis? Are there polar tendencies or attractors? Is-or to what extentis-existing language adequate to analyze and express man's characterorpsychology? How redundant are names, concepts, and manifestations of character traits? Howsimilar, different, overlapping, orthogonal, inconsistent,etc? Human Kaleidoscope:https://ideonomy.mit.edu/essays/kaleidoscope.html 人格可控对话生成CaseStudy 人格可控对话实验方案 •对话风格是由Content+Style纠缠在一起影响的,不同风格的人设会讲不同的内容,而不只是措辞、语气、句法上的差异; •以Personality638分类为基础构建人格组合,通过「自然语言形式的人格组合描述」控制对话风格 •实验目的: •加入人格约束,对基础对话体验的影响?•人格定义的粒度差异,在「限定人格场景」「自定义人格场景」下的影响?•多标签约束生成方式,对基础对话体验和风格显著度的影响? •评测指标: •风格显著度:「给定人格标签集合」与「人格判别器对生成回复的预测标签topN」是否存在交集,存在交集,即认为风格显著;•知识问答Acc/人设问答Acc/多轮顺畅性得分 •人工评测 •采用pairwise标注,随机采样100条,统计win:tie:lose; 实验结果分析 •加入人格约束,对基础对话体验的影响? •对话大模型,训练时引入「人格控制」后,风格显著度可以有大幅提升(>10pt),多轮顺畅性略有损失(2~4pt)•虽然平均而言,基础对话体验相比baseline会有损失,但存在特定的人格,人工测评可以取得更好的效果;•「多轮闲聊场景」下的风格显著度,总是好于「百科/人设问答场景」(~25pt); 不同人格的结果分析 •活泼可爱的、诙谐风趣的、聪明博学的、温柔体贴的,这几类表现最为均衡,既可以具备较好的风格显著度,又可以具备较好的基础对话素质;•悲观沮丧的、幼稚的、强势又善变的、谦逊的,这几类人在知识问答上表现最为不佳;•悲观沮丧的人,个性突出,百科问答表现最差;•强势又善变的人,个性突出,但对话自我矛盾严重,多轮顺畅连贯性方面表现最差;•理性平和的、冷酷脾气坏的,个性整体表现不佳,前者可能是因为人格本身太普通,后者可能是因为训练数据清洗导致这类人的对话数据稀疏;•老练自然的人,基础对话素质较好,在百科问答上个性突出,但闲聊场景风格表现最不显眼; 提升风格显著度的要点 •风格多样的预训练数据•细粒度的人格分类及组合,对风格有重要的影响•人格标签影响语言风格,但不等价,复杂指令遵循能力的提升 04总结与展望 DataFunSummit#2023 个性化大模型要点总结 •个性化大模型,「知识、个性、情感、记忆」四位一体缺一不可 •提升数据质量和规模、增大模型规模、检索/工具增强等工作可以减少知识幻觉 •智能体的知识范围,是彰显个性的重要特征,做到可控是个挑战 •人设幻觉问题,需要针对性地数据增强和反馈增强 •个性可控生成,支持细粒度人格定义及组合,是区分个性的必要条件 •更逼真的角色复刻,需要「更细节自然语言指令遵循能力」 ChatPLUG项目开源 AI毒师计划 给大模型100瓶毒药!业内首个AI治理中文数据集招募垂直领域专家 https://www.modelscope.cn/headlines/article/106 感谢观看