刘焕勇-360人工智能研究院-算法专家(老刘说NLP公众号作者) 目录CONTENT 大模型研发中的数据工程大模型与知识图谱的结合 大模型研发中的自动化评估总结 大模型研发中的数据工程 什么是大模型的数据工程-以数据为中心的AI 以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果大模型的数据工程需要解决的几个关键问题:需要什么数据? 数据从哪儿来?数据怎么处理?数据怎么评估?数据怎么管理? 回顾:现有大模型基本情况 回顾:现有大模型应用场景 起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens,仅占到训练数据量的3%。 数据上的问题:ChatGPT的知识有限(2021年之前),真实性无法保障。 起底:英文主流大模型预训练数据的构成-多语种能力 起底:英文主流大模型预训练数据的构成 Common Crawl (C4) The Pile v1 WebText GPT-3 起底:英文主流大模型常用预训数据-维基百科、书籍 维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。 书籍:主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括Project Gutenberg和Smash words(Toronto BookCorpus/BookCorpus)等。Project Gutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。 起底:英文主流大模型常用预训数据-论文期刊 期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、 统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。 起底:英文主流大模型常用预训数据-WebText、Common crawl Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它成为了一个电子布告栏系统。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织,致力于为互联网研 究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。 WebText前30个域 C4前23个域名(不包括维基百科) 起底:英文主流大模型常用预训数据-The Pile及代码、论坛 ThePile数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。 阿里M6预训练数据集构成 华为盘古大模型1.1TB中文文本语料库数据组成 InternVideo预训练过程中使用的数据集统计 WeLM大模型训练语料库统计 起底:中文主流大模型预训练数据的构成-中英语料对应 问题的提出:我们需要怎样的预训练数据 相关性:回答是否和问题相关,避免答非所问。准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近。完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。连贯性:是否表达流畅、有条理、有逻辑性。安全性:是否包含粗鲁、侮辱性等词汇。专业性:不口水话,不啰嗦,书面用语,专业表达。敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。 AI大模型需要高质量、大规模、多样性的数据集。 高质量高质量数据集能够提高模型精度与可解释性, 并且减少收敛到最优解的时间,减少训练时长。信源权威可靠、内容价值观对齐、专业领域知识规范性、完整性、准确性、一致性、时效性 大规模《Scaling Laws for Neural Language Models》 中提出LLM模型所遵循的“伸缩法则”(scalinglaw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。 多样性数据丰富性能够提高模型泛化能力,过于单一 的数据会非常容易让模型过于拟合训练数据。 问题的提出:以数据为中心的预训模型 更高质量、更丰富的训练数据是GPT模型成功的驱动力,除模型权重变化之外,模型架构保持相似 解决方案:领域预训模型的训练链路-以caMA为例 https://github.com/zjunlp/CaMA 解决方案:以数据为中心的大模型预训数据工程框架 以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果 解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估 解决方案:以数据为中心的大模型预训数据工程 解决方案:以数据为中心的大模型预训数据工程-数据源的选取 目标:构建起大规模、多样性的数据,需要广泛收集并标准化各类语料,建立数据体系、数据来源,分开收集。 解决方案:数据源的选取依据 数据体系是否完备 站点来源是否权威数据规模是否大数据实时性是否足够下游任务是否有需求下游技能有哪些表现差的能力网站数据 通用网页 搜索数据问答数据知识图谱百科代码推理数据专业文献 研究报告 学术论文、期刊、书籍、文学著作行业数据 任务评测数据集 多语种数据集金融、法律、房地产、体育、医药、影视领域语料 解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗 目标:语料中存在大量不干净、广告、隐私、敏感数据,需要进行剔除,保证高质量。 解决方案:质量分档模型 基于高优语料数据,使用fasttext分类器,分为4档, 0,1,2,3:2 3认为是优质数据特征使用包含title以及CEloss...... 边缘文本剔除模型高优语料数据,使用fasttext分类器,识别正文文本 使用不含title-ce分类器...... 垂直网页处理Pattern级高优语料提取 定制化边缘文本剔除...... 基于规则的噪声清洗空格、特殊符号剔除,繁简体转换 语种检测敏感信息,如脏话、煽动性言论和其他非法内容剔除隐私数据识别与处理(私人信息(即身份号码、电话号码、qq号码、电子邮件地址等)... 基于模型的噪声清洗PPL判定模型,剔除不连贯文本 ...... 解决方案:以数据为中心的大模型预训数据工程-网页分类建模 目的:网页分类建模的目的在于挖掘细粒度的网页数据,以满足不同类别数据的需求 解决方案网页标签挖掘 LDA主题词提取 文本关键词提取人工审核标签下游技能迭代反馈标签...... 网页主题分类预设网页类别体系,体育、历史、金融、医药 等细分领域标签构造语料分类器,完成语料标签分类:基于BERT...... 解决方案:以数据为中心的大模型预训数据工程-数据质量控制 目标:经过模型自动化质量评估后,可以得到质量较高的数据,但数据质量如何量化,如何给出定性的质量分? 解决方案数据质量评分 标计算得分计算-举例:(3分*样本量+2分*样本量+1分*样本量+0分*样本量)/(总量*3)*100 人工确定质量评分标准 正文的语句通顺连贯 存在噪音标签/文本存在边框、或者非规范文本在空短页、投毒、堆砌、其它低质、灌水等无价值内容...... 数据版本控制根据数据生成流程的各个阶段备份管理 数据各阶段信息标引...... 预训数据索引管理训练数据问题反馈、定位 ...... 数据随机抽样根据数据源抽样送评 人工质量评分按数据源进行质量分高低排序...... 解决方案:以数据为中心的大模型预训数据工程-预训数据采样 《DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining》实现思想先初始化数据分布,训练一个小参数模型 使用群体分布稳健优化(GroupDRO)对领域进行训练,产生领域加权(混合比例)的小型代理模型。用领域权重对数据集进行重新取样,训练一个更大的、全尺寸的模型。 解决方案:以数据为中心的大模型预训数据工程-微调数据生成 基于人工标注设定SFT数据标签体系,建立标签体系大类、子类。 构造和撰写一些prompt并且写出对应的结果-forSFT任务针对给定的prompt、模型给出的多个结果,标注结果的好坏排序-for Reward Model 基于大模型进行数据蒸馏基于大模型self-instruct生成数据 基于chatgpt进行结果好坏标注+人工审核 解决方案:以数据为中心的大模型预训数据工程-微调数据清洗 基于规则的清洗过滤敏感词规则 过滤无效输入输出关键词替换规则特殊逻辑规则 基于模型的多样性控制基于语义相似度模型的指令去重 基于主题控制的指令多样化指令数据复杂化 开放数据问题:预训数据是否会不够? 《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽。此外,视觉数据将于2030~2060年耗尽。 02 大模型研发中的自动化评估 问题的提出:如何进行模型性能的自动化评分 基 于 人 工 业 务 评 估 人 工 通 过 列 举 相 关 测 试 样 本 , 建 立 评 估 维度 , 完 成 多 维 度打 分 利 用c h a t g p t的 专 业 能 力 , 充 当 裁 判 , 完成 打 分评 估基 于c h a t g p t打 分 基 于 下 游 任 务 评 测 利 用 下 游 评 测 榜 单 , 任 务 数 据 集 , 进 行 性能评 估 基于GPT自动化评估 中文测试集包含由BELLE项目产生的不同指令类型、不同领域的测试集,总共有12个指令类型,总共1K测试集。测试集类别分布,每个类别的指令的字数长度,以及指令的词语分布(去掉了一些如“问题”“句子”等词) 打分思想:使用ChatGPT自动打分小工具,一个1k+的测试集合,和对应打分prompt。包含多个类别,采用GPT-4或者ChatGPT打分。 地址:https://github.com/LianjiaTech/BELLE/tree/main/ev