行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合

信息技术 2023-08-08 DataFunSummit2023：大模型与AIGC峰会 Joker Chan

大模型研发中的数据工程

1. 数据工程概述

以数据为中心的AI: 模型不变，通过改进数据集质量提升模型效果。
关键问题:
- 需要什么数据？
- 数据从哪儿来？
- 数据怎么处理？
- 数据怎么评估？
- 数据怎么管理？

2. 现有大模型情况

GPT背后的预训练数据:
- 主要来自CommonCrawl、新闻、帖子、书籍及各种网页。
- CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。
- 维基百科包含约30亿tokens，仅占到训练数据量的3%。

3. 大语言模型数据集构成

英文主流大模型常用预训数据:
- 维基百科、书籍（Project Gutenberg、Smash words）、论文期刊（ArXiv）、WebText、Common crawl、The Pile、代码、论坛等。
中文主流大模型预训练数据:
- 华为盘古、WeLM、阿里M6、InternVideo等。

4. 预训练数据的质量要求

高质量：信源权威可靠、内容价值观对齐、专业领域知识。
大规模：独立增加训练数据量、模型参数规模或者延长模型训练时间。
多样性：数据丰富性提高模型泛化能力。

5. 数据工程解决方案

数据源的选取：
- 数据体系是否完备、站点来源是否权威、数据规模是否大、数据实时性是否足够、下游任务是否有需求等。
数据清理：
- 质量分档模型、边缘文本剔除模型、垂直网页处理、基于规则的噪声清洗等。
数据质量控制：
- 数据质量评分、数据版本控制、预训数据索引管理、数据随机抽样等。
数据采样：
- 《DoReMi》：先初始化数据分布，训练一个小参数模型，使用群体分布稳健优化对领域进行训练，产生领域加权的小型代理模型，用领域权重对数据集进行重新取样，训练一个更大的、全尺寸的模型。

大模型研发中的自动化评估

1. 自动化评估方法

基于GPT自动化评估：
- 包含12个指令类型的测试集，总共有1K测试集。
基于众包投票进行评估：
- Chatbot Arena平台，采用Elo rating system进行评分。
基于下游评测任务进行评估：
- 利用下游任务评测进行性能评估。

大模型与知识图谱的结合

1. 知识图谱认识

定义：基于二元关系的知识库，用以描述现实世界中的实体或概念及其相互关系。
优势：方便debugging，人可理解，图结构表达能力强。

2. 大模型与知识图谱结合

构建阶段：
- schema生成与数据标注（ESHer、生成排序数据、进行数据增强）。
- 知识抽取、推理与知识问答（TAGREL、进行知识图谱问答）。
训练前阶段：
- 利用大模型于数据清洗，引入预训练语料。
训练中阶段：
- 将知识图谱隐式地加入到模型训练中。
训练后阶段：
- 引入涉及实体的上下文进行丰富，增强结果可用性。
- 通过query实体消歧和实体链接，注入搜索实时结果，增强实时性。
- 结合外部知识库进行生成干预KGLLM。

3. 未来发展方向

大模型的应用边界：仍在不断探索。
垂直领域微调模型：是必然趋势。
数据工程：是大模型研发的重中之重，数据为王。

刘焕勇-360人工智能研究院-算法专家（老刘说NLP公众号作者）目录CONTENT 大模型研发中的数据工程大模型与知识图谱的结合大模型研发中的自动化评估总结大模型研发中的数据工程什么是大模型的数据工程-以数据为中心的AI 以数据为中心的AI:模型不变，通过改进数据集质量提升模型效果大模型的数据工程需要解决的几个关键问题:需要什么数据？ 数据从哪儿来？数据怎么处理？数据怎么评估？数据怎么管理？回顾:现有大模型基本情况回顾:现有大模型应用场景起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens，仅占到训练数据量的3%。数据上的问题:ChatGPT的知识有限(2021年之前)，真实性无法保障。起底:英文主流大模型预训练数据的构成-多语种能力起底:英文主流大模型预训练数据的构成 Common Crawl (C4) The Pile v1 WebText GPT-3 起底:英文主流大模型常用预训数据-维基百科、书籍 维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书，由超三十万名志愿者组成的社区编写和维护。截至2023年3月，维基百科拥有332种语言版本，总计60,814,920条目。其中，英文版维基百科中有超过664万篇文章，拥有超4,533万个用户。 书籍:主要用于训练模型的故事讲述能力和反应能力，包括小说和非小说两大类。数据集包括Project Gutenberg和Smash words(Toronto BookCorpus/BookCorpus)等。Project Gutenberg是一个拥有7万多本免费电子书的图书馆，包括世界上最伟大的文学作品，尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础，这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。起底:英文主流大模型常用预训数据-论文期刊 期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案，包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。起底:英文主流大模型常用预训数据-WebText、Common crawl Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站，注册用户可以将文字或链接在网站上发布，使它成为了一个电子布告栏系统。WebText是一个大型数据集，它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织，致力于为互联网研究人员、公司和个人免费提供互联网副本，用于研究和分析，它的数据包含原始网页、元数据和文本提取，文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。 WebText前30个域 C4前23个域名(不包括维基百科) 起底:英文主流大模型常用预训数据-The Pile及代码、论坛 ThePile数据集:一个825.18GB的英语文本数据集，用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成，包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外，ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。阿里M6预训练数据集构成华为盘古大模型1.1TB中文文本语料库数据组成 InternVideo预训练过程中使用的数据集统计 WeLM大模型训练语料库统计起底:中文主流大模型预训练数据的构成-中英语料对应问题的提出:我们需要怎样的预训练数据 相关性:回答是否和问题相关，避免答非所问。准确性:是否准确，事实性回答要求完全一致，开放性问答要求语义相近。完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。连贯性:是否表达流畅、有条理、有逻辑性。安全性:是否包含粗鲁、侮辱性等词汇。专业性:不口水话，不啰嗦，书面用语，专业表达。敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。 AI大模型需要高质量、大规模、多样性的数据集。 高质量高质量数据集能够提高模型精度与可解释性，并且减少收敛到最优解的时间，减少训练时长。信源权威可靠、内容价值观对齐、专业领域知识规范性、完整性、准确性、一致性、时效性 大规模《Scaling Laws for Neural Language Models》中提出LLM模型所遵循的“伸缩法则”(scalinglaw)，即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。 多样性数据丰富性能够提高模型泛化能力，过于单一的数据会非常容易让模型过于拟合训练数据。问题的提出:以数据为中心的预训模型更高质量、更丰富的训练数据是GPT模型成功的驱动力，除模型权重变化之外，模型架构保持相似解决方案:领域预训模型的训练链路-以caMA为例 https://github.com/zjunlp/CaMA 解决方案:以数据为中心的大模型预训数据工程框架 以数据为中心的AI:模型不变，通过改进数据集质量提升模型效果解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估解决方案:以数据为中心的大模型预训数据工程解决方案:以数据为中心的大模型预训数据工程-数据源的选取 目标:构建起大规模、多样性的数据，需要广泛收集并标准化各类语料，建立数据体系、数据来源，分开收集。 解决方案:数据源的选取依据 数据体系是否完备 站点来源是否权威数据规模是否大数据实时性是否足够下游任务是否有需求下游技能有哪些表现差的能力网站数据 通用网页 搜索数据问答数据知识图谱百科代码推理数据专业文献 研究报告 学术论文、期刊、书籍、文学著作行业数据 任务评测数据集 多语种数据集金融、法律、房地产、体育、医药、影视领域语料解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗 目标:语料中存在大量不干净、广告、隐私、敏感数据，需要进行剔除，保证高质量。 解决方案:质量分档模型 基于高优语料数据，使用fasttext分类器，分为4档， 0，1，2，3:2 3认为是优质数据特征使用包含title以及CEloss...... 边缘文本剔除模型高优语料数据，使用fasttext分类器，识别正文文本 使用不含title-ce分类器...... 垂直网页处理Pattern级高优语料提取 定制化边缘文本剔除...... 基于规则的噪声清洗空格、特殊符号剔除，繁简体转换 语种检测敏感信息，如脏话、煽动性言论和其他非法内容剔除隐私数据识别与处理（私人信息(即身份号码、电话号码、qq号码、电子邮件地址等）... 基于模型的噪声清洗PPL判定模型，剔除不连贯文本 ...... 解决方案:以数据为中心的大模型预训数据工程-网页分类建模 目的:网页分类建模的目的在于挖掘细粒度的网页数据，以满足不同类别数据的需求 解决方案网页标签挖掘 LDA主题词提取 文本关键词提取人工审核标签下游技能迭代反馈标签...... 网页主题分类预设网页类别体系，体育、历史、金融、医药 等细分领域标签构造语料分类器，完成语料标签分类:基于BERT...... 解决方案:以数据为中心的大模型预训数据工程-数据质量控制 目标:经过模型自动化质量评估后，可以得到质量较高的数据，但数据质量如何量化，如何给出定性的质量分？ 解决方案数据质量评分 标计算得分计算-举例：（3分*样本量+2分*样本量+1分*样本量+0分*样本量）/（总量*3）*100 人工确定质量评分标准 正文的语句通顺连贯 存在噪音标签/文本存在边框、或者非规范文本在空短页、投毒、堆砌、其它低质、灌水等无价值内容...... 数据版本控制根据数据生成流程的各个阶段备份管理 数据各阶段信息标引...... 预训数据索引管理训练数据问题反馈、定位 ...... 数据随机抽样根据数据源抽样送评 人工质量评分按数据源进行质量分高低排序...... 解决方案:以数据为中心的大模型预训数据工程-预训数据采样 《DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining》实现思想先初始化数据分布，训练一个小参数模型 使用群体分布稳健优化（GroupDRO）对领域进行训练，产生领域加权（混合比例）的小型代理模型。用领域权重对数据集进行重新取样，训练一个更大的、全尺寸的模型。解决方案:以数据为中心的大模型预训数据工程-微调数据生成 基于人工标注设定SFT数据标签体系，建立标签体系大类、子类。 构造和撰写一些prompt并且写出对应的结果-forSFT任务针对给定的prompt、模型给出的多个结果，标注结果的好坏排序-for Reward Model 基于大模型进行数据蒸馏基于大模型self-instruct生成数据 基于chatgpt进行结果好坏标注+人工审核解决方案:以数据为中心的大模型预训数据工程-微调数据清洗 基于规则的清洗过滤敏感词规则 过滤无效输入输出关键词替换规则特殊逻辑规则 基于模型的多样性控制基于语义相似度模型的指令去重 基于主题控制的指令多样化指令数据复杂化开放数据问题:预训数据是否会不够？ 《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》语言数据将于2030~2040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽。此外，视觉数据将于2030~2060年耗尽。 02 大模型研发中的自动化评估问题的提出:如何进行模型性能的自动化评分基于人工业务评估人工通过列举相关测试样本，建立评估维度，完成多维度打分利用c h a t g p t的专业能力，充当裁判，完成打分评估基于c h a t g p t打分基于下游任务评测利用下游评测榜单，任务数据集，进行性能评估基于GPT自动化评估 中文测试集包含由BELLE项目产生的不同指令类型、不同领域的测试集，总共有12个指令类型，总共1K测试集。测试集类别分布，每个类别的指令的字数长度，以及指令的词语分布（去掉了一些如“问题”“句子”等词） 打分思想:使用ChatGPT自动打分小工具，一个1k+的测试集合，和对应打分prompt。包含多个类别，采用GPT-4或者ChatGPT打分。地址:https://github.com/LianjiaTech/BELLE/tree/main/ev

点击免费查看完整报告

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合

大模型研发中的数据工程

大模型研发中的自动化评估

大模型与知识图谱的结合

你可能感兴趣

自动化证据综合：用于数据提取的大型语言模型的比较评估（英）

2023年大规模语言模型中语言与知识报告

关于大规模语言模型在科学研究中的应用综述

评估并缓解大型语言模型中的状态焦虑

ELEPHANT：大型语言模型中社会式谄媚的测量与理解

大象：测量与理解大型语言模型中的社会谄媚现象

金融工程专题报告：多因子模型与行业轮动模型的结合

整合照料视角下日本特色“医养结合”的实现路径及启示

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

打破数据孤岛，开源视角下的金融业数字化转型