AI智能总结
况琨浙江大学计算机学院 提纲 l生成式人工智能发展脉络 l生成式人工智能赋能智慧司法 l生成式人工智能的不能 什么是生成式人工智能 什么是人工智能? 什么是生成式模型? 什么是人工智能? •人工智能(ArtificialIntelligence):是以机器为载体所展示出来的人类智能,亦称为机器智能(MachineIntelligence) •让机器模拟人类在视觉、听觉、语言和行为等方面的某些功能 什么是生成式模型 判别式模型 生成式模型 •学习“如何区分数据”(条件概率或决策边界)•目标:直接找到“区分猫狗的关键线索”,不关心数据本身如何生成。•像什么:一个侦探,专注研究“猫和狗有什么不同”,快速抓住关键证据。•怎么做:直接学习猫狗之间的“分界线”,不关心猫狗各自长什么样。 •学习“数据如何生成的”(联合概率分布)•目标:学习数据背后的“完整故事”,包括数据的分布规律,甚至能自己“编故事”(生成新样本)。•像什么:一个画家,不仅会判断“这是猫还是狗”,还能亲手画出一只猫或狗。•怎么做:先分别学习猫和狗的特征(比如猫的尖耳朵、狗的尾巴形状),然后建模它们的整体分布规律。 什么是生成式模型 判别式模型 生成式模型 •学习“如何区分数据”(条件概率或决策边界)•目标:直接找到“区分猫狗的关键线索”,不关心数据本身如何生成。•像什么:一个侦探,专注研究“猫和狗有什么不同”,快速抓住关键证据。•怎么做:直接学习猫狗之间的“分界线”,不关心猫狗各自长什么样。 •学习“数据如何生成的”(联合概率分布)•目标:学习数据背后的“完整故事”,包括数据的分布规律,甚至能自己“编故事”(生成新样本)。•像什么:一个画家,不仅会判断“这是猫还是狗”,还能亲手画出一只猫或狗。•怎么做:先分别学习猫和狗的特征(比如猫的尖耳朵、狗的尾巴形状),然后建模它们的整体分布规律。 区分芒果和榴莲: 生成式模型:研究芒果的颜色、形状、气味,以及榴莲的尖刺、气味,甚至能“合成”一个虚拟的芒果。判别式模型:直接记住“有尖刺的是榴莲,黄色椭圆形的是芒果”,遇到水果时快速对比。 什么是生成式人工智能 生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。 《生成式人工智能服务管理暂行办法》 生成式人工智能的到来 n生成式人工智能的典型代表:ChatGPT nChatGPT:大数据+超算力,现象级AI应用引发范式革命 生成式人工智能发展脉络---以GPT为例 •GPT-1(2018):开启预训练范式 •核心突破:基于Transformer解码器架构,采用“无监督预训练+任务微调”的训练模式,参数1.17亿。•任务微调指在预训练模型的基础上,使用特定任务的数据继续训练,来优化其在目标任务上的性能。通俗来说,就是给一个“什么都会一点但不精通的通才”做专项特训。 •能力特点:掌握基础语义规律,但生成文本较机械,像刚学会造句的小学生。 生成式人工智能发展脉络---以GPT为例 •GPT-2(2019):展现零样本学习能力 •技术亮点:证明了无需任务微调即可完成翻译、摘要等任务,生成文本连贯且富有创意,如撰写短篇小说。 •社会争议:因可能生成虚假信息,OpenAI一度限制其开源。 生成式人工智能发展脉络---以GPT为例 •GPT-3(2020):参数爆炸与少样本学习 •参数跃迁:1750亿参数创纪录,训练数据涵盖45TB互联网内容。 •能力质变:a.少样本学习:对于一个全新的任务,只需要给其提供1-5个示范案例,AI就能根据原有知识,迅速掌握全新的技能任务b.通用性突破:具有卓越的语言理解能力,和一定的归纳、演绎逻辑推理能力。 •局限性:存在“幻觉”问题,可能编造看似合理但错误的内容。 生成式人工智能发展脉络---以GPT为例 •ChatGPT(2022):对话式AI的里程碑 •技术革新:基于GPT-3.5,引入三阶段训练:a.海量文本预训练:构建语言知识库;b.人工标注示范:学习对话礼仪与安全准则;c.人类反馈强化学习:通过人类反馈减少无益、有害输出。 •应用爆发:成为写作助手、编程导师、多语言翻译工具。 生成式人工智能发展脉络---以GPT为例 •GPT-4(2023-2024):多模态与系统化思维 •架构升级:参数规模上,1.8万亿参数,采用混合专家(MoE)架构提升效率;多模态融合上,支持图像输入与文本生成,如解析医学影像生成诊断报告。 •能力跃迁:GPT-4在美国法考、GRE、SAT等排名提升至人类考生前10%水平;在法律、医疗等垂直领域表现接近人类专家。 GPT的训练三板斧之一:完形填空形式下文字接龙(自监督学习) 在训练时,人工智能模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’。 原话:一辆列车缓慢行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上移除单词:一辆列车行驶在崎岖的山路上 GPT的训练三板斧之二:提示学习与指令微调(人教机学) l让人工智能模型说人话、做人事。 l手工设计提示和指令微调被誉为人工智能私语者(AIwhisperer) l经师易得、人师难求 l情感预测任务。输入:“Imissedthebustoday.Ifeltso___.”其中“Ifeltso”就是提示词(prompt),然后使用大模型用一个表示情感的词填空。 l翻译任务。输入:“English:Imissedthebustoday.French:___.”其中“English:”和“French:”就是提示词,然后使用大模型应该再空位填入相应的法语句子。 指令微调 提示学习 指令微调,是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据进行进一步的微调,从而使得模型具备遵循指令的能力。 “提示”是一种提供给预训练语言模型的线索,让预训练语言模型能更好的理解人类的问题。 GPT的训练三板斧之三:人类反馈下强化学习(尝试与探索) 谋定而后动,知止而有得 人工智能三大要素:数据是燃料、模型是引擎、算力是加速器 •数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。据估计全球高质量文本数据的总存量在5万亿token左右,人工智能算法可能在一个数量级内,耗尽世界上所有有用的语言训练数据供应。 •大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。 大模型的扩展定律:数据是燃料、模型是引擎、算力是加速器 大模型的“扩展定律”(scalinglaw),即随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,并且这些关系遵循可预测的模式。 DeepSeek崛起之因:模型算法和工程优化的系统级协同创新 DeepSeek模型在2048块英伟达H800GPU(针对中国市场的低配版GPU)集群上完成训练,打破了大语言模型以大算力为核心的预期天花板,为在受限资源下探索通用人工智能开辟了新的道路。 算法和工程创新主要包括了混合专家模型、低秩注意力机制、强化学习推理、小模型蒸馏,以及诸如FP8混合精度和GPU部署优化等工程创新。 生成式人工智能发展脉络---以DeepSeek为例 参数规模达670亿,拥有7B和67B的base及chat版本 •特色:具备强大的语言理解与生成能力,采用先进注意力机制和大规模无监督预训练技术,能处理文本生成、问答系统、文本摘要等多种自然语言处理任务,语言泛化能力突出。 •意义:标志着DeepSeek正式进军通用人工智能领域,为用户提供全新自然语言处理解决方案,推动通用大模型技术发展和应用。 DeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermismhttps://blog.csdn.net/qq_22866291/article/details/145501376 生成式人工智能发展脉络---以DeepSeek为例 •参数量:总参数达到2360亿 •特色:开源混合专家(MOE)模型,通过MOE架构,能根据任务特点动态分配计算资源,在长文本处理、复杂语义理解方面表现出色,可实现更精准的语言理解和生成。 •意义:展示了DeepSeek在大规模模型架构设计上的技术实力,为整个大模型领域引入新思路,推动混合专家架构在实际应用中的发展。 DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModelhttps://blog.csdn.net/qq_22866291/article/details/145501376 生成式人工智能发展脉络---以DeepSeek为例 •参数量:总参数高达6710亿,每token激活370亿参数•特色:采用创新的MoE架构和FP8混合精度训练,在长文本生成、代码理解和数学推理等任务中表现卓越,能处理复杂数学问题,准确解析各类编程语言,长文本生成内容连贯、逻辑清晰。•意义:巩固了DeepSeek在大模型领域的领先地位,展示其在技术创新和性能优化方面的卓越能力,为行业树立新标杆。 DeepSeek-V3TechnicalReporthttps://blog.csdn.net/qq_22866291/article/details/145501376 生成式人工智能发展脉络---以DeepSeek为例 •参数量:最大6710亿,也有通过蒸馏得到的参数在15亿到700亿之间的不同规模版本•特色:新一代推理模型,性能与OpenAl的o1正式版持平并开源。在仅有少量标注数据的情况下,通过大规模使用强化学习技术,极大提升模型推理能力,在数学、代码以及各种复杂逻辑推理任务上表现出色。 •意义:打破了国际社会对AI研发“高投入、长周期”的固有认知,其开源和低成本特点,有助于普及AI技术,让更多开发者参与到人工智能的创新中,影响全球人工智能竞争格局。 DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLeamninghttps://blog.csdn.net/qq_22866291/article/details/145501376 生成式人工智能发展脉络---以DeepSeek为例 n代码智能领域开拓者 n推理技术重大改革 nMoE核心技术创新 n混合专家架构新突破 n多模态理解大模型 作为首个开源代码大模型,支持多种编程语言,基于Transformer架构优化,能有效助力代码生成、调试以及数据分析任务,开启了DeepSeek在人工智能细分领域的探索 新一代推理模型,性能与OpenAI的o1正式版持平并开源。在仅有少量标注数据的情况下,通过大规模使用强化学习技术,极大提升模型推理能力,在数学、代码以及各种复杂逻辑推理任务上表现出色。 采用混合专家(MoE)架构,可根据任务动态分配计算资源,大幅提升模型效率与性能,增强模型在复杂任务处理上的表现。革新了大模型架构设计思路。 混合专家(MoE)视觉-语言模型,在多模态理解,尤其是视觉与语言结合的任务上表现出色,增强了模型对图像内容理解并关联语言描述的能力。 第二代开源混合专家(MoE)模型,通过MoE架构,能根据任务特点动态分配计算资源,在长文本处理、复杂语义理解方面表现出色,可实现更精准的语言理解和生成。 DeepSeekCoder n进军通用人工智能 n数学推理领域开拓者 n多模态生成 n代码智能第二代 n技术创新性能飞跃 具备强大的语言理解与生成能力,采用先进注意力机制和大规模无监督预训练技术,标志着DeepSeek正式进军通用人工智能领域,为用户提供全新自然语言处理解决方案,推动