AI智能总结
每个人都可以读懂的大模型科普报告(高校篇) DeepSeek大模型赋能高校教学和科研 2025年2月25日厦门大学大数据教学团队作品 厦门大学大数据教学团队 国 内 高 校 大 数 据 教 学 的 重 要 贡 献 者 团队负责人:林子雨副教授年轻力量:核心成员全部46周岁以下结构合理:教学型、科研型、实验工程师专注专业:从2013年至今,11年专注于大数据教学团队特点:眼光前瞻、紧跟技术、创新实干、执行力强影响力高:多项指标在国内高校大数据教学领域领先•教材数量•教材占有率•MOOC课程学习人数•师资培养•教学研讨会•教学网站访问量•在线讲座观看人数•…… 团队联系方式:ziyulin@xmu.edu.cn 大模型系列报告(科普报告,非技术报告) n报告1:大模型概念、技术与应用实践(面向社会大众)n报告2:DeepSeek大模型赋能高校教学和科研(面向高校)n报告3:大模型技术及其企业应用实践(面向企业)n报告4:DeepSeek大模型赋能政府数字化转型(面向政府部门) 报告下载地址:https://dblab.xmu.edu.cn/post/deepseek/ 目录 p1.人工智能发展简史p2.人工智能思维p3.大模型:人工智能的前沿p4.高校本地部署DeepSeek大模型p5.AIGC应用与实践p6.基于大模型的智能体p7. AI赋能高校科研p8. AI赋能高校教学 厦门大学大数据教学团队作品2025年2月 1.人工智能发展简史 1.1图灵测试1.2人工智能的诞生1.3人工智能的发展阶段1.4未来人工智能发展的五个阶段 1.1图灵测试 1950年,“计算机之父”和“人工智能之父”艾伦·图灵(Alan M. Turing)发表了论文《计算机器与智能》,这篇论文被誉为人工智能科学的开山之作。在论文的开篇,图灵提出了一个引人深思的问题:“机器能思考吗?”。这个问题激发了人们无尽的想象,同时也奠定了人工智能的基本概念和雏形 在这篇论文中,图灵提出了鉴别机器是否具有智能的方法,这就是人工智能领域著名的“图灵测试”。如图所示,其基本思想是测试者在与被测试者(一个人和一台机器)隔离的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果被测试者机器让平均每个测试者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能 1.2人工智能的诞生 人工智能的诞生可以追溯到20世纪50年代。当时,计算机科学刚刚起步,人们开始尝试通过计算机程序来模拟人类的思维和行为。在这个背景下,一些杰出的科学家和工程师们开始研究如何使计算机具备更高级的功能 1956年8月,在美国达特茅斯学院举办的人工智能夏季研讨会,是人工智能领域具有里程碑意义的一次重要会议。这次会议汇聚了众多杰出的科学家和工程师,他们共同探讨和研究人工智能的发展和应用前景 这次会议的主题围绕着人工智能的定义、研究方法和应用场景展开。与会者们深入探讨了人工智能的基本概念、算法和技术,以及其在各个领域的应用潜力。他们共同认识到,人工智能的研究和发展将为人类带来巨大的变革和进步 1.2人工智能的诞生 在这次会议上,“人工智能”这个词汇被约翰.麦卡锡(John McCarthy)首次提出。与会者们不仅对人工智能的研究和应用前景进行了深入探讨,还提出了许多重要的观点和思路,为人工智能的发展奠定了基础。这次会议的召开标志着人工智能作为一个独立学科的正式诞生,因此,达特茅斯会议被称为“人工智能的开端”,1956年也被称为“人工智能元年”。这次会议不仅为人工智能的研究和发展奠定了基础,还为人类带来了巨大的变革和进步 1.3人工智能的发展阶段 从1956年人工智能元年至今,人工智能的发展历程经历了漫长的岁月,大致可以划分为以下6个阶段 1.4未来人工智能发展5个阶段 OpenAI Operator DeepSeek R1 2.人工智能思维 2.人工智能思维 拥有和人工智能协作的能力,懂得如何运用人工智能 每个人都应了解人工智能的基础运行模式 具备区分人的能力和机器的能力 2.人工智能思维 2024年12月,人工智能教母级人物、斯坦福大学终身教授李飞飞在公开演讲中说道:“斯坦福应该录取最会用ChatGPT的前2000名学生”。 2025年1月,互联网知名企业家周鸿祎发表观点”未来擅长使用AI的人会淘汰不会使用AI的人“。 3.大模型:人工智能的前沿 3.1大模型的概念3.2大模型的发展历程3.3人工智能与大模型的关系3.4大模型分类3.5大模型原理3.6大模型产品3.7大模型应用领域 3.1大模型的概念 大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型。 通常说的大模型的“大”的特点体现在: 参数数量庞大 2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿。2023年3月发布的GPT-4的参数规模是GPT-3的10倍以上,达到1.8万亿,2021年11月阿里推出的M6模型的参数量达10万亿。 3.1大模型的概念 大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律,具有更强的泛化能力和表达能力 学习能力强 语言生成能力 上下文理解能力 可迁移性高 大模型可以从大量的数据中学习,并利用学到的知识和模式来提供更精准的答案和预测。这使得它们在解决复杂问题和应对新的场景时表现更加出色 大模型可以生成更自然、更流利的语言,减少了生成输出时呈现的错误或令人困惑的问题 学习到的知识和能力可以在不同的任务和领域中迁移和应用。这意味着一次训练就可以将模型应用于多种任务,无需重新训练 大模型具有更强的上下文理解能力,能够理解更复杂的语意和语境。这使得它们能够产生更准确、更连贯的回答 3.2大模型的发展历程 大模型发展历经三个阶段,分别是萌芽期、沉淀期和爆发期 3.2大模型的发展历程 3.2大模型的发展历程 3.3人工智能与大模型的关系 人工智能包含了机器学习,机器学习包含了深度学习,深度学习可以采用不同的模型,其中一种模型是预训练模型,预训练模型包含了预训练大模型(可以简称为“大模型”),预训练大模型包含了预训练大语言模型(可以简称为“大语言模型”),预训练大语言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE,ChatGPT是基于GPT开发的大模型产品,文心一言是基于文心ERNIE开发的大模型产品 3.4大模型的分类 语言大模型 视觉大模型 多模态大模型 是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。代表性产品包括VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)等 是 指 在 自 然 语 言 处 理 (N a t u r a l L a n g u a g eProcessing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。代表性产品包括GPT系列(OpenAI)、Bard(Google)、DeepSeek、文心一言(百度)等 是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。代表性产品包括DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney等 3.4大模型的分类 按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级 通用大模型L0 行业大模型L1 垂直大模型L2 是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育” 是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家” 是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果 3.4大模型的分类 大语言模型可以分为通用大模型和推理大模型 推理大模型 推理模型的核心 OpenAI定义推理模型 在OpenAI的官网上,OpenAI定义推理模型是在回答之前进行思考,并在回复用户之前,在内部生成一长串的思维链过程。思维链是一种提示大语言模型进行逐步推理的方法。它让模型在得出最终答案之前,先显式地写出推理的中间步骤。这就像人类解决复杂问题时会先把思考过程写下来一样。 也就是说,如果模型在回复你之前有一长串的思考过程(这个过程必须可以显示输出),探索了很多不同的路径之后给出答案,那么有这个能力的大模型就是推理大模型。推理模型的核心在于处理那些需要多步骤逻辑推导才能解决的复杂问题。 推理大模型的概念大规模传播应该开始于2 0 2 4年9月 份 。2 0 2 4年9月1 2日 ,OpenAI官方宣布了OpenAI o1推理大模型。 3.4大模型的分类 n推理大模型DeepSeek R1的对话效果 3.4大模型的分类 Sebastian Raschka博士(Lightning AI的首席教育学家)将“推理”定义为通过生成中间步骤来回答复杂问题的过程 非 推 理 问 题 : ”法 国 的 首 都 是 哪 里 ?”( 答 案 直 接 、 无 需 推 导 ) 推理问题: ”一列火车以每小时60英里的速度行驶3小时,行驶距离是多少?”(需先理解”距离=速度×时间”的关系,再分步计算) p通用的大语言模型(LLM)可能直接输出简短答案(如”180英里”) p推理模型的特点在于显式展示中间推导过程 3.4大模型的分类 在应用方面二者各有擅长的领域,而不是简单的谁强谁弱问题 n如果你需要完成数据分析、逻辑推理、代码生成等逻辑性较强且较为复杂的任务,请选择推理大模型n如果你面临创意写作、文本生成、意图识别等发散性较强且较为创意多样的任务,请选择通用大模型 3.5大模型的基本原理 大模型是基于Transformer架构的,这种架构是一种专门用于自然语言处理的“编码-解码器”架构。在训练过程中,大模型将输入的单词以向量的形式传递给神经网络,然后通过网络的编码解码以及自注意力机制,建立起每个单词之间联系的权重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算,并把相关性又编码叠加在每个单词中。这样,大模型能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力 3.5大模型的基本原理 3.6大模型产品 3.6.1国外的大模型产品3.6.2国内的大模型产品3.6.3主流大模型“幻觉”评测 3.6.1国外的大模型产品 nChatGPT ChatGPT是一种由OpenAI训练的大语言模型。它是基于Transformer架构,经过大量文本数据训练而成,能够生成自然、流畅的语言,并具备回答问题、生成文本、语言翻译等多种功能 ChatGPT的应用范围广泛,可以用于客服、问答系统、对话生成、文本生成等领域。它能够理解人类语言,并能够回答各种问题,提供相关的知识和信息。与其他聊天机器人相比,ChatGPT具备更强的语言理解和生成能力,能够更自然地与人类交流,并且能