AI智能总结
星 环 科 技 : 東 方 2 0 2 4年1 1月2 1日 目 录 01背景知识 02大模型应用体系建设 03大模型在金融行业的应用探索 01 背 景 知 识 C h a t G P T引 发 的 巨 大 关 注 ChatGPT带来的震撼 1.技术突破:基于大规模预训练技术和更长的上下文长度,这使得它在对话流畅性、多轮对话、复杂语义理解等多个传统的NLP任务上取得了巨大的进展。 2.用户体验:ChatGPT的交互体验非常接近人类,它能够理解和生成自然语言,这使得用户感觉与一个真正有逻辑思维和语言交流能力的真人进行交流。3.研究范式改变:它的出现改变了NLP的研究范式,从传统的统计学习方法和词嵌入方法,到预训练加微调范式,再到如今的大语言模型。4.应用潜力:其展示出了在众多领域的应用潜力。产业界积极进行场景实践。5.社会影响:引发了对AI技术的广泛讨论,包括其在伦理、安全和隐私方面的挑战。甚至已经符号化。 2022年11月30日,OpenAI的生成式对话模型服务ChatGPT发布 一些关于ChatGPT的评论 1.埃隆·马斯克和比尔·盖茨都对ChatGPT表示了高度评价。马斯克认为ChatGPT“厉害得吓人”,而比尔·盖茨则认为ChatGPT的问世具有重大的历史意义,这种人工智能技术的诞生不亚于互联网或个人电脑的诞生。 2.英伟达CEO黄仁勋也对ChatGPT给予了高度评价,他盛赞ChatGPT的诞生堪比iPhone问世。 3.澎湃新闻将2022年11月30日视为可能改变人类历史的日子,他们认为ChatGPT不仅催生了人工智能界的又一轮高光期,还并不常见地被誉为“蒸汽机时刻”、“iPhone时刻”甚至“钻木取火时刻”。 GPT-4接受图灵测试 生成毁灭人类计划引关注和对于大语言模型的思考 大 模 型 发 展 历 程 2006 Geoffrey Hinton提出逐层无监督预训练方式,缓解深度学习模型梯度消失问题。 TomasMikolov和他的团队提Word2Vec词向量模型。 Ian Goodfellow等人首次提出GAN生成式对抗网络概念。 2017 2018 基于Transformer架构的与训练微调,模型在多种NLP任务上的性能。 Google提出Transformer架构。开创性的进步,引领NLP新纪元。 2023 参数规模达到惊人的1750亿。对算力的巨大需求正式拉开。 超大规模多模态预训练大模型。 OpenAI正式发布ChatGPT,引发社会广泛关注。 大 语 言 模 型 的 众 多 优 秀 能 力 为 产 业 深 度 利 用 打 下 坚 实 基 础 n广泛的常识:大模型通过在大规模文本数据上的预训练,学习到了语言的潜在结构、语法规则和语义关系,因此具备了广泛的常识。例如,它们可以理解和生成涉及各种主题的文本,从科学知识到日常对话。 n推理能力:大模型能够进行逻辑推理和问题解决。例如,在算术或逻辑推理任务中,通过构建思维链提示技术,模型能够分步骤解决问题,类似于人类的思考过程。 n理解能力:大模型能够理解复杂的指令和上下文信息,这使得它们在执行任务时更加精准。例如,它们可以根据邮件的主题自动撰写回复,理解用户的需求并生成合适的内容。 n上下文学习:大模型能够根据上下文信息进行学习和预测,这使得它们在处理具有上下文依赖性的任务时更加有效。例如,它们可以根据对话历史理解和生成连贯的回应。 基于常识的推理 n语言生成能力:大模型能够创造性地生成新的内容,包括文本、图像等。例如,它们可以撰写文章、故事,甚至生成代码,展现出强大的语言创造能力。 n多任务能力:大模型在预训练后能够泛化到多个下游任务,无需大量针对特定任务的训练数据。例如,GPT-3模型在多种自然语言处理任务上展现出了令人瞩目的成果。 n多模态理解能力:最新的大模型如GPT-4展示了更强的推理与多模态理解能力,能够处理包括文本、图像在内的多种类型的数据。 以上结果由星环无涯问知生成,www.wuya-ai.com 大 模 型 产 业 发 展-政 策 端 : 各 级 对 大 模 型 技 术 应 用 的 支 持 与 管 理 政 策 在2024年3月发布的《政府工作报告》中,中央政府明确了对人工智能产业的顶层设计,主要聚焦于供给侧的“创新生产力”和需求侧的“促进内需”两大领域。报告提出了针对数据资源、计算能力、市场环境和应用场景的多项具体措施,以推动人工智能产业的全面发展。 国家级引导政策: Ø《新一代人工智能发展规划》:这份规划由国务院于2017年发布,旨在抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。 Ø《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》:由科技部等六部门于2022年印发,目的是落实《新一代人工智能发展规划》,系统指导各地方和各主体加快人工智能场景应用,推动经济高质量发展。 Ø《“数据要素×”三年行动计划(2024-2026年)(征求意见稿)》:由国家数据局起草,提出支持开展通用人工智能大模型和垂直领域人工智能大模型训练,以发挥数据要素乘数效应,赋能经济社会发展。 地方支持政策: Ø《北京市促进通用人工智能创新发展的若干措施》:该政策旨在充分发挥政府引导作用和创新平台催化作用,整合创新资源,加强要素配置,营造创新生态,重视风险防范,推动本市通用人工智能实现创新引领和理性健康发展。Ø《北京市促进未来产业创新发展实施方案》:此方案旨在抢抓新一轮科技和产业变革机遇,促进未来产业创新发展,推动北京教育、科技、人才优势转化为产业优势。Ø《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》:该方案的目标是高水平建设北京国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,加快建设具有全球影响力的人工智能创新策源地。Ø《北京市推动“人工智能+”行动计划(2024-2025年)》:这个行动计划的目标是通过实施标杆型应用工程、示范性应用项目和商业化应用成果,力争到2025年底形成3至5个先进可用、自主可控的基础大模型产品、100个优秀的行业大模型产品和1000个行业成功案例。Ø《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》:这份通知由上海市经济和信息化委员会、上海市发展和改革委员会、上海市科学技术委员会、中共上海市委网络安全和信息化委员会办公室、上海市财政局联合制定。它旨在推动上海大模型创新发展,构建开放安全创新生态,加快打造人工智能世界级产业集群。Ø《推动区块链、大模型技术赋能生产性互联网服务平台发展实施方案》:由上海市经济和信息化委员会、上海市商务委员会联合发布,目的是推动区块链、大模型等前沿技术与平台深度融合,促进生产性互联网服务平台的高质量发展。Ø《上海市推进“人工智能+”行动打造“智慧好办”政务服务实施方案》:这份通知由上海市人民政府办公厅发布,目的是推进政务服务领域“人工智能+”行动,打造快捷易办的“智慧好办”政务服务品牌。Ø《上海打造未来产业创新高地发展壮大未来产业集群行动方案》:由上海市人民政府发布,旨在贯彻落实创新驱动发展战略,全力做强创新引擎,培育发展新动能,打造未来产业创新高地、发展壮大未来产业集群。 各地AI大模型产业支持政策还有:北京、上海、山东、广东、安徽、福建和深圳、杭州、成都等地均发布了AI大模型的相关产业政策,以加速大模型应用落地。 大 模 型 产 业 发 展-需 求 端 : 企 业 端 对 生 成 式A I强 劲 需 求 l根据SAS和ColemanParkes调研,中国在生成式人工智能的应用率上领先,在“将生成式AI与现有业务流程进行全面覆盖及整合”的使用程度占比达到19%;在“已进行部署生成式AI但尚未完全覆盖整合”的使用程度上占比达到64%。总比例83%,位居全球第一。美国在该两个维度上则分别达到24%和41%lIDC《2024AIGC应用层十大趋势白皮书》中调研显示,从全球化B端(企业端)的应用场景看,作为需求方,知识管理场景是AIGC现在最受企业青睐的应用场景,全球市场、中国市场及美国市场受访企业对此场景的期待应用分别占到了52%、52.2%及60% 大 模 型 产 业 发 展-供 给 端 : 在 大 模 型 带 动 下 的A I产 业 蓬 勃 发 展 , 百 花 齐 放 02 大 模 型 应 用 体 系 建 设 利用企业自身数据,快速搭建,构建 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 1 •快速搭建企业领域知识平台,构建专家级领域大模型应用。比如直接部署垂直领域大模型提供基础问答。 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 2 •利用企业自身对于场景的理解,快速搭建企业领域知识平台,构建专家级领域大模型应用 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 3 •利用企业自身数据,快速搭建企业领域知识平台,构建专家级领域大模型应用 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 3 •利用企业自身数据,快速搭建企业领域知识平台,构建专家级领域大模型应用 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 4 •利用企业自身数据,快速搭建企业领域知识平台,构建专家级领域大模型应用 五 种 方 法 快 速 构 建 大 模 型 商 业 应 用–L 4 •利用企业自身数据,快速搭建企业领域知识平台,构建专家级领域大模型应用 大 模 型 应 用 体 系 建 设 对 真 实 业 务 场 景 的 意 义 例如我们有一个需求: 授信项目可行性报告 使用大模型技术帮助信贷部门业务人员撰写《授信项目可行性报告》,之前该报告由人工撰写,需要编写人员针对某个申请授信的单一客户进行详细的调查。可能涉及到内部数据、外采数据、互联网数据以及远程及现场调研。该报告模板共计十七页。 上表需要的数据来自于外采数据 以上内容需要模型根据各类召回的数据进行自主编写 Ø当前AI与金融的结合主要有两条技术路径:①通用模型+金融语料训练金融大模型,②金融垂类大模型。 Ø由于设计和训练目的不同,通用语言大模型与金融垂类模型在优劣上具有相对性。通用语言大模型在泛用性、灵活性、数据利用率、迁移性上相比金融垂类更有优势,而在专业性、针对性、高精度和合规性上,金融垂类模型更胜一筹; Ø使用金融数据训练和调优通用大模型,期待其超过金融垂直大模型,可能性较小,得不偿失 Ø训练数据难以覆盖所有金融知识,以偏概全对模型来说是“毒药”Ø训练成本较高(千亿级别的通用大模型,训练一次需要付出几千万的成本)Ø金融业对合规和风险要求极高,通用难以满足要求。 1 . 2大 模 型 : 领 域 大 模 型 的 预 训 练 特 点 专业数据集 垂直领域大模型则专注于特定领域或任务,使用特定领域的数据集进行训练,这些数据集更加专业和精细。 数据预处理 垂直领域大模型需要整合领域特定的知识库或数据,以提高模型在特定任务上的表现。 专业目标 垂直领域大模型的预训练则更侧重于学习特定领域的知识和规律,以提高在该领域内的性能和准确性。 架构与参数 垂直领域大模型在参数量上通常小于通用大模型,还可能会涉及到对模型的某些组件或网络结构进行定制化调整。 2 . 1大 模 型 管 理 与 运 营 :模 型 训 练 的 必 要 性 及 其 挑 战 数据难点 知识边界 私域数据 •通用模型对行业有知识边界或者偏见 场景、数据、业务壁垒 管理成本高 算力稀缺 模型架构和推理机制 2 . 2大 模 型 管 理 与 运 营 :大 模 型 的 训 练/微 调 l支持从语料采集/清洗/标注,到模型训练、模型评估、测试验证、模型对齐的全流程管理。l支持引导式模型微调,包括全参微调、Lora、P-Tunin