“AI”力觉醒从人工“智障”到人工“智能” 目录CONTENTS 人工智能发展历程 人工智能发展历程 人工智能(AI)是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的新技术科学 萌芽期(1950-1980)早期探索阶段 突破及爆发期(2006-至今)深度学习及大模型时代阶段 发展期(1980-2006) 专家系统、机器学习阶段 l2010年后,深度学习成为人工智能领域的热点,推动了语音识别、图像分类等技术的突破l2020年,OpenAI发布GPT-3,标志着大模型进入规模化应用阶段l大模型技术被认为是通用人工智能的核心引擎,推动了从感知智能向认知智能的转变 l专家系统成为人工智能发展的第一个阶段,解决了知识工程的瓶颈l机器学习逐渐崭露头角,通过从数据中自动提取特征改进模型性能l2006年,深度学习概念正式提出,开启了深度学习在学术、工业界的浪潮,推动了人工智能技术的快速发展。 l1950年,艾伦·图灵提出“图灵测试”,探讨及判断机器是否能思考问题,具备智能l1956年,达特茅斯会议首次提出“人工智能”概念,标志着AI学科诞生1960年,人工智能开始应用在军事领域,如无人机 人工智能发展历程 人工智能技术经过70年的发展已经进入成熟期,即将进入大规模应用落地阶段 人工智能技术架构演变 第一阶段AI主要以逻辑推理为主,聚焦决策和认知;第二阶段注重概率统计建模、学习和计算,聚焦感知、认知和决策;第三阶段聚焦学习阶段,注重大模型建设,AI能力覆盖学习和执行;第四阶段聚焦执行和社会协作环节,注重人机交互协作,人类对人工智能的反馈训练 当下处于第四阶段,这一阶段从2020年开始,代表性事件为GPT-3的发布,突破了以往模型在自然语言处理领域的限制,为语言模型的进一步发展提供了强有力的基础,也为实现智能化的语言交互和人机对话打开了全新的可能性 人工智能三要素 数据、算力和算法作为人工智能发展的核心三要素已具备基础条件 AI能力进化曲线 大数据+大算力+通用大模型成为新的发展范式,将推动AI能力提升逼近通用人工智能 大模型基本分类 大模型按照功能可以分为NLP大模型、CV大模型、科学计算大模型和多模态大模型 lNLP(Natural Language Processing,自然语言处理)大模型:主要用于处理自然语言文本数据,具备强大的语言理解和生存能力,例如Open AI GPTlCV(Computer Vision,机器视觉)大模型:主要用于处理图像和视频数据,具备强大的图像识别和视频分析能力,例如腾讯的PCAM大模型l科学计算大模型:主要应用于解决科学领域的计算问题,需要处理大规模数值数据,例如华为的盘古气象模型l多模态大模型:可以同时处理多种类型的模态数据,如文本、图像、语音,实现跨模态搜索和生成任务,例如谷歌的Vision Transformer模型 系列模型 大模型主要特征 以Transformer架构为基础的大模型不断取得新突破,进一步确认了人工智能技术发展走向新范式 AI大模型 AI大模型是人工智能预训练大模型的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了新的人工智能模式,即模型在大规模数据集上完成预训练后,仅需要少量的数据微调甚至无需微调,就能直接支撑各类应用 脑力效率飞跃 人工智能将推动人类文明生产力的跃迁,标志着人类生存效率出现了第二次脑力效率飞跃 元宇宙 全球AI大模型PK 全球AI大模型突破与快速发展 多模态大模型的出现 GPT系列的崛起 2023年3月,OpenAI发布多模态模型GPT- 4,新增图像功能,标志着大模型从单一模态向多模态的重要转变,能够同时处理文本和图像等多种模态的数据。 同年,百度的“文心一言”、阿里巴巴的“通义千问”等多模态大模型相继亮相,推动了多模态大模型的发展和应用,为人工智能技术的进一步发展开辟了新的方向。 2022年11月,GPT- 3.5发布,其强大的语言理解和生成能力引发广泛关注,标志着大模型在性能和应用方面达到了一个新的高度。 当前格局与趋势 国内外大模型竞争加剧 截至2024年7月,全球AI大模型数量约1328个,美国占比44%,中国占比36%。国际主流大模型如OpenAI(推出了GPT系列,在自然语言处理领域具有重要影响力)、谷歌(AlphaGo展示了深度学习在复杂任务中的潜力)、微软、英伟达、Meta。国内大模型如DeepSeek、阿里巴巴(Qwen、通义千问)、百度(文心一言)、华为(盘古大模型)、科大讯飞(星火认知)等在性能上逐渐接近国际领先水平,展现出强劲的发展势头。 技术创新与优化 DeepSeek通过稀疏注意力机制、混合专家模型等创新,实现了轻量级参数与卓越性能的平衡,为大模型的高效训练和推理提供了新的思路。Qwen采用两阶段强化学习等技术,提升了模型在多模态任务中的表现,进一步拓展了大模型的应用范围和能力。 应用场景拓展 大模型在自然语言处理、计算机视觉、语音识别、医疗、金融、教育等多个领域得到广泛应用,为各行业的发展带来了新的机遇和挑战。未来,大模型将更加注重多模态融合、具身智能、知识更新等方向的发展,进一步提升其在复杂场景中的应用能力和价值。 国外大模型及其合作伙伴 生成式AI里程碑——ChatGPT ChatGPT产品迭代图 ChatGPT能力实现解析 国内外主要大预言模型研发路径与技术对比 围绕新兴生产力的国家博弈 AI大模型应用场景 AI大模型掀起多模态和多场景革命。多模态融合模型通过充分利用大模型的泛化能力,构建多模态数据集,解决融合和对齐问题,以及提供强大的计算资源支持,可以将不同类型的数据通过预处理转化为统一的表现形式,结合多个模态的信息进行联合建模和分析,从而提升其在多个感知任务上的性能和表现 国内大模型玩家 科技型企业包括人工智能企业、垂直大模型企业和数据智能服务商相继进场,如商汤科技、度小满等。除科技型企业入局外,以百度、腾讯和阿里为代表的互联网云厂商占据中国通用大模型行业多数市场份额,他们在布局时间、基础设施建设和应用场景等方面具备明显优势 国内头部大模型玩家及其合作伙伴 中国大语言模型产业价值链 基于新一代人工智能开源技术架构的大模型开源生态系统 DeepSeek DeepSeek幕后投资方 初创与起步 DeepSeek公司是由私募公司幻方量化(宁波幻方量化投资管理合伙企业)孵化,是一家总部位于中国浙江省杭州市的对冲、量化基金和人工智能公司,成立于2016年,实际控制人为梁文峰 梁文峰是一位在人工智能和金融领域具有深厚背景的专家。他通过创立量化对冲基金High-Flyer取得了显著成就,管理着超过100亿元人民币的资金。他拥有清华大学、北京大学和斯坦福大学等顶尖高校的学术背景,并曾与谷歌、微软、百度等科技公司的资深工程师合作 幻方量化专注于开发多种量化投资策略,利用数学模型、计算机算法和人工智能技术对金融市场数据进行分析和预测,从而制定和执行量化交易策略。其主要业务涉及 •量化投资策略研发:开发多种量化投资策略,涵盖股票、债券等多种金融工具•人工智能应用:通过深度学习等人工智能技术优化传统量化策略研究方法 DeepSeek公司基本介绍 公司概况 DeepSeek(杭州深度求索人工智能基础技术研究有限公司)是一家专注于通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用,致力于推动人工智能技术的发展和应用。 公司成立于2023年7月,团队主要由国内高校毕业生和未毕业的博士生组成,拥有一支高素质、富有创新精神的研发团队。 技术优势 DeepSeek的模型基于当前最先进的Transformer架构,融合了稀疏注意力机制、混合专家模型等创新技术,能够实现高效的计算和推理。通过优化算法、硬件与软件的协同优化、模型压缩与量化技术等,实现了低算力下的高水准性能,为大模型的广泛应用提供了技术支持。 发展愿景 DeepSeek致力于推动人工智能技术的普及和应用,为人类社会带来更多便利和价值,推动人工智能技术在各行业的广泛应用。公司将继续在跨语言理解、多模态智能交互、具身智能等方面取得更多突破和创新,为人工智能技术的发展贡献更多力量。 DeepSeek热点事件回顾 全球市场表现与用户增长 上架18天登顶160多国,日活用户超1500万 对全球股市的冲击 行业竞争格局的变化 DeepSeekR1的发布导致美股市值一夜蒸发超1万亿美元,英伟达股价单日下跌16%,引发市场对AI技术变革的深度思考 DeepSeekR1凭借其免费且聪明的特性,迅速在全球范围内获得关注,短时间内用户量激增,成为全球增速最快的AI应用这一现象不仅反映了用户对AI工具的需求,也显示了DeepSeekR1在用户体验和功能上的强大竞争力 DeepSeekR1的崛起改变了AI应用市场的竞争格局,促使其他企业加快技术研发和产品优化 传统AI应用如ChatGPT等面临新的挑战,市场对AI工具的性能和用户体验要求进一步提高 这表明DeepSeekR1的出现不仅改变了用户对AI的认知,也对传统科技企业的市场地位产生了巨大冲击 DeepSeek爆火原因 01技术创新与性能优势 DeepSeek通过技术创新,实现了轻量级参数与卓越性能的平衡,在多项基准测试中,DeepSeek的性能媲美GPT- 4和Claude等领先的闭源模型,为用户提供了更强大的性能支持。DeepSeek的混合专家架构和创新的训练方法使其在处理复杂任务时表现出色,能够满足用户在不同场景下的多样化需求。 02低成本与高性价比 DeepSeek- V3的总训练成本为557.6万美元,相比GPT- 4o等模型的训练成本约为1亿美元,大幅降低了成本,API定价低至每百万Token输入1元、输出2元,引发行业价格战,推动中小企业和开发者采用AI技术,为用户提供了更经济实惠的选择。DeepSeek通过优化算法和硬件资源的合理配置,实现了高效的模型训练和推理,降低了用户的使用成本。 03开源与广泛应用 DeepSeek- R1是开源的推理模型,擅长处理复杂任务且可免费商用,为开发者提供了更多的自由和灵活性。 DeepSeek支持多种应用场景,如自然语言处理、智能客服、内容创作、多模态交互等,能够满足用户在不同领域的多样化需求。 DeepSeekR1的技术优势与特点 推理模型与指令模型的差异 DeepSeekR1属于推理模型,专注于逻辑推理和复杂任务解决,与传统的指令模型(如ChatGPT)有本质区别推理模型能够自主处理多步骤分析和复杂决策任务,适合解决更复杂的实际问题 简化提示词策略 DeepSeekR1的“聪明”特性使得用户无需复杂的提示词技巧,只需简单表述需求即可获得高质量回答这降低了AI工具的使用门槛,使更多普通用户能够轻松上手并高效利用AI辅助工作和学习 免费使用的优势 DeepSeekR1目前完全免费,与OpenAI的o1等付费推理模型相比,具有更高的性价比 这使得DeepSeekR1能够迅速吸引大量用户,推动AI技术的普及和应用 DeepSeek入门使用方法与技巧 关于“深度思考R1”: •当你需要更简单快速的回答时,不必打开“深度思考”,使用默认模型V3即可; •当你需要完成更复杂的任务,你希望AI输出的内容更结构化,更深思熟虑时,你应该打开“深度思考R1”选项,这也是今天我这篇文章主要在讨论的模型; 关于“联网搜索”: •当你的任务所涉及的知识在2023年12月之前,你无须打开“联网搜索”功能,大模型本身就有此前被充分训练过的语料知识;•当你的任务所涉及的知识在2023年12月及之后时,比如昨天NBA比赛的赛果,硅谷对DeepSeek R1的评价等,你必须打开“联网搜索”功能,否则大模型在回答时会缺乏相应的知识 内容token化与理解方式 token化训练过程 大