您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[智顶科技]:2024年全球AIGC产业全景报告 - 发现报告

2024年全球AIGC产业全景报告

信息技术2024-11-20智顶科技朝***
AI智能总结
查看更多
2024年全球AIGC产业全景报告

报告背景 2024年,生成式AI已全面进入应用规模化推广,探索新场景和商业模式的新发展阶段。伴随AI大模型的普及程度不断加深,AIGC产业发展重点从去年关注度最高的模型层向场景应用层转变。AIGC为营销、传媒、金融、医疗、教育、娱乐、办公、制造、科学发现等多个领域带来前所未有的变革。搭载大模型的AI PC、AI手机、智能汽车相继推出,为用户带来更加便捷的使用体验。此外,具身智能也成为今年关注度颇高的领域,未来AI模型与人形机器人将密切融合,产生更多应用场景与商业机会。 在此背景下,天津市人工智能学会、至顶科技、至顶智库联合发布《2024年全球AIGC产业全景报告》,报告从人类语言和机器语言的发展历程出发,全面展现全球AIGC产业的发展历程,对AIGC典型技术及产品成熟度进行研判,对AIGC产业投融资情况进行梳理,具体展现AIGC各细分场景的应用情况,最后报告提出全球AIGC产业的八大前沿趋势。为政府部门、行业从业者、教育工作者以及社会公众更好了解2024年AIGC的发展进程提供参考。 天津市人工智能学会、至顶科技、至顶智库2024年11月 报告目录 1.产业概况篇2.基础设施篇3.场景应用篇5.前沿趋势篇4.用户调研篇 开篇:伴随人类语言的发展,机器语言演进到自然语言阶段 语言发展历程分为三大阶段。语言1.0时代:从人类语言诞生到公元前16世纪殷商时期甲骨文的出现,文字成为人类交流的重要方式;语言2.0时代: 从蔡伦发明造纸术到世界第一台电子计算机诞生,语言开始通过各类机器实现传播;语言3.0时代:伴随NLP及生成式AI等技术的快速发展与应用落地,机器生成和创造语言的方式成为了可能。机器语言发展历经五大阶段,从二进制代码发展到自然语言时代,新的“机器语言”交互方式诞生。 1946年:第一台电子计算机 产业概况篇 A I G C产 业 全 景 图 谱A I G C成 熟 度 曲 线A I G C发 展 路 线 图A I G C领 域 最 新 进 展A I G C产 业 政 策 环 境A I G C产 业 投 融 资 情 况 1.12024年全球AIGC产业全景图谱 天津市人工智能学会、至顶科技、至顶智库联合发布2024年全球AIGC产业全景图谱。 图谱主要分为基础设施层(AI服务器、AI计算集群、AI芯片、MaaS平台、AI数据服务);模型层(通用大模型、行业大模型);场景应用层(智能助手、金融、医疗、办公、教育、奥运、智能汽车、营销、影视、法律、政务)。图谱中涉及各领域全球代表性企业和相关机构,为读者提供更为详实的参考信息。 相比去年,基础设施层新增MaaS平台和AI数据服务;模型层新增通用大模型和行业大模型的类别划分;场景应用层按细分场景进行划分。 © 2024.11 ZD Insights 1.2至顶AIGC成熟度曲线(2024) © 2024.11 ZD Insights 1.3规模定律(ScalingLaw)将持续推动AIGC产业发展 规模定律是指随着训练数据、模型大小和计算资源的增加,大语言模型的性能会有所提升的规律,2020年由OpenAI提出;2022年,GoogleDeepMind研究固定成本下最优的模型参数量和训练数据量,得出训练数据量应当和参数量同等提升,并训练出Chinchilla模型。伴随OpenAIo1模型的发布,ScalingLaw从模型训练扩展演进到推理扩展阶段。 © 2024.11 ZD Insights 10资料来源:至顶智库结合公开资料整理绘制。 © 2024.11 ZD Insights 1.62024年全球领军科技企业在AIGC领域的最新进展 2024年9月 2024年10月 2024年6月多模态模型Claude 3.5 Sonnet 2024年4月 2024年5月 2024年8月 Gemma 2轻量级 推理模型OpenAI o1OpenAIo1在处理物理学、化学和 小尺寸模型Phi-3 mini 视频生成模型Veo Ministral3B/8B 生物学领域的复杂问题时展现出了接近博士的专业能力。在国际奥林匹克数学竞赛中,展现出83%的准确率水平。其编程能力还在Codeforces竞赛中表现超过89%的人类选手。 可用于手机上运行的小尺寸模型,其中Phi-3mini拥有38亿参数,经过3.3万亿token训练。Phi-3-mini有两种上下文长度变体:4K和128Ktoken。 包括Ministral 3B和Ministral 8B两种轻量级模型,均支持128k上下文且性能媲美Gemma2、Llama3.1开源模型。Ministral 8B具有特殊的交错滑动窗口注意力机制(SWA),可实现更快和内存高效的推理。 Claude3.5Sonnet的运行速度是Claude3Opus的两倍,且推理、阅读理解、数学、科学和编码能力更强,也是Anthropic迄今最强的视觉模 型 ;Claude.ai新 增 了Artifacts功能。Artifacts是 一 项 扩 展 用 户 与Claude交互方式的新功能。用户可以实时查看、编辑和构建Claude的创作,并将生成的内容无缝集成到项目和工作流程中。 Veo可生成时间超过一分钟的1080p分辨率视频。包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere,提高质量和输出分辨率。 轻量级Gemma22B拥有20亿参数,具有内置的安全改进以及性能和效率的强大平衡。可在各种硬件上高效运行,从边缘设备和笔记本电 脑 到 使 用Vertex AI和GoogleKubernetesEngine(GKE)的强大云部署。可根据商业友好的Gemma条款进行研究和商业应用。 2024年5月 多模态模型GPT-4o 2024年7月Mistral Large 2 GPT-4o采用更自然的人机交互,接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 2024年6月视觉语言模型PaliGemma及开源模型Gemma 2 2024年9月 1230亿参数的大小使其能够在单个节点上以大吞吐量运行。MistralLarge2拥有128k上下文窗口,支持英语、法语、中文等数十种语言及80多种编程语言,在代码和推理、指令遵循、多轮对话等方面表现突出。MistralLarge2允许用于研究和非商业用途的使用和修改。 开源模型Llama 3.2 2024年5月 包括视觉模型(11B和90B)和文本模型(1B和3B),提供预训练与对齐版本,可通过torchtune进行微调,也可使用torchchat在本地部署,还可通过MetaAI进行使用。 2024年3月 图像生成模型Imagen 3 PaliGemma是开放式视觉语言模型,可在广泛的视觉语言任务中实现卓越的微调性能,包括为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割;Gemma2开源9B和27B版本,其中Gemma227B性能与Llama370B相媲美,大小不到Llama370B的一半。 多模态模型Claude 3 、2024年2月 Imagen3是Google最高质量的文本到图像模型,可生成高细节水平、逼真的图像,与之前的模型相比,分散注意力的视觉干扰更少。 Claude3 Opus是最智能的模型,在高度复杂的任务上具有市场最佳的性能;Claude 3 Sonnet在智能和速度之间实现理想的平衡;Claude 3Haiku是最快、最紧凑的模型。 视频生成模型Sora视频生成模型Sora能够生成时长一 分钟的高保真视频。OpenAI在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本调节扩散模型,能在时间上向前或向后扩展视频;可修改输入视频的风格和环境;可连接两个输入视频,在不同主题和场景构成的视频之间无缝过渡。 2024年7月 2024年2月开源模型Gemma 开源模型Llama 3.1 2024年4月Mixtral 8x22B Llama3.1 405B使用15万亿token在超过16000个H100 GPU上训练,上下文长度扩展到128K。 Gemma更加轻量,拥有2B和7B版本,模型权重也一并开源,且允许商用。采用与Gemini模型相同技术构建。 2024年5月多模态Gemini 1.5 Flash Mixtral8x22B是一个稀疏专家混合(SMoE)模型,仅使用1410亿激活参数中的390亿,具有高成本效率。Mixtral8x22B精通英语、法语、意大利语、德语和西班牙语,具有很强的数学和编码能力,64K token上下文窗口允许从大型文档中精确调用信息。 1.5Flash是通过API提供的速度最快的Gemini模型,比1.5Pro更轻量级但具有强大的多模态推理能力,在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。 2024年2月 2024年4月开源模型Llama 3 Gemini1.5采用新的专家混合(MoE)架Gemini 1.5 构,使训练和服务更加高效。其中Gemini1.5 Pro是中型多模态模型,配备了标准的128ktoken上下文窗口。 具有80亿和700亿参数,预训练数据集达到15万亿token进行训练,训练数据来源于30余种语言。 1.62024年中国领军科技企业在AIGC领域的最新进展 2024年7月 2024年7月日日新SenseNova 5.5 2024年10月基座大模型GLM-4-Plus 2024年9月腾讯混元Turbo 2024年10月讯飞星火4.0 Turbo 2024年9月 飞桨框架3.0 相比于前一代混元Turbo模型,新 开源模型Qwen2.5 一代的训练效率提升108%,推理效率提升100%,推理成本则降低为前一代的一半。在多个基准的测试上已能够对标GPT-4o。 日日新5.5具有6000亿参数,综合性能较「日日新5.0」提升30%。交互效果和多项核心指标实现对标GPT-4o;「日日新5o」,流式多模态交互,带来全新AI交互模式;端侧模型升级,发布日日新5.5Lite。 飞桨框架3.0是面向大模型、异构多芯进行专属设计,向下适配异构多芯,充分释放硬件潜能;向上一体化支撑大模型的训练、推理。同时具有动静统一自动并行、编译器自动优化、大模型训推一体、大模型多硬件适配四大能力,全面地提升了服务产业的能力。 GLM-4-Plus在各大语言文本能力数据集上获得与GPT-4o及405BLlama3.1相当的水平,在语言 理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。 文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力均超过GPT-4Turbo,数学和代码能力超越GPT-4o,效率相对提升50%,国内外中英文14项主流测试集中实现9项第一。 通义大模型家族已全面涵盖语言、图 像、视 频、音 频 等 全 模 态。Qwen2.5全系列模型都在18Ttoken数据上进行预训练,Qwen2.5-72B模型在MMLU-rudex基准、MBPP基准 和MATH基准的得分高达86.8、88.2、83.1。通义万相发布视频生成模型 2024年5月 2024年7月视频生成模型CogVideoX AI助手元宝 智谱发布AI视频模型「清影」, 文生视频中,支持多语言输入和多种比例生成,并可以通过灵感扩写功能丰富视频内容表现力;图生视频中,支持将上传图片按照比例转化为动态视频,并能通过提示词控制视频运动。 2024年6月讯飞星火大模型V4.0 30秒将任意文图生成视频,并开源与「清影」同源的视频生成模型CogVideoX。 基于腾讯混元大模型,具备看、听、说等多模态能力,在知识学习、生活百科、职场办公、趣味创作等多个领域