行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

CTO100内容精选--互联网研习团东北站

2024-02-02 腾讯 Yàng

AIGC发展趋势

发展特点和趋势：应用层企业缺乏技术护城河，差异化竞争至关重要。创意浓度、发散性、容错率高的领域存在更多机会。算法备案义务成为AIGC产品合规上市的必由之路。
行业监管：中国境内向公众提供服务的AIGC产品需进行算法备案和安全评估。已有多批算法完成备案，涉及APP、网站、小程序和B端服务。ChatGPT因未备案在中国被关停。

应用层潜力赛道分析

文本生成：包括对话机器人（如Character.ai、New Bing）、知识库构建（如Rewind）、营销和写作（如NovelAI、Harvey）、办公效率&研发效能（如代码生成工具）、AI应用生成和建站工具等。
图像生成：包括功能性图像生成（如建筑/家装设计、AI模特、创意营销）、虚拟形象、3D生成等。
视频生成：包括数字人&定制化视频（如播报型数字人、交互型数字人）、3D生成等。

社交类应用AIGC玩法创新

文本社交：如Inflection AI-Pi、Blush、Character.ai等。
图片社交&音频社交&视频社交：用户输入文本合成为特定主题的表情包GIF，并分享至社交软件。
匿名社交：如frfr、AirChat、Call Annie等。
虚拟形象/Avatar社交：如Scapin、Hotshot-Pics with Friends等。
AI智能体：如Snack、Forever Voices、小冰-X Eva等。

从通用大模型到行业大模型的技术原理

大语言模型的结构演变：从1.0 transformer模型发展到1.1模型结构（Encoder-Decoder、Causal Decoder、Prefix Decoder）、1.3 tokenizer（BPE、WordPiece、SentencePiece）、1.4位置编码（训练式位置编码、旋转位置编码RoPE、ALiBi）、1.5 Layer Normalization（Post-LN、Pre-LN、Sandwich-LN）、1.6激活函数（GeLU、Swish）、1.7 MHA vs MQA等。
大语言模型的分布式训练：面临显存效率和计算效率两大挑战，采用数据并行、模型并行、流水线并行、3D并行等技术，并使用混合精度训练和激活重计算等方法提升效率。
大语言模型的参数微调：包括全量参数微调、参数高效微调（prompt tuning、LoRA）等。

向量数据库&RAG

大模型时代需要什么样的数据库：DB范式升级，支持自然语言交互和多模态数据检索。
为什么大模型应用都离不开向量数据库：RAG成为大模型应用的标准开发范式，LLM+VectorDB+Prompt是关键。
企业级RAG：需要AI加持的数据处理技术才能实现通用。
腾讯云向量数据库：源自集团大规模业务多年打磨，提供高吞吐、低延迟、低成本、高可用、弹性扩展的全托管向量检索数据库服务，支持千亿级超大规模的企业级向量数据库。

弹幕互动游戏直播场景云渲染与AI最佳实践

弹幕游戏市场介绍：国内规模可观，海外增长初现，市场流水达18～20亿/月。
现有痛点&腾讯云解决方案：开播门槛高、学习成本高、观看体验待提升，腾讯云提供基于云渲染技术的移动端弹幕游戏开播方案。
未来玩法趋势洞察：重度弹幕游戏玩法趋势——更多互动；轻度弹幕游戏玩法趋势——更低门槛；AI游戏解说，提升观众观看体验。
海外弹幕游戏：机会点：中东、东南亚、拉美、日韩；挑战：平台类型、多语言、本地化、文化及用户心智。
直播互动AI创新场景介绍：云端渲染AIGC礼物，相比传统app端本地渲染，具有素材存储于云端、特效实时生成、不依赖本地设备运行、云端实时混流、复杂画面丝滑渲染等优势。

泛娱乐插件与AI能力落地实践

全球ai社交产品走向：如Ghost AI With Friends：ChatGPT加持的匿名社交App。
泛娱乐AI插件：包括AI礼物、AI变声、talking head、腾讯融合播放器等。
AI礼物：基于TME天琴实验室AIGC模型加速技术和TRTC特效播放器，提供一站式解决方案，具有极速出图、内容安全审核、模型自定义、礼物特效播放等优势。
AI变声：与Dubbing联合开发的AI声音引擎，提供语音合成、语音转换、声音复刻等服务，具有AI级变声、超高音质、超低延迟、超高性价比、灵活选择音色等优势。
talking head：基于腾讯云自研音视频能力、AI驱动和渲染引擎，搭配LLM大语言模型，提供私人定制专属数字人的技术，具有轻量级引擎、低延迟秒对话、LLM多轮记忆对话、全方位定制化等优势。
AI插件落地实践：如神笔马良、全民**AI魔镜礼物、声音盲盒-AI变声等。

基于公开资料和一手调研整理，仅供客户参考，不构成业务和经营建议 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 发展特点和趋势应用层企业缺乏技术护城河，差异化竞争至关重要 [...]2 技术驱动组织变革和个人自雇等兴起，To B和To C软件边界模糊创意浓度、发散性、容错率高的领域存在更多机会算法备案义务成为AIGC产品合规上市的必由之路行业监管《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》 ▪适用范围：向中国境内公众提供服务，相关部门就有权力监管其境内提供行为;以内部研发、内部自用为前提，并未向公众开放的，暂不受《管理办法》监管 ▪深度合成技术：利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术 ▪对于具有舆论属性或社会动员能力的算法推荐服务、深度合成服务、AIGC服务按照《安全评估规定》通过全国互联网安全管理服务平台完成安全评估▪对于AIGC平台服务还需进行新技术新应用安全评估(“双新评估”)，具体流程及要求仍有待进一步公开▪23年10月发布的《生成式人工智能服务安全基本要求（征求意见稿）》为首个专门面向AIGC安全领域的规范意见稿o明确要求AIGC服务提供者在进行算法备案申请前，先进行安全性评估o其中有关安全评估的要求将弥补“双新评估”具体流程和要求方面的立法空白 ▪监管动作： ▪备案情况： o应用商店加强监管，未完成算法备案和《安全评估报告》，则无法上架或做下架处理oChatGPT在中国并没有获得运营所必需的许可，在未经评估的情况下调用境外ChatGPT而导致关停，需做出调整后再重新备案 o23年6月首批41个、9月第二批110个、24年1月第三批129个算法完成备案o无论是APP、网站、小程序还是B端服务，均涉及算法备案事项o算法备案并非以公司主体或者APP、网站等应用产品数量作为应备案个数，而是以实际的算法个数作为判断标准 ▪备案情况：23年8月，腾讯、智谱AI、百川智能等多家企业成为首批通过《暂行办法》备案的企业，可正式上线面向公众提供服务；11月第二批企业获批备案 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 文本生成-对话机器人用户创建「角色」，塑造他们的「个性」，模拟角色进行聊天 ▪Character.ai、Chai▪MiniMax-Glow、小冰-小冰岛 ▪Inflection AI-Pi、Forever Voice、Replica▪Soul-AI苟蛋、小冰-X Eva克隆人、星野（Talkie）文本生成-对话机器人 ▪New Bing、You、Perplexity、Phind▪百度、搜狗、昆仑万维-天工AI ▪Woebot、Wysa▪聆心智能、西湖心辰、Glowe阁楼、测测文本生成-知识库构建知识库构建 ▪Rewind、Mem 文本生成-营销和写作 ▪文学领域如NovelAI、彩云小梦▪法律领域如Harvey、秘塔科技-MetaGO、得理科技-得理法问文本生成-办公效率&研发效能在自动生成文档、总结会议要点、日历优化等方面提效代码生成： ▪微软、Tome、Smartwriter、Cogram、ReclaimAI▪金山办公、万兴科技、爱设计、ChatPPT ▪GitHub Copilot X、Mintlify、Seek、Replit▪智谱AI-CodeGeeX、硅心科技-aiXcoder AI应用生成、建站工具：▪Dora.run、Debuild▪网易-网易外贸通、炎黄盈动图像生成-功能性图像生成建筑/家装设计通过处理数字建模数据和其他输入信息，自动创建各类施工设计文件 AI模特创意营销 ▪Lalaland.ai▪美图秀秀、蘑菇街-Weshop、感知阶跃ZMO.AI ▪Collov、Interior AI、GetFloorPlan▪酷家乐、尚品宅配、小库科技、神采AI ▪Canva、Typeface▪创客贴、稿定设计、感知阶跃ZMO.AI 视频生成-数字人&定制化视频包含播报型数字人（可应用于营销、电商等领域）和交互型数字人（如虚拟主播、导购、客服、导览员） ▪Synthesia、D-ID▪一帧秒创、硅基智能、慧夜科技 ▪Tavus▪商汤如影、腾讯智影 3D生成-三维纹理&虚拟形象虚拟形象 ▪DeepMotion、PlaskMotion▪云舶科技、CYANPUPPETS ▪BariumAI、Poly、Ponzu AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 文本社交 ▪Inflection AI-Pi、Blush▪SOUL-AI苟蛋、星野（Talkie） ▪Character.ai▪MiniMax-Glow 图片社交&音频社交&视频社交用户输入文本合成为特定主题的表情包GIF，并一键分享至TikTok、WhatsApp等常用社交软件中匿名社交：▪frfr语音社交：▪AirChat、Vocie.ai ▪Call Annie ▪Memix-Chat with Meme 虚拟形象/Avatar社交虚拟社交整合实时互动、动态表情捕捉、虚拟形象、自定义虚拟场景等能力，提升虚拟场景社交体验 ▪Scapin▪Hotshot-Pics with Friends AI智能体 ▪Snack▪Forever Voices▪小冰-X Eva ▪Chirper.ai▪RinnaInc.-Chararu THANKS 谢谢观看从通用大模型到行业大模型的技术原理大语言模型的结构演变大语言模型的分布式训练大语言模型的参数微调010203参考文献04 01大语言模型的结构演变 1.0 transformer模型 Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. 1.1模型结构 1.Encoder-Decoder：输入双向注意力，输出单向注意力。T5、Flan-T5、BART•在输入上采用了双向注意力，对问题的编码理解更充分，在偏理解的NLP任务上效果更好。 •缺点是在长文本生成任务上效果较差，训练效率低。2.Causal Decoder：从左到右的单向注意力。 GPT系列、LLaMA、BLOOM、OPT•自回归语言模型，预训练和下游应用是完全一致的，文本生成任务效果好。 •训练效率高。zero-shot能力更强，涌现能力。3.Prefix Decoder：输入双向注意力，输出单向注意力。 GLM、ChatGLM、U-PaLM•Encoder-Decoder与Causal Decoder的折中。训练效率低。 Zhao W X, Zhou K, Li J, et al. A survey of large language models[J]. 1.2训练目标 1.语言模型根据已有的词去预测下一个词。训练目标是最大化似然函数：训练效率：Causal Decoder > Prefix Decoder。Causal decoder结构会在所有token上计算损失，而Prefix decoder只会在输出上计算损失。 2.去噪自编码器随机替换掉一些文本段，训练语言模型去恢复被打乱的文本段。目标函数为：去噪自编码器的实现难度更高。采用去噪自编码器作为训练目标的任务有GLM-130B、T5。 1.3 tokenizer 1. Byte-Pair Encoding (BPE)构建词表的步骤： (1)准备足够的训练语料；以及期望的词表大小。(2)将单词拆分为字符粒度（字粒度），并在末尾添加后缀“”，统计单词频率。(3)合并方式：统计每一个连续/相邻字节对的出现频率，将最高频的连续字节对合并为新的子词。(4)重复第3步，直到词表达到设定的词表大小；或下一个最高频字节对出现频率为1。GPT2、BART和LLaMA就采用了BPE。 2. WordPiece 本质上还是BPE的思想。与BPE最大区别在于：如何选择两个子词进行合并。•BPE是选择频次最大的相邻子词合并； •WordPiece算法选择能够提升语言模型概率最大的相邻子词进行合并，来加入词表。BERT采用了WordPiece。 3. SentencePiece 把空格也当作一种特殊字符来处理，再用BPE或者来构造词汇表。ChatGLM、BLOOM、PaLM采用了SentencePiece。 1.3 tokenizer 男儿何不带吴钩，收取关山五十州。 1.3 tokenizer 1.LLaMA的词表是最小的，LLaMA在中英文上的平均token数都是最多的，这意味着LLaMA对中英文分词都会比较碎，比较细粒度。尤其在中文上平均token数高达1.45，这意味着LLaMA大概率会将中文字符切分为2个以上的token。2.Chinese LLaMA扩展词表后，中文平均token数显著降低，会将一个汉字或两个汉字切分为一个token，提高了中文编码效率。3.ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大，中文处理时间也有增加。 4.BLOOM虽然是词表最大的，但由于是多语种的，在中英文上分词效率与ChatGLM-6B基本相当。 1.4位置编码 1.训练式位置编码 •将位置编码当作可训练参数，训练一个位置编码向量矩阵。•GPT3就采用了这种方式。•缺点是没有外推性。 2.旋转位置编码RoPE•作用在每个transformer层的self-attention块，在计算完Q/K之后，旋转位置编码作用在Q/K上，再计算attention score。•旋转位置编码通过绝对编码的方式实现了相对位置编码，有良好的外推性。•LLaMA、GLM-130B、PaLM、Baichuan2等大语言模型就采用了旋转位置编码RoPE。 3. ALiBi（Attention with Linear Biases） •在计算完attention score后，直接为attention score矩阵加上一个预设好的偏置矩阵。•ALiBi位置编码有良好的外推性。•BLOOM、Baichuan1就采用了这种位置编码。 Su J, Lu Y, Pan S, et al. Roformer: Enhanced transformer with rotary position embedding[J]. 1.4位置编码 ALiBi的偏置矩阵根据q和k的相对距离来惩罚attention score，相对距离越大，惩罚项越大。相当于两个token的距离越远，相互贡献就越小。 Press O. Train short, test long: Attention with linear biases enables input length extrapolation[J]. 1.5 Layer Normalization-位置 1.Post LN：layer norm在残差链接之后•使用post-LN的深层transformer容易出现训练不稳定的问题。 2.Pre-LN：layer norm在残差链接中•相比于Post-LN，使用Pre-LN的深层 transformer训练更稳定，可以缓解训练不稳定问题。•相比于Post-LN，Pre-LN的模型效果略差。 3.Sandwich-LN：在pre-LN的基础上，额外插入了一个layer norm•Cogview用来避免值爆炸的问题。

点击免费查看完整报告