您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:CTO100内容精选--互联网研习团东北站 - 发现报告

CTO100内容精选--互联网研习团东北站

2024-02-02 腾讯 Yàng
报告封面

基于公开资料和一手调研整理,仅供客户参考,不构成业务和经营建议 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 发展特点和趋势 应用层企业缺乏技术护城河,差异化竞争至关重要 [...]2 技术驱动组织变革和个人自雇等兴起,To B和To C软件边界模糊 创意浓度、发散性、容错率高的领域存在更多机会 算法备案义务成为AIGC产品合规上市的必由之路 行业监管 《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》 《生成式人工智能服务管理暂行办法》 《互联网信息服务深度合成管理规定》 ▪适用范围:向中国境内公众提供服务,相关部门就有权力监管其境内提供行为;以内部研发、内部自用为前提,并未向公众开放的,暂不受《管理办法》监管 ▪深度合成技术:利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术 ▪对于具有舆论属性或社会动员能力的算法推荐服务、深度合成服务、AIGC服务按照《安全评估规定》通过全国互联网安全管理服务平台完成安全评估▪对于AIGC平台服务还需进行新技术新应用安全评估(“双新评估”),具体流程及要求仍有待进一步公开▪23年10月发布的《生成式人工智能服务安全基本要求(征求意见稿)》为首个专门面向AIGC安全领域的规范意见稿o明确要求AIGC服务提供者在进行算法备案申请前,先进行安全性评估o其 中 有 关 安 全 评 估 的 要 求 将 弥 补“双新评估”具体流程和要求方面的立法空白 ▪监管动作: ▪备案情况: o应用商店加强监管,未完成算法备案和《安全评估报告》,则无法上架或做下架处理oChatGPT在中国并没有获得运营所必需的许可,在未经评估的情况下调用境外ChatGPT而导致关停,需做出调整后再重新备案 o23年6月首批41个、9月第二批110个、24年1月第三批129个算法完成备案o无论是APP、网站、小程序还是B端服务,均涉及算法备案事项o算法备案并非以公司主体或者APP、网站等应用产品数量作为应备案个数,而是以实际的算法个数作为判断标准 ▪备案情况:23年8月,腾讯、智谱AI、百川智能等多家企业成为首批通过《暂行办法》备案的企业,可正式上线面向公众提供服务;11月第二批企业获批备案 AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 文本生成-对话机器人 用户创建「角色」,塑造他们的「个性」,模拟角色进行聊天 ▪Character.ai、Chai▪MiniMax-Glow、小冰-小冰岛 ▪Inflection AI-Pi、Forever Voice、Replica▪Soul-AI苟蛋、小冰-X Eva克隆人、星野(Talkie) 文本生成-对话机器人 ▪New Bing、You、Perplexity、Phind▪百度、搜狗、昆仑万维-天工AI ▪Woebot、Wysa▪聆心智能、西湖心辰、Glowe阁楼、测测 文本生成-知识库构建 知识库构建 ▪Rewind、Mem 文本生成-营销和写作 ▪文学领域如NovelAI、彩云小梦▪法律领域如Harvey、秘塔科技-MetaGO、得理科技-得理法问 文本生成-办公效率&研发效能 在自动生成文档、总结会议要点、日历优化等方面提效 代码生成: ▪微软、Tome、Smartwriter、Cogram、ReclaimAI▪金山办公、万兴科技、爱设计、ChatPPT ▪GitHub Copilot X、Mintlify、Seek、Replit▪智谱AI-CodeGeeX、硅心科技-aiXcoder AI应用生成、建站工具:▪Dora.run、Debuild▪网易-网易外贸通、炎黄盈动 图像生成-功能性图像生成 建筑/家装设计 通过处理数字建模数据和其他输入信息,自动创建各类施工设计文件 AI模特 创意营销 ▪Lalaland.ai▪美图秀秀、蘑菇街-Weshop、感知阶跃ZMO.AI ▪Collov、Interior AI、GetFloorPlan▪酷家乐、尚品宅配、小库科技、神采AI ▪Canva、Typeface▪创客贴、稿定设计、感知阶跃ZMO.AI 视频生成-数字人&定制化视频 包含播报型数字人(可应用于营销、电商等领域)和交互型数字人(如虚拟主播、导购、客服、导览员) ▪Synthesia、D-ID▪一帧秒创、硅基智能、慧夜科技 ▪Tavus▪商汤如影、腾讯智影 3D生成-三维纹理&虚拟形象 虚拟形象 ▪DeepMotion、PlaskMotion▪云舶科技、CYANPUPPETS ▪BariumAI、Poly、Ponzu AIGC发展趋势01 应用层潜力赛道分析02 社交类应用AIGC玩法创新03 文本社交 ▪Inflection AI-Pi、Blush▪SOUL-AI苟蛋、星野(Talkie) ▪Character.ai▪MiniMax-Glow 图片社交&音频社交&视频社交 用户输入文本合成为特定主题的表情包GIF,并一键分享至TikTok、WhatsApp等常用社交软件中 匿名社交:▪frfr语音社交:▪AirChat、Vocie.ai ▪Call Annie ▪Memix-Chat with Meme 虚拟形象/Avatar社交 虚拟社交整合实时互动、动态表情捕捉、虚拟形象、自定义虚拟场景等能力,提升虚拟场景社交体验 ▪Scapin▪Hotshot-Pics with Friends AI智能体 ▪Snack▪Forever Voices▪小冰-X Eva ▪Chirper.ai▪RinnaInc.-Chararu THANKS 谢 谢 观 看 从通用大模型到行业大模型的技术原理 大语言模型的结构演变大语言模型的分布式训练大语言模型的参数微调010203参考文献04 01大语言模型的结构演变 1.0 transformer模型 Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. 1.1模型结构 1.Encoder-Decoder:输入双向注意力,输出单向注意力。T5、Flan-T5、BART•在输入上采用了双向注意力,对问题的编码理解更充分,在偏理解的NLP任务上效果更好。 •缺点是在长文本生成任务上效果较差,训练效率低。2.Causal Decoder:从左到右的单向注意力。 GPT系列、LLaMA、BLOOM、OPT•自回归语言模型,预训练和下游应用是完全一致的,文本生成任务效果好。 •训练效率高。zero-shot能力更强,涌现能力。3.Prefix Decoder:输入双向注意力,输出单向注意力。 GLM、ChatGLM、U-PaLM•Encoder-Decoder与Causal Decoder的折中。训练效率低。 Zhao W X, Zhou K, Li J, et al. A survey of large language models[J]. 1.2训练目标 1.语言模型根据已有的词去预测下一个词。训练目标是最大化似然函数: 训练效率:Causal Decoder > Prefix Decoder。Causal decoder结构会在所有token上计算损失,而Prefix decoder只会在输出上计算损失。 2.去噪自编码器随机替换掉一些文本段,训练语言模型去恢复被打乱的文本段。目标函数为: 去噪自编码器的实现难度更高。采用去噪自编码器作为训练目标的任务有GLM-130B、T5。 1.3 tokenizer 1. Byte-Pair Encoding (BPE)构建词表的步骤: (1)准备足够的训练语料;以及期望的词表大小。(2)将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”,统计单词频率。(3)合并方式:统计每一个连续/相邻字节对的出现频率,将最高频的连续字节对合并为新的子词。(4)重复第3步,直到词表达到设定的词表大小;或下一个最高频字节对出现频率为1。GPT2、BART和LLaMA就采用了BPE。 2. WordPiece 本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并。•BPE是选择频次最大的相邻子词合并; •WordPiece算法选择能够提升语言模型概率最大的相邻子词进行合并,来加入词表。BERT采用了WordPiece。 3. SentencePiece 把空格也当作一种特殊字符来处理,再用BPE或者来构造词汇表。ChatGLM、BLOOM、PaLM采用了SentencePiece。 1.3 tokenizer 男儿何不带吴钩,收取关山五十州。 1.3 tokenizer 1.LLaMA的词表是最小的,LLaMA在中英文上的平均token数都是最多的,这意味着LLaMA对中英文分词都会比较碎,比较细粒度。尤其在中文上平均token数高达1.45,这意味着LLaMA大概率会将中文字符切分为2个以上的token。2.Chinese LLaMA扩展词表后,中文平均token数显著降低,会将一个汉字或两个汉字切分为一个token, 提高了中文编码效率。3.ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大,中文处理时间也有增加。 4.BLOOM虽然是词表最大的,但由于是多语种的,在中英文上分词效率与ChatGLM-6B基本相当。 1.4位置编码 1.训练式位置编码 •将位置编码当作可训练参数,训练一个位置编码向量矩阵。•GPT3就采用了这种方式。•缺点是没有外推性。 2.旋转位置编码RoPE•作用在每个transformer层的self-attention块,在计算完Q/K之后,旋转位置编码作用在Q/K上, 再计算attention score。•旋转位置编码通过绝对编码的方式实现了相对位置编码,有良好的外推性。•LLaMA、GLM-130B、PaLM、Baichuan2等大语言模型就采用了旋转位置编码RoPE。 3. ALiBi(Attention with Linear Biases) •在计算完attention score后,直接为attention score矩阵加上一个预设好的偏置矩阵。•ALiBi位置编码有良好的外推性。•BLOOM、Baichuan1就采用了这种位置编码。 Su J, Lu Y, Pan S, et al. Roformer: Enhanced transformer with rotary position embedding[J]. 1.4位置编码 ALiBi的偏置矩阵根据q和k的相对距离来惩罚attention score,相对距离越大,惩罚项越大。相当于两个token的距离越远,相互贡献就越小。 Press O. Train short, test long: Attention with linear biases enables input length extrapolation[J]. 1.5 Layer Normalization-位置 1.Post LN:layer norm在残差链接之后•使用post-LN的深层transformer容易出现训练 不稳定的问题。 2.Pre-LN:layer norm在残差链接中•相比于Post-LN,使用Pre-LN的深层 transformer训练更稳定,可以缓解训练不稳定问题。•相比于Post-LN,Pre-LN的模型效果略差。 3.Sandwich-LN:在pre-LN的基础上,额外插入了一个layer norm•Cogview用来避免值爆炸的问题。