您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业专题报告:大模型“幻觉”症结有望逐步化解,多模态加速商业化 - 发现报告

计算机行业专题报告:大模型“幻觉”症结有望逐步化解,多模态加速商业化

信息技术2023-10-15杨烨财通证券落***
计算机行业专题报告:大模型“幻觉”症结有望逐步化解,多模态加速商业化

大模型“长文本限制”症结有望逐步化解,B端专业性有望提升。大模型的“长文本”记忆能力是当前应用推广的堵点,当模型可以处理的上下文变得更长后,大模型应用覆盖面将变宽阔,专业度也将大幅提升,真正在人们的工作、生活、学习中发挥作用。对标海外Claude,Moonshot推出Kimi Chat支持20万字中文上下文,2.5倍于Anthropic公司的Claude-100k,8倍于OpenAI的GPT-4-32k,汉语场景商业化落地有望加速;贾佳亚团队联合MIT发布开源新模型LongLoRA,可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens,并将长文本问答语料数据集LongAlpaca-12k开源,推进开源社区长文本大模型技术发展。 创意设计与营销推广或为多模态大模型落地的初期沃土。短视频平台搭载数字人IP讲解,成为“短视频时代”的文案营销场景,HeyGen助力个人创意工作者快速搭建营销平台,节省了大量时间和资源,为个人IP崛起提供了技术基础;Adobe Firefly 2大幅改进了图像输出的质量,特别是优化了树叶、皮肤纹理和面部特征的细节,Adobe多模态模型升级了图像生成过程控制能力,提升了模型输出的准确性,商用价值进一步提升;美图发布AI视觉大模型,全面应用于旗下影像与设计产品,包括AI动漫、AI商品图、AI海报等,赋能电商、广告、游戏、动漫、影视五大行业,软件产品从消费娱乐属性演变为生产力工具属性,目前处于应用探索期,未来产品效果有望不断提升。 投资建议:见正文。 风险提示:AI技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险 1大模型“长文本限制”症结有望逐步化解,B端专业性有望提升 1.1Contextlength(文本长度)限制是当前大模型商业化落地的堵点 大模型的“长文本”记忆能力是当前应用推广的堵点。大模型参数量决定了支持计算的复杂度,而文本输入长度则决定了大模型的“记忆力”,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等。当前长文本能力最强的模型包括Claude-2与Yarn-Llama-2等,大约能处理100ktokens的文本长度,仍然很难支持工程化、规模化的应用,突破“长文本限制”成为实现大模型商业化关键要素。 图1.发布大模型支持的上下文长度(2018-2023,单位:tokens) 大模型的能力上限(即无损压缩比)是由单步能力和执行的步骤数共同决定的。 单步能力与参数量正相关,而执行步骤数取决于上下文长度。当模型可以处理的上下文变得更长后,大模型应用覆盖将变宽阔,专业度也将大幅提升,真正在人们的工作、生活、学习中发挥作用。而且基于输入资料的全文进行问答和信息处理,相当于外挂了特定领域的资料库,大模型生成的“幻觉”问题也可以得到很大程度的解决,在专业度与严谨性较高的行业也可推广应用。同时我们也需要注意到,模型所宣传的更长的Contextlength不一定等价于具有更强的模型能力,还需要考虑模型对上下文内容的使用,以及对关键信息精准定位的能力。 1.2M oonshot开发对话机器人KimiChat可实现中文长文本输入,加速攻克“幻觉”问题 对标海外Claude,Moonshot推出KimiChat支持20万字中文上下文,汉语场景商业化落地有望加速。Moonshot AI创立于2023年3月,创始团队核心成员参与了Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。Moonshot通过极致的算法和工程优化,完成了大内存模型的产品化,带来了首个支持20万字输入的千亿参数LLM产品Kimi Chat。相比当前市面上以英文为基础训练的大模型,Kimi Chat具备较强的多语言能力,尤其在中文上具备显著优势,能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(根据Moonshot团队实测约8万字),8倍于OpenAI的GPT-4-32k(根据Moonshot团队实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。随着大模型长文本技术成熟,未来模型本身的“记忆力”将大幅提升,进而可实现较复杂的工程化应用,在C端的个人助理与Agent代理,以及B端的金融、法律、医疗等领域,发挥其专业化能力,应用前景极为宽广。 图2.Moonshot的对话机器人Kimi可对长文本进行处理 1.3LongLoRA推进开源社区长文本大模型技术发展 贾佳亚团队联合MIT发布新模型LongLoRA受到业界广泛关注,推进开源社区长文本大模型技术发展。LongLoRA技术将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移,该方法既可以大幅度节约计算量,又可以维持全局信息不被丢失。 LongLoRA算法较为简洁,API的调用接口代码Demo只有两行,加上一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens;同时,研究团队收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答,以及挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力,该数据集LongAlpaca-12k已经开源,加速大模型突破长文本局限。 图3.LongLoRA将长文本分组,利用短时转移注意力替代原有长时自注意力 图4.LongLoRA可针对长篇幅论文总结分析 2创意设计与营销推广或为多模态大模型落地的初期沃土 2.1HeyGen数字人助力创意工作者快速构建自身IP 短视频平台搭载数字人IP讲解,成为“短视频时代”的文案营销场景,HeyGen助力个人创意工作者快速搭建营销平台。营销流量正在从网页文案转移短视频平台,在低成本AI工具加持下,通过数字人制作视频,用户不再受制于传统真人、影棚、重资产设备拍摄方式,从而节省了大量时间和资源,为个人IP崛起提供了技术基础。HeyGen致力于建生成式人工智能视频引擎,取代摄像头作为新的内容基础设施,主要功能包括生成数字人并以此为基础生成用于营销展示的口播视频,可通过上传2分钟以上自拍视频或上传图像的方式生成数字人,视频构建的数字人更加立体真实。只需要输入文案即可创建视频,并有大量语音模板可供挑选。 HeyGen的付费模式为免费使用、创意者(24美元/月,年度价格)、商用版(72美元/月,年度价格)、企业版(协商)。根据similarweb统计数据,2023年4月至9月,HeyGen的月度访问量已从230万人次提升至732万人次,使用热度逐步上升,正在成为新款爆品。 图5.HeyGen可上传视频或图片生成数字人 图6.HeyGen平台访问量(2023.04-2023.09) 2.2Adobe推出Firefly2大模型版本,图像生成质量大幅提升 AdobeFirefly 2大幅改进了图像输出的质量,特别是优化了树叶、皮肤纹理和面部特征的细节。2023年10月10日,Adobe推出了三个新的生成式人工智能模型,分别为“第二代萤火虫图片模型”(Firefly Image 2 Model)、“萤火虫矢量模型”(Firefly Vector Model)和“萤火虫设计模型”(Firefly Design Model)。对于人像图片,Firefly Image 2通过改善皮肤、头发、眼睛、手和身体结构来增强人体渲染质量,提供更好的色彩和更加准确的动态效果。付费模式没有改变,仍为单月订阅4.99美元,或全年订阅49.99美元。Adobe的多模态模型更新,升级了图像生成过程控制能力,提升了模型输出的准确性,商用价值进一步提升: 生成匹配:根据用户上传图片或者自带的参考图像库,可生成风格和内容都有高度相似性的图片,即为Adobe版本的图生图的功能。 图像设置:Firefly还提供了对生成的图像进行二次编辑的功能,对视觉强度、颜色色调、光照、合成都可以做进一步的修改,Photoshop+AI生成为用户提供了一套从prompt到设计产品的生产体系,在创意性和定制性方面为用户提供了更多的选择和控制权。 提示词建议:如果用户的输入提示太过简短或不足以清晰描述用户的需求,系统会自动补充生成五个不同的语句,进而扩充表达情境,以丰富创意生成的解决方案。 图7.Adobe更新Firefly大模型版本 2.3美图发布AI视觉大模型,赋能电商、广告、游戏、动漫、影视五大行业 美图发布AI视觉大模型,全面应用于旗下影像与设计产品。2023年10月9日,美图历经三个月的打磨,发布了自研AI视觉大模型MiracleVision(奇想智能)3.0版本,画面细节大幅优化,生成图像更加真实细腻,其功能全面应用于美图秀秀、WinkStudio、美图设计室等产品线。美图将MiracleVision3.0的核心能力拆解为“奇思妙想”和“智能创作”两大特性: “奇思妙想”:“提示词智能联想”功能可自动补充用户输入表述,如光影效果、质感、风格、图片质量等,推动创作平权;通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“顺光”等描述控制最终生成效果。 “智能创作”:通过“深化创作”功能进一步丰富作品细节,“AI画面扩展”功能让扩大作品尺寸,“局部修改”功能可对部分画面进行精准修改与调整,“分辨率提升”功能可生成高清大图。 图8.美图于2023年持续上新AI功能 美图旗下AI绘画创作平台WHEE推出“风格模型训练”,打造个人专属风格生成器。WHEE包含文生图、图生图、风格模型、创作词库四大功能,是MiracleVision重要落地场景之一。其中“风格模型”是指用户可上传多张风格图片进行个性化训练,可通过高级设置设定训练次数与迭代周期,打造具备用户偏好的大模型。 图9.美图MiracleVision大模型应用于WHEE创作平台 MiracleVision将落地电商、广告、游戏、动漫、影视五大行业,实现产品级全流程提质增效,从消费娱乐属性演变为生产力工具属性,目前处于应用探索期,未来产品效果有望不断提升: 电商行业:从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过MiracleVision实现; 广告行业:覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。 游戏行业:可以包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。 动漫行业:打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。 影视行业:可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。 图10.MiracleVision大模型助力五大行业“工作流提效”图11.AI视觉大模型应用普及的三个阶段 3投资建议 B端:大模型“长文本”能力有望提升,逐步解决大模型存在的“幻觉”,加速在B端相对专业和严肃领域的应用推广,建议关注金山办公、福昕软件、科大讯飞、佳发教育、同花顺、恒生电子等; C端:在当前AI大模型的输出内容不能完全保证正确性与精准度的背景下,对“幻觉”问题不敏感的文生图、文生视频、数字人等AIGC领域有望率先实现商业化落地,建