您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:传媒行业:工具开源有助于推动模型迭代,多模态AI应用有望持续受益 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒行业:工具开源有助于推动模型迭代,多模态AI应用有望持续受益

信息技术2024-03-17冯翠婷信达证券「***
传媒行业:工具开源有助于推动模型迭代,多模态AI应用有望持续受益

请阅读最后一页免责声明及信息披露 http://www.cindasc.com 1 证券研究报告 行业研究 [Table_ReportType] 行业点评 [Table_StockAndRank] 传媒行业 投资评级 看好 上次评级 看好 [Table_Author] 冯翠婷 传媒互联网及海外 首席分析师 执业编号:S1500522010001 邮箱:fengcuiting@cindasc.com [Table_OtherReport] 信达证券股份有限公司 CINDA SECURITIES CO.,LTD 北京市西城区闹市口大街9号院1号楼 邮编:100031 [Table_Title] 工具开源有助于推动模型迭代,多模态AI应用有望持续受益 [Table_ReportDate] 2024年3月17日 [Table_Summary] 近期AI相关热点更新: ➢ 人工智能公司 xAI将在本周内开源人工智能助手 Grok:xAI由埃隆马斯克于2023年7月成立,该公司的目标是专注于回答更深层次的科学问题,希望未来可以利用人工智能帮助人们解决复杂的科学和数学问题,并且理解宇宙。根据xAI公布的数据,在GSM8K、HumanEval和MMLU等一系列基准测试中,Grok-1的表现超过了Llama-2-70B和GPT-3.5,但与GPT-4存在较大差距。 ➢ 谷歌发布通用AI智能体SIMA及“社会学习”AI框架:SIMA全称 Scalable Instructable Multiworld Agent,整体架构是将预训练视觉模型与自监督学习的Transformer相结合。从用户那里接收语言指令,并从环境中获取图像观察结果,然后将它们映射为键盘和鼠标动作。通过在不同的游戏世界中学习,SIMA能够将语言与游戏行为相结合。“社会学习”AI框架允许AI语言模型之间通过自然语言进行交流学习,此举不仅提升了模型的学习效率,同时也在很大程度上增强了隐私保护。 ➢ 微软亚洲研究院推出的最新成果bGPT,或标志深度学习范式转变:与传统的基于词表的语言模型不同,bGPT的独特之处在于其对原始二进制数据的直接处理能力,不受特定格式或任务的限制,其目标是全面模拟数字世界。通过字节级处理,bGPT不仅能生成文本、图像和音频,还能模拟计算机行为——从格式转换算法到CPU状态的建模。将所有数据视为字节序列的做法,使bGPT能够将不同类型的数据纳入同一框架之下。bGPT不仅能处理原生二进制数据,还能将多种数据类型融合进一个统一的模型架构中,视一切数据为字节序列。这种方法不仅简化了数据建模流程,还便利了各类数据源的整合,且无需为特定数据类型定制模型。 ➢ 零一万物API开放平台发布,多模态模型Yi-VL-Plus亮眼:零一万物推出了Yi大模型API开放平台。该平台提供了多种模型,包括Yi-34B-Chat-0205、Yi-34B-Chat-200K和Yi-VL-Plus等,这些模型在通用聊天、问答、对话、写作、翻译、多模态输入等方面具有出色的表现,并且Yi大模型API开放平台与OpenAI API兼容,平台间能实现迁移,这为开发者提供了更多的选择和便利。 投资建议: ➢ 受益于全球生成式AI持续发展,文生图/视频/音乐/代码等多方面应用的迭代更新有望长期给诸多行业带来降本增效,重点关注:1)AI+3D:大丰实业、丝路视觉、凡拓数创、恒信东方、风语筑、锋 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 2 尚文化、岭南股份; 2)AI+影视:慈文传媒、华策影视、上海电影、光线传媒、超讯通信、因赛集团、中广天择、视觉中国;3)AI+IP:华策影视、上海电影、中文在线、奥飞娱乐、果麦文化、捷成股份;4)AI+营销:分众传媒、三人行、芒果超媒、易点天下、值得买、蓝色光标、兆讯传媒、浙文互联、遥望科技等;5)AI+教育/阅读:盛通股份、世纪天鸿、掌阅科技等;6)AI+游戏:恺英网络、巨人网络、完美世界、紫天科技、昆仑万维、宝通科技、掌趣科技、神州泰岳、盛天网络、三七互娱、吉比特、名臣健康、姚记科技、顺网科技、汤姆猫、星辉娱乐等;7)AI+办公:万兴科技、福昕软件、金山办公;8)AI+出版:果麦文化、南方传媒、中南传媒、凤凰传媒、皖新传媒等;9)AI大模型:腾讯、百度、阿里巴巴、昆仑万维、科大讯飞等。 ➢ 风险因素:生成式AI公司资本开支不及预期、AI应用迭代不及预期。 表1:海外科技企业近期动态汇总 日期 公司 事件 3.11 Google 谷歌最新公布了一项名为“社会学习”的AI框架,该框架允许AI语言模型之间通过自然语言进行交流学习,此举不仅提升了模型的学习效率,同时也在很大程度上增强了隐私保护。由于在学习过程中无需直接交换敏感关键信息,该框架在保护用户隐私方面具有显著优势。例如,在垃圾短信检测任务中,教师模型首先学习用户标记的数据并获取识别垃圾信息的能力,然后指导学生模型如何区分垃圾和非垃圾信息,整个过程中不涉及个人信息的直接泄露。“社会学习”框架的推出为AI语言模型提供了一种新颖且高效的训练方式,不仅提升了模型的学习能力,还强化了隐私保护。 3.14 谷歌DeepMind号称打造出了首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体名为SIMA。SIMA全称Scalable Instructable Multiworld Agent,顾名思义可扩展、可指导、多世界。之前,谷歌DeepMind在AI+游戏方面也做过许多工作,比如推出能和人类玩家打PK、会玩《星际争霸II》的AlphaStar系统。而SIMA被DeepMind称作是一个“新的里程碑”,主打从适用单一游戏转向通用多种游戏,且可遵循语言指令。SIMA的整体架构是将预训练视觉模型与自监督学习的Transformer相结合。从用户那里接收语言指令,并从环境中获取图像观察结果,然后将它们映射为键盘和鼠标动作。通过在不同的游戏世界中学习,SIMA能够将语言与游戏行为相结合。不需要访问游戏源代码,也不需要定制API,仅需要两个输入:屏幕上的图像和用户提供的简单的自然语言指令。然后SIMA就会使用键盘和鼠标输出来控制游戏角色以执行这些指令,这一操作与人类类似,也就意味着SIMA有潜力与任何虚拟环境互动。 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 3 3.11 xAI xAI将在本周内开源人工智能助手 Grok。xAI由埃隆·马斯克于2023年7月12日宣布成立。该公司的目标是专注于回答更深层次的科学问题,希望未来可以利用人工智能帮助人们解决复杂的科学和数学问题,并且理解”宇宙。本次开源的Grok基于Grok-1,是x.AI的第一个大语言模型,开发大约花了四个月的时间(包括两个月的训练),上下文长度为8192,训练数据截至2023年第三季度。xAI表示,Grok的设计灵感来源于《银河系漫游指南》,它能够回答几乎所有问题。Grok最初的版本Grok-0拥有330亿参数,紧接着xAI推出了经过数次改进的Grok-1,为X上的Grok聊天机器人提供支持。根据xAI公布的数据,在GSM8K、HumanEval和MMLU等一系列基准测试中,Grok-1的表现超过了Llama-2-70B和GPT-3.5,但仍落后于GPT-4。 3.11 京东 京东宣布推出“AI全能服务包”,通过各类AI工具免费为商家生成图文、视频和直播内容,旨在帮助商家节省高达50%的运营成本。这一创新举措不仅标志着京东在智能化领域的重大突破,更为整个电商行业带来了新的发展动力。其中,京小智作为智能客服系统,能够实现7x24小时的自动接待,大大降低了客服成本,提升了用户满意度。而“羚珑”工具则能够在秒级内免费生成高质量的图片,为商家的商品展示提供了极大的便利。此外,“京点点”则支持秒级生成文案,无论是商品描述还是营销语句,都能轻松应对。京东还提供了免费数字人“智能代播”服务,实现了24小时不间断直播,为商家打开了全新的销售渠道。 3.12 OpenAI OpenAI超级对齐团队负责人又正式官宣,要开源内部一直使用Transformer调试器(Transformer Debugger)。简之,研究者可以用TDB工具分析Transformer的内部结构,从而对小模型的特定行为进行调查。有了这个TDB工具,未来它就可以帮我们剖析和分析AGI。Transformer调试器将稀疏自动编码器,与OpenAI开发的「自动可解释性」——即用大模型自动解释小模型,技术相结合。研究人员不用写代码,就能快速探索LLM的内部构造。 3.13 微软 微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为探索数字世界开辟了新的大门。与传统的基于词表的语言模型不同,bGPT的独特之处在于其对原始二进制数据的直接处理能力,不受特定格式或任务的限制,其目标是全面模拟数字世界。通过字节级处理,bGPT不仅能生成文本、图像和音频,还能模拟计算机行为——从格式转换算法到CPU状态的建模。将所有数据视为字节序列的做法,使bGPT能够将不同类型的数据纳入同一框架之下。bGPT不仅能处理原生二进制数据,还能将多种数据类型融合进一个统一的模型架构中,视一切数据为字节序列。这种方法不但简化了数据建模流程,还使得从任何数据源的整合变得轻而易举,且无需为特定数据类型定制模型。这一进步让bGPT有能力无缝地处理包括文本、图像、音频在内的各种数据类型,甚至能处理来自算法和硬件的原生二进制数据,为全面模拟和理解数字世界铺平了道路。 3.14 零一万物 零一万物推出了Yi大模型API开放平台。该平台提供了多种模型,包括Yi-34B-Chat-0205、Yi-34B-Chat-200K和Yi-VL-Plus等,这些模型在通用聊天、问答、对话、写作、翻译、多模态输入等方面具有出色的表现。其中,Yi-34B-Chat-200K模型拥有200K的上下文窗口,能够处理约30万个中英文字符,为长篇文本的处理提供了强大的支持。Yi-34B-Chat-0205模型也备受关注。该模型支持通用聊天、问答、对话、 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 4 写作、翻译等功能,为用户提供了丰富的交互体验。同时,Yi-VL-Plus作为多模态模型,支持文本、视觉多模态输入,为用户提供了更加便捷和多样化的交互方式。 3.14 Meta MetaGPT推出数据解释器(Data Interpreter),能够应对数据实时变化、任务之间复杂的依赖关系、流程优化需求以及执行结果反馈的逻辑一致性等挑战。Data Interpreter由MetaGPT团队联合北京工业大学、复旦大学、华东师范大学、河海大学、加拿大蒙特利尔大学、KAUST、圣母大学、厦门大学、香港中文大学(深圳)、香港大学、耶鲁大学、中国科学院深圳先进技术研究院、中国人民大学共同推出。除了数据分析,Data Interpreter还能很好地迭代式观察数据,具备构建机器学习模型、进行数学推理的能力,还能自动回复电子邮件、仿写网站。Data Interpreter提供了一种全新的解决方案,旨在通过增强智能体的任务规划,工具集成以及推理能力,直面数据科学问题的挑战。 资料来源:百朋AI学堂,奇璞AI,新智元,量子位,财联社AI daily,澎湃新闻,信达证券研发中心 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 5 请阅读最后一页免责声明及信息披露 http://www.cindasc.com 6 [Table_Introduction] 研究团队简介 冯翠婷,信达证券传媒互联网及海外首席分析师,北京大学管理