您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[光大证券]:互联网传媒:AIGC行业跟踪报告(四)-中文数字内容成为重要稀缺资源,可用作AI大模型语料库 - 发现报告
当前位置:首页/行业研究/报告详情/

互联网传媒:AIGC行业跟踪报告(四)-中文数字内容成为重要稀缺资源,可用作AI大模型语料库

文化传媒2023-03-29付天姿光大证券罗***
互联网传媒:AIGC行业跟踪报告(四)-中文数字内容成为重要稀缺资源,可用作AI大模型语料库

敬请参阅最后一页特别声明 -1- 证券研究报告 2023年3月29日 行业研究 中文数字内容成为重要稀缺资源,可用作AI大模型语料库 ——AIGC行业跟踪报告(四) 互联网传媒 事件:3月28日,中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。 点评:中文数字内容将成为重要稀缺资源,用于国内AI大模型预训练语料库。1)近期国内外巨头纷纷披露AI大模型;在AI领域3大核心是数据、算力、算法,我们认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,“ChatGPT能够提炼的语料是开放的、共享的和免费的”,而“中国版ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚洲报道,从4月1日起,部分外国用户对中国大陆知识基础设施工程的访问将被限制,其中包括知网。 网文平台深耕文化数字产业,海量正版中文数字内容构筑核心竞争壁垒。1)海量数据:网文平台拥有的中文文字字数超10000亿字,内容品类包含小说类、科普类、社会类、经管类、法律类、教育教材类等等。2)高质量数据:网文平台拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI模型产出内容稳定;3)正版版权:网文平台高度重视知识产权保护工作,可为AI模型公司提供拥有版权的数据集用于训练;4)完整的各类型商业生态链:平台拥有的网络原创驻站作者可实时反馈最新数据,提供最贴近市场和用户的最新数据,让AI模型持续更新学习。 网文公司拥有广泛应用场景,AIGC加速形成从内容到商业化落地的闭环。网络文学为最大的内容源头,当前大量优质网文IP尚未被挖掘和开发变现,而AIGC加快发展产能,推动海量IP跨模态变现。AI技术成果可应用在文字辅助创作、实时对话互动、动漫画及影视创作等场景,服务广大内容创作者,打通IP衍生全产业链商业变现。 投资建议:维持互联网传媒行业“买入”评级,拥有中文语料、专业数据资源及数据处理的公司或将持续受益于AI大模型发展:推荐中文在线、阅文集团,关注拓尔思、海天瑞声、同方股份、浙数文化、浙文互联、中国科传、掌阅科技。 关注AIGC产业链:1)互联网大厂AI技术积累深厚,助力强化自身优势&销售产品至B端,推荐腾讯控股、百度集团-SW,关注阿里巴巴;2)AI算法龙头公司业务落地有望加速成长,关注商汤-W、云从科技、格灵深瞳;3)AI在多模态内容应用的推进,内容生成提升电影制作生产力,推荐光线传媒,关注上海电影、万兴科技、美图公司;4)AI营销数字人提升智能程度:推荐芒果超媒,关注蓝色光标、风语筑、飞天云动、三人行;5)AIGC应用在游戏领域推广进度有超预期可能,推荐腾讯控股、网易-S、三七互娱,关注中手游。 风险提示:AI技术研发和产品迭代不及预期风险;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 买入(维持) 作者 分析师:付天姿 执业证书编号:S0930517040002 021-52523692 futz@ebscn.com 联系人:杨朋沛 021-52523878 yangpengpei@ebscn.com 联系人:赵越 zhaoyue1@ebscn.com 行业与沪深300指数对比图 资料来源:Wind 相关研报 AIGC游戏应用前景广阔,有望助力形态升级和产业变革——AIGC行业跟踪报告(三)(2023-3-20) 百度文心一言发布:能力尚不完善,战略意义仍具——AIGC行业跟踪报告(二)(2023-3-16) 海内外AIGC热度持续,关注主题扩散至游戏、互联网板块——AIGC行业跟踪报告(一)(2023-2-22) AIGC产业再掀热潮,坚实技术底座+SenseMARS内容生成平台助力商业化突破——商汤-W(0020.HK)内容生成(AIGC)业务发展跟踪点评(2023-2-1) -25%-20%-15%-10%-5%0%5%10%15%22/0322/0422/0522/0622/0722/0822/0922/1022/1122/1223/0123/02传媒(申万) 沪深300 要点 敬请参阅最后一页特别声明 -2- 证券研究报告 互联网传媒 表1:AIGC发展受益标的梳理 投资主线 受益标的 互联网大厂: AI技术积累深厚,强化自身优势&MaaS商业模式推进 腾讯控股、百度集团-SW、阿里巴巴 AI算法: AI算法龙头公司业务落地有望加速成长 商汤-W、云从科技、格灵深瞳 数据要素&数据标注: AIGC发展路径中数据要素具备稀缺性,符合数字中国主线 中文在线、阅文集团、中国科传、同方股份、浙数文化、浙文互联、拓尔思、海天瑞声 中文数字内容: AI文本内容创作辅助,提升创作效率和内容可读性 中文在线、阅文集团、掌阅科技 图片: AIGC大模型有望在图片等多模态进一步突破 万兴科技、美图公司、视觉中国 游戏: AIGC应用在游戏领域推广进度有超预期可能 腾讯控股、网易-S、三七互娱、中手游、巨人网络、昆仑万维、恺英网络、完美世界、吉比特 电影: AI内容生成提升动画&真人电影制作生产力 光线传媒、中国电影、上海电影、芒果超媒、万达电影 虚拟人: AI驱动下,虚拟营销数字人大幅提升智能程度 芒果超媒、捷成股份、蓝色光标、风语筑、三人行、飞天云动、天娱数科 资料来源:光大证券研究所整理 表2:国内互联网大厂AI基础技术布局 算力 算法 研究院 AI芯片 AI算力集群 学习框架 大模型名称 大模型涉及领域 NLP CV 多模态 行业化 腾讯 紫霄(推理)、 沧海(视频转码)、 玄灵(智能网卡) 长三角AI超算中心 TNN、 Angle HunYuan √ √ √ √ AI Lab、 IEG Cros 阿里巴巴 含光(推理)、 玄铁(处理器IP)、 羽阵(RFID芯片)、 倚天(ARM服务器芯片) 华东+张北+乌兰察布智能算力中心 MNN 通义 √ √ M6 (10万亿) 达摩院 华为 昇腾(推理&训练) 鹏城云脑等20+城市建设AI计算中心 昇思 MindSpore 盘古 √(千亿) √ (10亿) √ (千亿) 诺亚方舟 百度 昆仑(推理&训练)、 鸿鹄(智能语音) 保定+西安等计算中心 飞桨 文心 √(千亿) √ √ √ 百度研究院 字节跳动 BytePS、 veGiant Model (在研) AI Lab 网易 伏羲 玉言(百亿) 互娱AI Lab、 伏羲AI 京东 图Galileo K-PLUG (1亿) AI研究院 资料来源:百度、华为等公司官网,新浪网,中国信通院,墨天轮,机器之心,澎湃,网易科技,中国经营报,redian,鞭牛士,光大证券研究所整理 敬请参阅最后一页特别声明 -3- 证券研究报告 互联网传媒 表3:国内互联网大厂AIGC技术研发对比 AIGC研发进展 AIGC基础技术 技术对比 文本 绘画/图片 作曲/语音 视频生成 数字人 AI编程 腾讯 进一步优化“混元”AI大模型 √ √ 背靠社交数据,帮助自有业务降本增效,具备AIGC应用场景 阿里巴巴 自20年投入AIGC,在研对话机器人,上线文本生成视频大模型 √ √ √ 海量电商数据+算力资源,具备AIGC应用落地场景 华为 21年鹏城盘古是首个千亿级中文生成和理解NLP大模型,盘古系列AI大模型即将正式上线 硬件和基础技术积累深厚,应用技术涉猎较少 百度 3M23推出文心一言(ERNIE Bot) √ √ √ √ √ All in AI战略,基础软件强大,较早完成算法(框架&大模型)+数据(搜索数据)+算力(芯片)三大布局 字节跳动 在研语言与图像大模型 √ √ √ √ 搜索数据资源+推荐算法技术,基础技术薄弱,重视应用商业化落地 网易 有道在研教育demo √ √ √ AI积累薄弱,具备AIGC落地场景 京东 待推出产业版ChatJD √ √ AI积累薄弱,具备AIGC落地场景 资料来源:百度官网,界面新闻,机器之心,金融界等,光大证券研究所整理 表4:国内互联网大厂AI商业化进展 传统AI AIGC 开发平台 解决方案平台 优势赛道 具体产品 在研产品 业务整合/生态伙伴 主攻领域 腾讯 腾讯AI开放平台 智能医疗 五音核(作曲)、 QQ AI绘画(绘画) 追一科技 内容、社交、游戏、平台 阿里巴巴 阿里云AI 阿里灵杰 智慧城市 Lubanner(图片)、虚拟主播、 听悟会议助理 聊天机器人 钉钉、天猫精灵 电商、物流、零售 华为 ModelArts 华为AI 物联网、政企数字化 B/G端项目为主,暂无AIGC举措 百度 百度大脑 Apollo自动驾驶 文心一格(绘画)、 文心一言(文本)、 小侃星球(社交)、文心百中(搜索) (自有)搜索、智能云、Apollo、小度 (输出)400+企业接入文心一言 首先整合搜索,后向其他自有业务扩散,并赋能生态伙伴 字节跳动 AI开放平台、火山引擎 火山引擎 推荐、智能营销 剪映(视频)、 海绵乐队(作曲) 文本分析、Pico 多媒体、营销 网易 网易数帆 有道智云 有道智云 多媒体音视频 网易天音(作曲) 有道demo 游戏、有道教育 游戏、教育、办公 京东 NeuHub 京东智造云 智能供应链 - ChatJD 京东云言犀、供应链管理 零售、金融 资料来源:腾讯、阿里、华为、百度、字节跳动、网易、京东等官网,腾讯网,界面新闻,金融界,澎湃,雷峰网,中关村在线,新华社,时代财经,证券时报,光大证券研究所 敬请参阅最后一页特别声明 -4- 证券研究报告 互联网传媒 行业及公司评级体系 评级 说明 行 业 及 公 司 评 级 买入 未来6-12个月的投资收益率领先市场基准指数15%以上 增持 未来6-12个月的投资收益率领先市场基准指数5%至15%; 中性 未来6-12个月的投资收益率与市场基准指数的变动幅度相差-5%至5%; 减持 未来6-12个月的投资收益率落后市场基准指数5%至15%; 卖出 未来6-12个月的投资收益率落后市场基准指数15%以上; 无评级 因无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使无法给出明确的投资评级。 基准指数说明: A股主板基准为沪深300指数;中小盘基准为中小板指;创业板基准为创业板指;新三板基准为新三板指数;港股基准指数为恒生指数。 分析、估值方法的局限性说明 本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。本报告采用的各种估值方法及模型均有其局限性,估值结果不保证所涉及证券能够在该价格交易。 分