您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [民生证券]:Sora将创造多少算力需求? - 发现报告

Sora将创造多少算力需求?

信息技术 2024-02-25 吕伟 民生证券 SaintL
报告封面

市场回顾 本周(2.19-2.23)本周沪深300指数上涨3.71%,中小板指数上涨2.6%,创业板指数上涨1.81%,计算机(中信)板块上涨12.33%。板块个股涨幅前五名分别为:天泽信息、当虹科技、中威电子、思创医惠、信雅达;跌幅前四名分别为:柏楚电子、新大陆、道通科技、博思软件。 行业要闻 国家数据局:开展全国数据资源调查,加快数据资源开发利用 国资委:央企要加快布局和发展智能产业加快建设一批智能算力中心公司动态 四维图新:2月20日消息,公司子公司北京世纪高通科技有限公司收到南方电网供应链集团有限公司《中标通知书》,世纪高通中标2023年南方电网数字电网科技(广东)有限公司主网电子化移交建模技术服务项目 航天信息:2月21日消息,公司和Varmeego Solutions Limited组成的联合体就“贸易单一窗口第三阶段”项目与中华人民共和国香港特别行政区政府商务及经济发展局签署总承包合同 本周观点 Sora的推出进一步验证了AI开始走向应用,我们在《2024:AI应用的真正元年|民生计算机年度策略》中提出:2024年或是AI应用的真正元年,AI终端重构、算力国产化与多模态引领AI应用这三大新方向孕育重要机遇, 建议重点关注AI央企市场最佳受益者:华为昇腾一体机:科大讯飞、云从科技、软通动力、恒为科技等; 同时建议关注其他三个重要方向: 1.国产核心算力:寒武纪、浪潮信息、中国长城、海光信息、高新发展; 2. AI终端变革:中科创达、萤石网络、漫步者等。 3.出海AI应用:焦点科技、超讯通信等风险提示 行业竞争加剧,公司技术发展不及预期。 1本周观点 1.1Sora训练与推理算力需求初步测算 Sora发布表现亮眼,Transformer+Diffusion架构或成为文生视频大模型新范式。据Sora技术报告,类似于LLM将不同文本数据统一为token,Sora可将不同类型的视频和图像等视觉数据统一为patches,具体而言,Sora首先将视频压缩为低维潜在空间,然后再将其分解为patch;同时,OpenAI将Transformer架构用于视频生成,随着训练计算量的提高,生成视频质量也明显提高。 图1:OpenAISora技术概念图 Sora的作者之一Peebles曾发布论文《Scalable Diffusion Models with Transformers》构造成熟的Transformer+Diffusion架构模型用于图像生成;后续中国人民大学等机构发布《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING》进一步实现该架构用于视频生成,我们借助上述论文中的模型参数,对Sora的算力需求进行测算: 1、训练端,由于暂无明确算法架构和训练详细数据,本文对《Scalable Diffusion Models with Transformers》论文中DiT-XL/4模型进行逆向工程,使得输入对应参数量后能够得到29.05Gflops,得到训练一张1024x768分辨率图片需要算力324Gflops,根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo等著,2022年)》披露数据,Youtube上每分钟上传约500小时视频,假设视频都为60帧每秒;假设全采用英伟达A100(FP16算力312Tflops)且芯片利用率为80%;得到一个月内训练完Youtube全部新增视频约需要231片A100,考虑到文中模型都是经过多次训练得到,算力需求仍有较大程度提高的可能性。 2、推理端,推理端算力约等于交互Patches数量*2*参数量,假设抖音8亿日活,平均每人每天使用时长2h,对应每天16个小时视频播放时长。假设每个Patch尺寸为60*80,一帧1920*1280分辨率的画面有512个Patch,一秒钟30帧,对应一分钟生成的视频有92.16万个Patches,假设Sora模型参数为30亿,则对应1846万个A100需求。 表1:Sora训练端/推理端算力测算训练端 1.2合成数据:从数据增强走向训练主体 合成数据指的是基于生成式人工智能技术的计算算法和模拟创建而成的数据。 据天翼智库,合成数据依赖少部分的高质量真实数据用于初始创建,将大幅减少算法训练所需的真实数据量,提供了一种更快捷高效的方式来获取所需数据;目前主要通过以下四种技术路径来获取合成数据:基于深度学习生成、基于模拟生成、基于语义规则生成以及基于蒙特卡罗方法生成。 图2:合成数据的不同路径 合成数据主要分为结构化数据和非结构化数据两类,数据广泛覆盖金融、医疗、零售甚至运营商领域。据天翼智库,合成数据的产业布局可分为结构化数据(表格数据)、非结构化数据(视频、图像等)、测试数据等,合成数据的应用领域十分广泛,早期主要应用于计算机视觉领域,现在正向金融、医疗、零售甚至运营商领域拓展。 表2:合成数据产业重点环节领域 以多模态为代表的非结构化数据真正快速发展,英伟达、游戏引擎厂商纷纷入局。据《MatrixCity:面向城市规模的神经渲染数据集》,论文已经实现利用虚幻引擎5城市样本项目,作者开发了一个作业流程,以方便地收集空中和街道城市视图,伴随着地面真实的相机姿势和一系列额外的数据模式;论文的方法还提供对光线、天气、人类和汽车人群等环境因素的灵活控制,以支持涵盖城市规模的神经渲染等各种任务的需求。英伟达旗下Omniverse持续推动合成数据业务发展,并支持使用本地部署和NVIDIA Omniverse™Cloud解决方案使用合成数据来创建应用。 图3:英伟达Omniverse合成数据 合成数据训练效果不断提升,到2030年AI训练中合成数据用量有望超过真实数据。据谷歌《Learning Vision from Models Rivals Learning Vision from Data》论文,尽管没有直接采用任何真实数据训练,SynCLR在ImageNet数据集上训练的线性传递性能仍可与传统训练方法相媲美。由于合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题,提高机器学习算法的鲁棒性和泛化能力,据Gartner预测,到2030年合成数据将完全盖过AI模型中的真实数据,成为AI模型训练使用数据的主要来源。 图4:不同数据集的训练效果 图5:AI训练中合成数据与真实数据用量 1.2投资建议 Sora的推出进一步验证了AI开始走向应用,我们在《2024:AI应用的真正元年|民生计算机年度策略》中提出:2024年或是AI应用的真正元年,AI终端重构、算力国产化与多模态引领AI应用这三大新方向孕育重要机遇,建议重点关注AI央企市场最佳受益者:华为昇腾一体机:科大讯飞、云从科技、软通动力、恒为科技等; 同时建议关注其他三个重要方向: 1.国产核心算力:寒武纪、浪潮信息、中国长城、海光信息、高新发展; 2. AI终端变革:中科创达、萤石网络、漫步者等。 3.出海AI应用:焦点科技、超讯通信等 2行业新闻 国家数据局:开展全国数据资源调查,加快数据资源开发利用 2月19日消息,国家数据局发布了关于开展全国数据资源调查的通知。通知称,为贯彻落实《数字中国建设整体布局规划》工作部署,摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局、中央网络安全和信息化委员会办公室、工业和信息化部、公安部联合开展全国数据资源情况调查,调研各单位数据资源生产存储、流通交易、开发利用、安全等情况。这次调查对象包括:省级数据管理机构、工业和信息化主管部门、公安厅(局); 各省重点数据采集和存储设备商、消费互联网平台和工业互联网平台企业、大数据和人工智能技术企业、应用企业、数据交易所、国家实验室等单位;中央企业;行业协会商会;国家信息中心。。 国资委:央企要加快布局和发展智能产业加快建设一批智能算力中心 2月20日消息,国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。 国务院国资委党委书记、主任张玉卓在会上讲话强调,要推动中央企业在人工智能领域实现更好发展、发挥更大作用。会议认为,央企应主动拥抱人工智能对社会带来的深刻变革,要将加快发展新一代人工智能摆在更突出的位置,要不断强化创新策略,应用示范和人才聚集,着力打造人工智能产业集群,发挥需求规模大、产品配套全、应用场景多的优势,带头抢抓人工智能赋能传统产业,加快构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。会议强调,中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展人工智能产业。要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。。 自然资源部:建成自然资源“一张网、一张图、国土空间基础信息平台” 2月22日消息,作为指导今后一个时期全国自然资源数字化发展的纲领性文件,《总体方案》明确,自然资源部将突出数字化的撬动、赋能和引领作用,以信息系统整合提升为突破口,强化基础设施和网络数据安全保障能力,丰富自然资源数据体系,夯实国土空间基础信息平台数据治理、智能计算、场景构建、协同共享能力,以自然资源智慧化场景驱动治理模式变革、方式重塑、能力提升为目标,大幅提高自然资源管理和国土空间治理信息化水平和效能,并融入数字中国建设,全面助力美丽中国数字化治理体系建设。 工信部:鼓励工业领域的低碳技术创新和管理创新,以数字化、智能化赋能绿色化 2月23日消息,工业和信息化部印发《工业领域碳达峰碳中和标准体系建设指南》。指南强调要“创新驱动、数字赋能”:鼓励工业领域的低碳技术创新和管理创新,推动将低碳新技术新工艺融入相关标准,加快低碳创新技术的推广应用。围绕5G、工业互联网、人工智能等新一代信息技术在工业低碳领域的应用创新,加快相关标准研制,以数字化、智能化赋能绿色化,培育壮大低碳发展新动能。 3公司新闻 亚信安全:2月19日消息,公司拟通过全资子公司天津亚信津安科技有限公司、亚信科技(成都)有限公司与联合投资人共同出资设立有限合伙企业;并拟由境内SPV出资设立境外全资子公司作为收购主体,以支付现金的方式购买SKIPPER INVESTMENT LIMITED持有的亚信科技控股有限公司19.236%或20.316%的股份,同时通过表决权委托的方式取得田溯宁及其控制的Info Addition Capital Limited Partnership、PacificInfoLimited、CBC PartnersII L.P. 在紧随前述股份收购交割后合计持有的亚信科技9.572%至9.605%的股份对应的表决权。 博思软件:2月19日消息,公司拟与控股子公司织巢鸟少数股东福州市长乐区启星股权投资合伙企业(有限合伙)、福州市长乐区启航股权投资合伙企业(有限合伙)按持股比例向织巢鸟同比例增资共计1,500万元。本次增资完成后,织巢鸟注册资本由2,000万元增加至3,500万元,公司仍持有织巢鸟40%股权。 卫宁健康:2月19日消息,公司控股子公司卫宁沄钥科技(上海)有限公司拟注册资本由16,627.9346万元增加至24,778.8829万元,新增注册资本8,150.9483万元,本次增资完成后,公司持有沄钥科技的股权比例由43.7045%下降至42.4859%。 永信至诚:2月19日消息,公司本次拟通过集中竞价交易方式回购公司已发行的部分人民币普通股(A股)股票,拟回购股份的资金总额为不低于人民币3,000.00万元(含),不超过人民币6,000.00万元(含) 德生科技:2月19日消息,公司拟使用自有资金以集中竞价交易的方式回购公司发行的