
要点: 1.智算中心的灾备市场是全新的增量灾备市场,训练侧占比小,可达小几十亿,但加上占比大的推理、AI应用等场景,增量空间可达百亿。目前智算中心的灾备已经开始,一般是建设的时候会一起规划一部分,后续看业务再加2.政策文件要求重点行业的重要数据2025年需要达到100%灾备覆盖率,目前重点行业平均来看还非常低,平均在40%的水平。分行业看,金融行业较高,但是工业、医疗等都很低,比如瑞金医院。 算力中心灾备专家2023.10.19 要点: 1.智算中心的灾备市场是全新的增量灾备市场,训练侧占比小,可达小几十亿,但加上占比大的推理、AI应用等场景,增量空间可达百亿。目前智算中心的灾备已经开始,一般是建设的时候会一起规划一部分,后续看业务再加2.政策文件要求重点行业的重要数据2025年需要达到100%灾备覆盖率,目前重点行业平均来看还非常低,平均在40%的水平。分行业看,金融行业较高,但是工业、医疗等都很低,比如瑞金医院。 3.相对来讲第三方的公司,比如英方软件,他们的优势是在某一些领域投入比较大,比如有的会在数据备份方面做的比较好,有的会在别的方面做的比较好,会有自己的特色。云厂商更多在虚拟机、网络层面比较专业一些,因此经常和第三方公司以互补的方式去获取客户。 算力中心灾备市场发展的几个阶段: 起步阶段,智算中心概念提出,即21年,工信部发布了《十四五软件和信息技术服务也发展规划》,明确提出要丰富数据备份、灾难恢复等安全软件的服务和要求,标志着智算中心灾备市场得到了政策层面的认可和支持。 发展阶段,全国已经超过30多个城市已经建设或者规划建设智算中心,标志智算中心的灾备市场开始进入实质性的发展阶段,需求增长阶段,随着数字化转型的推进,企业组织对这种数据备份和灾难恢复需求的增长,特别是对信息基础设施的自主安全可控政策趋势下,灾备系统国产化需求迫切。 最近,政策要求25年重点数据的100%灾备覆盖,标志灾备行业已经进入国际层面的重点规划。 【Q&A】 Q:有没有智算中心灾备案例分享一下? A:比如天津的一个算力中心,已经开始落地做容灾备份,第一期规模是大几百万。对比传统的数据中心(CPU为主)、智算中心(CPU、GPU异构架构)的基础架构更加复杂,加上大数据的广泛应用、数据量的急剧增大,对于客户群体来说,对于灾备的等级要求提升了,带来了新的需求和增长点。灾备产品线和之前也有较大的不同,以前传统的灾备更加关注存储阶段,但是现在大数据平台的发展,很多数据已经到了PB级规模,如果业务对性能要求比较高,如何做好容灾备份,例如大模型厂商,会挂载一些向量数据库、高性能算力异构,对于灾备市场带来一个大的挑战,面对国内更复杂的传统架构以及多元的云厂商去做好在灾备是一个挑战,也是比较大的增长点。 Q:政策要求25年重点数据的100%灾备覆盖,我的理解是金融行业对灾备率比较高,其他行业灾备率比较低,平均下来,重点行业灾备率大概在多少呀,2025年提到100%的迫切性如何? A:整体40%左右,金融比较高一些,因为金融对数据安全要求比较高也比较有钱,工业30%都没达到,工业信息化不够高、利润率低一些,受限资金、人员现实原因没办法做。 文件从实际落地情况来说,头部标杆客户不能有侥幸心理,大家会在限定时间点做这个事情。实际过程中,可能有些中小企业客户,可能根据自己的实际情况不会把所有的数据都去做比较高层次的灾备,只对关键业务比较核心的数据做保障。 Q:灾备软件的成本在智算中心的成本中大概能够占到多少?怎么看智算算中心带来的整个市场的灾备空间? A:只看纯软件(不含软硬一体消费产品),占比1%左右。加上硬件,占比在5%-10%。其中,智算中心的成本是不包括建筑费用,只包含的服务器、通信、电等成本。 Q:在建设数据中心过程中,什么环节会上灾备的产品,给灾备厂商的付款是什么环节?对使用方的收费在什么环节,是什么模式? A:灾备灾建设阶段开始规划,在实际落地过程中不会一下子全部都上,一开始可能会更多的做一些虚拟机、操作系统的备份,这些是预防云厂商云主机故障的情况下如果不影响线上的业务。会预留一些没有做的,比如具体的客户接入进来以后,会对数据库、文件方面有或有更高级的容灾备份的要求,可能先规划,但不会去做。 对最终客户,有一种方案是,我会在给客户的定价中,留有一点空间,成本已经在里面,客户不一定感知到我提供了这个服务。然后有一些可能在此基础上觉得不够,会购买一些增值服务,会单独再收费用。 对于上游,开始规划做的部分实施之后就会开始计费。还没规划做的部分,如果客户要求且客户买单之后,我们再和软件厂商做结算,以项目制做。 Q:假设是项目制,在建立数据中心的时候,客户就把产品铺进去,他在这个环节收不到钱,等客户使用了算力服务后,您提供了灾备给客户,收到灾备的钱再付给灾备的厂商? A:灾备有很多细分服务,一部分基础服务一开始就有,做完就会付费。有些相当于我保留了这个功能,但是现在还没有启动,因此现在不付费,等接触客户后再启动这个服务。 Q:智算中心本身对于灾备的价值量提升相较于原本数据中心是否有量化数据? A:原来数据中心的云灾备在国内市场有大几十亿规模,智算中心现在还是以大模型厂商为主,跟上游GPU供货有关联,云灾备还是几十亿规模,但是到下一个阶段等AI应用层的丰富后,越来越多垂直领域模型的敏感数据公有云做不了,云端私有化和本地私有化切入之后,这个市场会有百亿以上的增长。 Q:未来智算中心和一个普通数据中相比,价值量会有几十万到几百万级别的价值量提升? A:智算中心很多是新建的,本来就是新增的需求,从存储量收费的单价来看,智算中心比普通计算中心会高。 Q:智算中心的使用效率和算力空置情况? A:现在高端算力,例如国内的A800和H800是供不应求,因此使用率非常高,但是消费级的低端卡会稍差。但总体需求非常大,甚至有一些厂商不方便自己买卡,可以通过这种方式租给客户,客户也愿意买单。 Q:智算中心的灾备业务大规模落地节奏? A:25年的重点行业会做到100%,包括金融、党政军、医疗、教育、运营商、能源等行业,因此这些行业在24、25年左右会有比较大的增长。从上游GPU供应来看,明年上半年GPU的产能会有比较大的提升,未来算力方面瓶颈会比较小,企业应用端创新会更多,因此未来企业私有化成本太高,自己重要数据无法上云的情况会大大减少。所以从明年开始,我们可以看到这个市场会有比较大的放量。 Q:您觉得现在智算中心的建设阶段在什么程度? A:现在全国大概有30+地方在建设智算中心,商汤等企业也会走的比较靠前,阿里的乌兰察布智算中心的应用已经开始落地了,但有一些地区还在规划阶段。 Q:现在落地的成熟云厂建设比较多,一些国家建设的智算中心建设进度如何,比较快是因为能拿到卡? A:比较靠前的,例如,南京的鲲鹏和昇腾人工智能智算中心在22年4月份就已经上线,甘肃那边也有国家枢纽的节点,已经开始在做了,但是后面进度比较慢,因为卡的交付一直在逾期。全国一些比较早的一期已经交付了,但有一些新的可能土建还没弄好。整体比较早期。 Q:这种灾备对于智算中心来说是后周期还是会同步规划?A:在建设时会同步规划。 Q:业务没上如何知道该规划多少? A:比如上一台机器,会按照折算一定的比例进行容灾相关的建设。规划会做,但是不是马上同步做,可能会有一定滞后性。 Q:您怎么看云厂商、第三方厂商和硬件厂商灾备的差异? A:我认为现在参与竞争的企业主要分三类:1)国内云厂。2)第三方厂商。3)海外厂商。相对来讲第三方的公司的优势,比如英方软件,是在一些领域投入比较大,有的会在数据备份方面做的比较好,有的会在别的方面做的比较好,会有自己的特色。云厂商更多在虚拟机、网络层面比较专业一些,且因为他们更多接触终端的客户,因此可以和第三方公司以互补的方式去获取客户。海外的公司的特点是在云灾备的领域,包括产品能力和苹果生态方面做的更好一些,但缺点是更贵。随着国产替代的浪潮,最近H800、4090在国内停供后,海外厂商会在一定程度上被国内厂商替代。总体来说,海外厂商最早开展业务,最早入局;在国内初步阶段大家会倾向于使用云厂商服务;随着业务的发展,大家了解到第三方厂商的存在后可能会找第三方厂商。 Q:现在很多智算中心在开始建设,有一些能够放灾备了,未来到25年具体的节奏和份额划分如何?A:我可以根据客户案例的金额提供计算模型:现在一家做大模型厂商,智算中心提供的服务一年规模几个亿,具体到灾容相关软硬件加一起会有千万的级别。目前租赁市场大概几百亿级别,容灾大概是十亿左右,明年可能会翻几倍到30亿,到25年可以到50-80亿规模。