指数成分解析:集中于计算机行业。中证大数据产业指数成分股偏中小市值,大部分股票总市值小于500亿。成分股集中于计算机一级行业(45支),其中软件开发、IT服务和计算机设备二级行业的权重较大,横向通用软件、IT服务和垂直应用软件三级行业的权重均超过28%。权重股为科大讯飞、恒生电子和广联达等。 长期投资价值:政策频出推动大数据发展提速。 (1)近年来,我国大数据产业链总体发展势头良好,上中下游均保持较快速度的增长,预计2022年大数据产业规模接近1.5万亿。 (2)2022年,数字经济受到多次重要报告强调,包括《“十四五”数字经济发展规划》、二十大报告和人大常委会报告等。作为数字经济的新动能,数据要素将随着数字经济的推进而得以迅速发展。 (3)《数据二十条》重磅发布,提出“把握一条主线、构建四个制度、推进四项措施”,为促进数据要素发展提供了具体的规范与措施。 (4)政务大数据将加速大数据产业的G端进程。2022年10月28日,国务院印发《全国一体化政务大数据体系建设指南》,提出2023年底前全国一体化政务大数据体系初步形成、到2025年更加完备的目标。 近期催化:chatGPT赋能,高风险偏好下板块受益。 (1)ChatGPT象征的AI技术革新为大数据乃至计算机板块打开了巨大的想象空间。2023年1月份以来,ChatGPT受到了市场的广泛关注。目前,国外相关公司已将ChatGPT逐步商业化,国内公司虽技术上仍与国外有所差距,但亦有相关的布局。随着技术的不断发展,ChatGPT或将成为相关板块未来重要的盈利增长点。 (2)当前市场风险偏好较高,计算机行业较为受益。统计显示,在高风险偏好的月份,计算机行业的平均涨幅为2.4%,在31个行业中排名第二。2023年1月,社融、人民币新增贷款超预期,但直接融资规模、居民部门贷款和地产端未有明显改善,现实相对较弱。强预期弱现实背景下,高风险偏好有望持续,作为计算机板块的重要拼图,大数据板块亦将受到投资者的关注。 风险提示:结论主要基于历史数据,未来市场环境可能发生改变;大数据50 ETF为股票型产品,大盘下跌可能带动其净值下跌。 1.中证数据指数成分分布:集中于计算机行业 华夏大数据50ETF(516000)的跟踪标的指数为中证大数据产业指数(代码930902,以下简称“中证数据”),该指数选取涉及大数据存储设备、大数据分析技术、大数据运营平台、大数据生产、大数据应用等领域的50支沪深A股作为样本,以反映沪深市场大数据产业上市公司证券的整体表现。本节将对该指数的成分分布进行分析。 中证数据的成分股偏中小市值。数量上来看,在50支成分股中,总市值小于500亿的股票数量达41支。权重上来看,总市值小于500亿的股票权重达47%,总市值小于1000亿的股票权重达90%。 图1:总市值小于500亿的成分股数量达41支 图2:总市值小于1000亿的股票权重达90% 中证数据成分股集中于计算机一级行业,其中软件开发、IT服务和计算机设备二级行业的权重较大。指数成分股中有45支被分类为计算机一级行业,权重总和达94.2%;其中软件开发、IT服务和计算机设备二级行业的权重分别高达28%、29%和8%。 图3:成分股权重集中于计算机一级行业 图4:成分股权重集中于软件开发、IT服务和计算机设备行业 细分到三级行业来看,横向通用软件、IT服务和垂直应用软件这三个行业的权重均超过28%,远高于其他行业,三个行业的权重总和达87%。 图5: 成分股权重集中于横向通用软件、IT服务和垂直应用软件三级行业 指数成分股具有低股息、高估值和高杠杆的风格特征。从风格暴露来看,指数成分股在股息、估值和杠杆的风格上具有较大的负向暴露。 图6: 指数成分股具有低股息、高估值和高杠杆的风格特征 指数的前十大权重股为科大讯飞、恒生电子、广联达、用友网络和紫光股份等,前十大权重股权重总和达58%。 表1:中证数据的前十大权重股 2.长期投资价值:政策频出促进大数据发展提速 近年来,我国大数据产业链总体发展势头良好。2022年,数字经济受到多次重要报告强调,表明国家支持数字经济发展的决心,数字经济发展即将提速。作为数字经济的新动能,大数据等数据要素将随着数字经济的推进而得以迅速发展。 2.1.大数据产业链总体发展势头良好 本小节将观察近年来大数据产业链的上中下游的发展趋势。 我国数据产量和人均数据产量稳步增长。大数据产业链上游为数据相关资源,包括了采集设备、传输设备、存储设备、计算设备和整合设备。 根据中商产业研究院的数据,2021年我国数据产量达5.7ZB,人均数据产量为4.2TB,预计2022年数据产量达6.6ZB,同比增长16%;预计2022年人均数据产量4.8TB,同比增长14%。 图7: 我国数据产量和人均数据产量持续增长 我国大数据产业规模增长迅速。大数据产业链中游主要为数据处理,包括了大数据IT基础设施、大数据组织与管理、大数据分析与发现以及大数据应用与服务。自2020年破万亿以来,我国大数据产业规模维持增长,预计2022年接近1.5万亿。 图8: 我国大数据产业规模增长迅速 大数据在工业等领域的应用仍有较大的发展空间。下游的数据应用包括了金融、电信、医疗、交通、媒体和个人等多个领域。从比例来看,目前政府是大数据应用的主要领域,占比达35%;其次是金融,占比达25%。 工业和交通领域占比仅6.6%和2.2%,仍存在较大的发展空间。 图9: 我国大数据产业规模增长迅速 2.2.2022年政策频出推进数字经济,数据要素成新动能 2.2.1.2022年多次重要报告强调数字经济 数字经济领域的首部国家级专项规划发布。2022年1月,国务院发布了《“十四五”数字经济发展规划》,这是我国在数字经济领域的第一部国家级专项规划,并提出了数字经济发展的具体指标,其中数字经济核心产业增加值占GDP的比重预期从2020年的7.8%提升至2025年的10%。 图10: 数字经济核心产业增加值占GDP的比重预计在2025年达到10% 此外,《“十四五”数字经济发展规划》还表明,虽然我国数字经济规模快速扩张,但发展不平衡、不充分、不规范的问题较为突出,迫切需要转变传统发展方式,加快补齐短板弱项,提高我国数字经济治理水平,走出一条高质量发展道路。 2022年内,数字经济政策密集出台。除年初的《“十四五”数字经济发展规划》之外,10月中旬,习近平总书记在党的二十大报告中指出,“加快发展数字经济,促进数字经济和实体经济深度融合”,认为新一代信息技术与各产业结合形成数字化生产力和数字经济,是现代化经济体系发展的重要方向。11月,国家发改委主任何立峰在第十三届全国人民代表大会常务委员会第三十七次会议上作关于数字经济发展情况的报告时表示,下一步将集中力量推进关键核心技术攻关,适度超前部署数字基础设施建设;到2025年,数字经济迈向全面扩展期。 表2:2022年数字经济相关政策频繁出台 2.2.2.数据要素将随数字经济的推进而迅速发展 作为数字经济的新动能,数据要素将随着数字经济的推进而得以迅速发展。2022年12月19日,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,提出了数据要素发展的二十条意见(简称《数据二十条》),引起了社会各界的高度关注。 国家发展改革委负责同志在答记者问时表示,《数据二十条》提出“把握一条主线、构建四个制度、推进四项措施”,坚持促进数据合规高效流通使用、赋能实体经济这一主线,以充分实现数据要素价值、促进全体人民共享数字经济发展红利为目标。根据中国发展网的解读,《数据二十条》提出夯实数据要素基础设施,探索建设全国一体化数据要素登记存证平台,推进数据要素领域创新平台布局,基础性和创新型作用显著。 表3:《数据二十条》的具体内容 2.3.政务大数据将加速大数据产业在G端的进程 2022年10月28日,国务院印发《全国一体化政务大数据体系建设指南》,提出2023年底前全国一体化政务大数据体系初步形成、到2025年全国一体化政务大数据体系更加完备的政务一体化目标。此外,文件还提出了八个一体化任务和“”三类平台框架。要求整合构建标准统一、布局合理、管理协同、安全可靠的全国一体化政务大数据体系,加强数据汇聚融合、共享开放和开发利用,促进数据依法有序流动,充分发挥 政务数据在提升政府履职能力、支撑数字政府建设以及推进国家治理体系和治理能力现代化中的重要作用。 图11: 全国一体化政务大数据体系总体架构图 表4:全国一体化政务大数据体系建设的八个“一体化” 在全国一体化政务大数据建设的进程中,中证数据指数成分股中的相关公司或受益,例如涉及政务大数据应用和基础设施的太极股份,涉及政务大数据应用的南威软件、美亚柏科,涉及数据安全的奇安信等。 3.近期催化:chatGPT赋能,高风险偏好下板块受益 3.1.ChatGPT强赋能,大数据未来可期 2023年1月份以来,ChatGPT的推出受到投资者的广泛关注,ChatGPT象征的AI技术革新为大数据乃至计算机板块打开了巨大的想象空间。 目前,国外相关公司已将ChatGPT逐步商业化,国内公司虽技术上仍与国外有所差距,但亦有相关的布局。随着技术的不断发展,ChatGPT或将成为相关板块未来重要的盈利增长点。 图12:2023年1月至今,chatGPT概念指数大涨 3.1.1.简介:不断进化实现强大功能 ChatGPT,美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码和写论文等任务。 图13:ChatGPT具备聊天问答与写代码的功能 chatGPT本质上是一种自然语言处理(NLP)模型。NLP模型经历了从机器学习模型到RNN等神经网络模型,到2017年Transformer的提出带来了准确性、适应性以及计算速度的迅速提升,再到GPT-1、GPT-2、GPT-3、InstructGPT的不断改进完善,最新推出了chatGPT模型。 本段将从Transformer开始,简单介绍chatGPT模型的发展历史。 (1)Transformer是基于注意力机制的模型,相对于RNN等神经网络,在计算过程中不需要进行重复与卷积,训练时间明显减少。 (2)GPT-1模型则是在Transformer的基础上进行了简化,并采用对无标记的语料库进行预训练再有监督微调的方式,一定程度上克服了传统深度学习方法的需要使用手动标记数据从而导致数据量不足和适用性不够的缺陷。 (3)GPT-2则去掉了GPT-1的有监督微调从而成为无监督模型(除部分特定数据集),参数的数量达到1.5B,模型效果得以提升。 (4)GPT-3在GPT-2的基础上再次进行改进,参数数量达到1750亿,在多个NLP数据集上展示出了极强的性能。 (5)InstructGPT则针对GPT-3模型虽大但可能最终输出与用户需求相差甚远的缺陷,采取了来自人类反馈的强化学习方案RLHF,重复迭代训练奖励模型后再去训练学习模型,再次优化了模型效果。 (6)chatGPT则是在InstructGPT基础上向公众开放,并加入了聊天机器人的属性。 图14:ChatGPT进化史 经过不断地改进与发展,chatGPT最终实现了更高的准确性、更高的适应性、更高的计算能力和更高的适应性的特点。 chatGPT强大的功能使其成为了AIGC的重要板块。AIGC即artificial intelligence generated context,利用人工智能技术自动产生内容(例如文本问答、代码生成)。chatGPT是AIGC中数字内容智能编辑领域中的重要组成部分。随着AIGC在传媒、电商、教育、医疗和娱乐等多个行业领域的应