您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:NLP增强的主动权益基金标签体系 - 发现报告
当前位置:首页/其他报告/报告详情/

NLP增强的主动权益基金标签体系

2022-08-23国联证券娇***
NLP增强的主动权益基金标签体系

1 Tabl e_First Table_First|Table_ReportType 金融工程│金融工程专题 Tabl e_First| Tabl e_Summar y NLP增强的主动权益基金标签体系  NLP抽取合同文本信息,全面增强基金分类 基金分类是FOF管理流程的起点,传统的分类方法大都过度依赖文本或持仓信息。本文则以NLP技术深挖基金合同的文本信息,对未建仓的主动权益基金实施有监督的文本分类算法;对已建仓的基金则在聚合文本、持仓、净值等信息的基础上采用无监督的层次化聚类方法,全面增强基金分类的效果。  对未建仓基金进行有监督的文本分类 合同文本是未建仓基金唯一可用的信息,且人们常以既有的标签体系对新基金归类。本文即根据业界习惯预定义一个含15个类别的标签体系,按基金名称标注部分样本作为训练集,然后采用中文NLP领域领先的百度ERNIE模型对主动权益基金实施有监督的文本分类。模型在测试集上的准确率达89.83%,对行业、主题类基金的预测准确率多在80%以上。  对已建仓基金聚合文本、持仓等信息实施无监督聚类 在以TF-IDF算法将量化抽取文本主题的基础上,本文从持仓组合、净值走势、交易偏好、截面特征、合同文本维度对已建仓基金画像,并实施基于预定义距离矩阵的层次化聚类。针对平替产品投资的需求,我们使用距离阈值横切出组内相似度高的社区结构;针对FOF组合投资的需求,我们先以CH指标遴选构建组间异质性强的文本聚类结构,然后结合持仓等信息优化迭代出细化、稳健的聚类体系。  结合文本、持仓信息识别基金“风格漂移” 基金分类的事前法、事后法均无法识别风格漂移现象。本文在结合文本、持仓信息聚类的基础上,提出了两种量化识别基金“风格漂移”的方法。第一种是通过度量与基准产品的文本、持仓向量距离差来定义风格漂移的产品;第二种则是在文本聚类的基础上根据组内样本的行业分布差异进行定义。  风险提示:基金的业绩分析基于历史数据,计量模型则带有一定的假设,据此预测未来收益存在失准、失效的可能。 证券研究报告 Tabl e_First| Tabl e_R eportD at e 2022年08月22日 Table_First|Table_Author 分析师:朱人木 执业证书编号:S0590522040002 电话: 邮箱:zhurm@glsc.com.cn Table_First|Table_Contacter 联系人:孙子文 邮箱:sunzw@glsc.com.cn Tabl e_First| Tabl e_Rel at eRepor t 相关报告 1、《本周MLF降息,利好中小成长风格》2022.08.21 2、《北向偏好新能源,医药ETF持续流入》2022.08.21 3、《基金市场08月周报(8.15-8.21)》2022.08.21 请务必阅读报告末页的重要声明 60%70%80%90%100%110%21-0821-0921-1021-1121-1222-0122-0222-0322-0422-0522-0622-07普通股票型基金指数 股票指数型基金指数 债券型基金指数 2 请务必阅读报告末页的重要声明 金融工程│金融工程专题 正文目录 1 机器学习增强基金分类 .................................................. 4 1.1 传统分类方法不够精细 ............................................................................... 4 1.2 创新使用NLP文本分类+层次化聚类 ......................................................... 5 2 基于基金合同文本的有监督分类 .......................................... 6 2.1 百度ERNIE知识增强模型——观千剑而后识器 ........................................ 6 2.2 按合同文本对基金进行有监督分类 ............................................................. 7 3 层次化聚类的流程简介 .................................................. 9 3.1 灵活、普适的层次化聚类 ......................................................................... 10 3.2 从文本、持仓等多维度为基金画像 ........................................................... 11 3.3 结合文本、持仓量化刻度风格漂移现象 ................................................... 15 4 灵活实施层次化聚类 ................................................... 16 4.1 基于距离阈值的社区识别 ......................................................................... 16 4.2 基于CH指数的层次化聚类实践............................................................... 18 4.3 聚类实践总结............................................................................................ 20 5 风险提示 ............................................................ 20 图表目录 图表1:基金分类是FOF管理流程的起点 ........................................................................ 4 图表2:好的分类体系使基金投研更高效 ........................................................................ 4 图表3:百度ERNIE和TF-IDF均适用于小样本、长文本的分类任务 .............................. 5 图表4:主动权益基金分类使用多种机器学习算法 .......................................................... 6 图表5:2018年NLP预训练时代开启后百度ERNIE模型的表现后来居上 ........................ 7 图表6:主动权益基金的文本分类标签体系共有15个类别 ............................................. 7 图表7:合同数据集近50%的文本长度大于500字符 ....................................................... 8 图表8:ERNIE的文本多分类任务训练准确率达90% ........................................................ 8 图表9:模型对2/3以上类别的主动基金预测准确率大于70% ........................................ 8 图表10:由ERNIE 3.0模型预测的各类型规模靠前的主动权益基金简况 ....................... 9 图表11:纳入文本、持仓信息的主动权益基金层次化聚类流程.................................... 10 图表12:主动基金的聚类特征包括持仓信息、交易偏好和基金合同等......................... 11 图表13:TF-IDF文本向量的余弦相似度选出的各主题部分代表性基金 ........................ 12 图表14:基金持股的加权市值准确的反映基金经理的大/小盘风格 .............................. 13 图表15:以持股的GV分数来准确判断基金的成长/价值风格 ....................................... 13 图表16:各板块、行业近2年平均仓位排名前5的基金简况 ....................................... 14 图表17:金梓才所管两只基金的板块变化大,葛兰两只基金的板块变化小 ................. 14 图表18:结合文本、持仓信息量化刻度部分主题基金的风格漂移情况......................... 15 图表19:预定义距离矩阵的频次分布和众数 ................................................................. 16 图表20:按阈值聚类的各组频数统计 ............................................................................ 16 图表21:根据距离阈值聚类产生的组别主题特征多样、鲜明 ....................................... 17 图表22:基于距离阈值的社区识别将投资风格相近的基金经理归并到一起 ................. 18 图表23:层次化聚类当组数=26时的CH值最大 ............................................................ 19 图表24:26组文本聚类的频数多在100只以下 ............................................................ 19 图表25:经持仓信息优化后的主动权益基金本聚类标签体系 ....................................... 20 图表26:金融地产主题部分基金简况 ............................................................................ 20 图表27:大消费主题部分主动基金简况 ........................................................................ 21 3 请务必阅读报告末页的重要声明 金融工程│金融工程专题 图表28:科技主题部分基金产品简况 ............................................................................ 21 图表29:医药主题部分基金产品简况 ............................................................................ 22 图表30:新能源主题部分基金简况 ............................................................................... 22 图表31:成长风格主题部分基金