您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国银河]:大数据系列(4):资讯数据分析 - 发现报告
当前位置:首页/其他报告/报告详情/

大数据系列(4):资讯数据分析

2023-12-31中国银河X***
大数据系列(4):资讯数据分析

www.chinastock.com.cn 证券研究报告 请务必阅读正文最后的中国银河证券股份有限公司免责声明 [Table_Header] 金融工程报告●深度报告 2023年12月29日 [Table_Title] 大数据系列(4)资讯数据分析 核心观点: [Table_Summary]  另类大数据概述。大数据的属性特征包括体量、速度、多样性和准确性,包括气候信息、卫星图像、数字图片和视频、轨迹记录或GPS信号,以及个人数据等。另类数据集合规模有约1000多个,买方机构购买另类数据的花费逐年增长,头部对冲基金使用的另类数据比例更大,使用比例最大的另类数据是网页数据、和社会舆情信息等。  新闻舆情数据源。对国内学术新闻库做了介绍。对于其他新闻介绍,包括内容信息字段、所包含的类别、整体时间跨度、数据量大小、数据更新情况等。  新闻舆情数据统计。对wind新闻进行详细统计分析,包括新闻数量,股票新闻、情感新闻占比,新闻量时间段差异,新闻源的情况,以及不同新闻类型标签包括研报类等,以及新闻不同重要程度,歧义新闻和人工新闻的,以及不同地区新闻差异等。  风险提示:报告结论基于历史价格信息和统计规律,但二级市场受各种即时性政策影响易出现统计规律之外的走势,文章所引用的第三方相关数据资料等不构成推荐,报告阅读者需审慎参考报告结论。 [Table_IndustryName] [Table_InvestRank] 分析师 [Table_Authors] 吴俊鹏 :010-8097631 :wujunpeng@chinastock.com.cn 分析师登记编码:S0130517090001 [Table_IndustryData] [Table_Chart] 相关研究 [Table_Research] 《大数据系列(1):舆情事件特征分析》 《大数据系列(2):舆情事件收益分析》 《大数据系列(3):新闻事件收益分析》 请务必阅读正文最后的中国银河证券股份有限公司免责声明。 2 able_ReportTypeIndex] 金融工程报告/深度报告 目 录 一、另类大数据概述 .................................................................................................................................................................... 3 (一)另类数据基本概况................................................................................................................................................................ 3 (二)金融市场另类数据基本概况 ............................................................................................................................................... 4 二、新闻舆情数据源 .................................................................................................................................................................... 7 (一)学术新闻库 ............................................................................................................................................................................ 7 (二)其它新闻库 ..........................................................................................................................................................................10 三、新闻舆情数据统计 .............................................................................................................................................................. 14 四、结语 ...................................................................................................................................................................................... 20 五、风险提示 .............................................................................................................................................................................. 21 请务必阅读正文最后的中国银河证券股份有限公司免责声明。 3 able_ReportTypeIndex] 金融工程报告/深度报告 在之前的研究中我们分别通过三篇报告《大数据系列(1):舆情事件特征分析》、《大数据系列(2):舆情事件收益分析》和《大数据系列(3):新闻事件收益分析》尝试将舆情相关数据应用到投资的可能性。本文作为第四篇,从数据源的角度来统计分析新闻舆情的大致情况。首先第一部分阐述大数据(另类数据)的发展应用,第二部分介绍部分现有的平台中关于新闻舆情数据的情况,第三部分以wind新闻为例,详细进行统计分析。 一、另类大数据概述 (一)另类数据基本概况 传统的数据更多的集中于一些结构化、定期披露的数据,比如财务报告、机构调研信息等等。 图1:全球数据量大小 资料来源:(IBM,.中国银河证券研究院 随着信息技术的发展,更多维度、非机构化的数据不断产生。大数据的属性特征包括“4V”:体量(数据规模)、速度(高速流数据的处理和分析)、多样性(异构数据)和准确性(数据来源可靠性、真实性),以及包括可扩展性和复杂性等。准确性尤其重要,因为用户可能很难做到评估所使用的数据集是否完整且可信。 图2:大数据的四个维度 资料来源:OECD(2021).中国银河证券研究院 2010201120122013201420152016201720182019202020212022202320242025020406080100120140160180200Data volume (zettabytes) Data volume-Volume of data created and replicated worldwide 请务必阅读正文最后的中国银河证券股份有限公司免责声明。 4 able_ReportTypeIndex] 金融工程报告/深度报告 大数据包括气候信息、卫星图像、数字图片和视频、轨迹记录或GPS信号,以及个人数据(姓名、照片、电子邮件地址、银行详细信息、社交网站上的帖子网络网站、医疗信息或计算机IP地址)等。随机机器学习等先进算法的发展,也可以更好的将这样数据应用于包括投资决策等各个方面。 图3:大数据源 资料来源:OECD(2021).中国银河证券研究院 (二)金融市场另类数据基本概况 金融市场另类数据投入规模 F.Norrestad2021年9月在Statista上发布报告称约54%的头部对冲基金使用的另类数据集超过7个,而其它的对冲基金仅有8%。 图4:商业发布另类数据集数量 资料来源:ALEXANDER DENEV等(2020).中国银河证券研究院 另外据Neudata统计,另类数据集合规模有约1000多个。而alternativedata上统计发布的另类数据源有445个(2018年) 据alternativedata网站发布的统计显示,买方机构2019年购买另类数据的花费为约10.88亿美元,2020年为17.08亿美元。 请务必阅读正文最后的中国银河证券股份有限公司免责声明。 5 able_ReportTypeIndex] 金融工程报告/深度报告 图5:买方在另类数据支出 资料来源:alternativedata.org.中国银河证券研究院 根据Oxylabs和Censuswide的调查,“63%的受访者已经开始使用另类数据来帮助他们进行投资决策”。根据Statista的数据,买方机构2019年购买另类数据的花费为约10.88亿美元,2020年为17.08亿美元。Global Alternative Data Market在2020年调查报告支出全球另类数据市场规模将以44%的年复合增长率增长,到2026年,将达到111亿美元。根据Grand View Research的报告,2020年另类数据市场预计将以58.5%的增长,到2028年将达到693.6亿美元(来源:Gautam Mitra等(2023))。 金融市场另类数据品牌和类型 2018年Greenwich Associates对于另类数据的使用等情况对36名市场参与者进行调查,排名第一的是Quandl,而Orbita Insight是一家卫星图像数据集的供应商。 图6:最知名的另类数据提供商 资料来源:ALEXANDER DENEV等(2020),中国银河证券研究院 此外,alternativedata提供各种类型另类数据源,包括App Usage、Credit/Debit Card、Data Aggregator、Data Broker、Email/Consumer Receipts、Geo-location、Other、Point of Sale、Public Data、Satellite、Sell-side、Social/Sentiment、Survey、Weather、Web Data和Web Traffic。 201620172018E2019E2020E020040060080010001200140016001800买方在另类数据支出 ($M) 买方在另类数据支出 请务必阅读正文最后的中国银河证券股份有限公司免责声明。 6 able_ReportTypeIndex] 金融工程报告/深度报告 图7:基金不同类型另类数据使用比例 资料来源:alternativedata.org.中国银河证券研究院 据alternativedata统计,约43%基金公司使用“Web Data”,“Social/Sentiment”使用比例为36%。 金融市场另类数据使用情况 图8:对冲基金使用另类数据源情况 资料来源:Gautam Mitra等(2023),中国银河证券研究院 F.Norrestad2021年9月在Statista上发布报告称约54%的头部对冲基金使用的另类数据集超过7个,而其它的对冲基金仅有8%。 对于