您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:量化漫谈系列之九:金融文本解析评测:Llama3是最强开源模型吗? - 发现报告
当前位置:首页/其他报告/报告详情/

量化漫谈系列之九:金融文本解析评测:Llama3是最强开源模型吗?

2024-04-27高智威、王小康国金证券H***
量化漫谈系列之九:金融文本解析评测:Llama3是最强开源模型吗?

敬请参阅最后一页特别声明 1 Llama3发布迎来广泛关注 近日,Meta重磅推出了Llama 3大模型,一度被评为最强开源模型。当前的8B版本模型在五项基准上得分超过了Gemma 7B-1t和Mistral 7B Instruct。Llama 3 70B三项基准超过Gemini Pro 1.5和Claude 3 Sonnet。 在模型架构方面,Llama 3采用了相对标准的Decoder-Only Transformer架构,使用128K的tokenizer,能够有效地编码语言。数据层面上,使用了超过15T的token进行预训练,是Llama 2的7倍。并在8192个token的序列上对模型进行训练,使用掩码来确保自注意力不会跨越文档边界。此外,为了应对多语言使用情况,Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据,涵盖 30 多种语言。 除了目前已经推出的Llama 3 8B和70B之外,Meta官方表示,未来将会推出400B+版本,有望能达到GPT4同样的水准。 GPT4模型依旧领先,期待后续Llama 3 400B版本有所提升 我们针对目前市场上主流的开源模型及GPT进行测评对比,以二级市场投研的视角评判并分析各开源模型的优劣,以给投资者选择模型进行部署使用时提供参考依据。 我们共选择5篇来自不同行业的个股研报,设计3个不同角度的问题:作者对该股票的看好程度、公司技术优势以及政策对行业产生影响。发现:Llama 3在回答时无法全部使用中文回答,且部分回答的引用内容和逻辑推理过于牵强,与人类的一般判断标准具有一定偏差。而InternLM回答错误率明显更高,在多个问题上拒绝回答。在涉及行业技术壁垒的问题上,多次错误引用、错误推导,会给用户使用带来一定困扰。相较而言,ChatGLM 3和Qwen国产开源大模型表现出色,大部分回答对于文本的引用全面、清晰富有条理,能准确判断用户意图和文本观点,具有较高的可信度和参考价值,是部署开源大模型的较好选择。 GPT4在所有模型中拔得头筹,在所有的判断类问题中均能完整、准确地分析文本中所涉及内容,其推理过程和判断标准也与人类最为相近。对于部分大模型在回答某些问题时存在的“无中生有”倾向,GPT4对于文中未提及内容会直接给出否定回答,具有相对客观的回答标准。 风险提示 1. 大模型回答具有一定随机性,每次回答无法保证结果完全一致,需要人为辅助判断作为决策依据。 2. 本文涉及测评问题未针对模型擅长领域调整,可能存在不同领域下模型表现相对优劣出现变化。 金融工程专题报告 敬请参阅最后一页特别声明 2 扫码获取更多服务 内容目录 一、测评背景及设定.............................................................................. 3 1.国金金工金融文本解析应用评估体系.......................................................... 3 2.测评选用开源大模型........................................................................ 6 二、测评结果对比................................................................................ 6 1.结果汇总.................................................................................. 6 2.回答原文.................................................................................. 9 风险提示....................................................................................... 15 图表目录 图表1: 国金金工金融文本应用评估体系设计 ....................................................... 3 图表2: 测评所用研报文本 ....................................................................... 3 图表3: 测评所用开源大模型 ..................................................................... 6 图表4: 各模型回答总结 ......................................................................... 7 图表5: 各模型对研报作者看好程度的打分对比 ..................................................... 8 图表6: 各模型对技术水平问题的判断 ............................................................. 8 图表7: 各模型对政策影响问题的判断 ............................................................. 8 图表8: 部分模型回答原文 ....................................................................... 9 金融工程专题报告 敬请参阅最后一页特别声明 3 扫码获取更多服务 一、测评背景及设定 近日,Meta重磅推出了Llama 3大模型,一度被评为最强开源模型。在模型架构方面,Llama 3采用了相对标准的Decoder-Only Transformer架构,使用128K的tokenizer,能够有效地编码语言。数据层面上,使用了超过15T的token进行预训练,是Llama 2的7倍。并在8192个token的序列上对模型进行训练,使用掩码来确保自注意力不会跨越文档边界。此外,为了应对多语言使用情况,Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据,涵盖 30 多种语言。 除了目前已经推出的Llama 3 8B和70B之外,Meta官方表示,未来将会推出400B+版本。而当前的8B版本模型在五项基准上得分超过了Gemma 7B-1t和Mistral 7B Instruct。Llama 3 70B三项基准超过Gemini Pro 1.5和Claude 3 Sonnet。 不过该模型一个明显的缺陷在于上下文窗口仅有8K,落后于行业内的平均水平。当面对较长的多轮问答任务或基于长文本进行分析总结类的任务时,模型的表现可能会受到影响。 在本篇报告中,我们将针对目前市场上主流的开源模型进行测评对比,以二级市场投研的视角评判并分析各开源模型的优劣,以给投资者选择模型进行部署使用时提供参考依据。 1.国金金工金融文本解析应用评估体系 在投资研究领域,大模型的一个重要应用场景是针对海量的信息及文本进行针对性地提炼总结信息、分析作者的观点、并对投资者关心的问题快速定位给出答案。因此,我们设计了基于研报读取问答场景下的三个问题,对所测评开源大模型使用相同的提示词分别提问,最终评判各模型在相应任务上的表现。 以下为我们设计的金融文本应用评估体系主要内容: 图表1:国金金工金融文本应用评估体系设计 金融分析评估维度 评估设计思路 结合文本披露信息分析作者观点 截至大模型强大的文本分析能力,评估研报作者对于股票的整体看好程度。进而利用模型判断辅助作为投资决策依据,可以作为舆情因子等进行横截面选股或聚合后进行其他策略构建。 判断上市公司的技术水平及行业壁垒 通过文本内容判断上市公司的技术水平在行业内的地位,进而给公司的投资逻辑提供决策基础。 判断公司所处行业是否存在相关政策影响行业的竞争格局和发展状况 判断股票所属行业或板块是否存在相关政策落地,从而对未来发展格局可能产生较大影响,部分政策影响可能会在一定程度上主导股票价格变化。 来源:国金证券研究所 考虑到目前大模型在面对复杂问题时的有限能力,确保模型的思考角度与我们预期一致,我们对三个问题均使用One-Shot或Few-Shot的方式设计提示词以提升模型回答准确度。此外,为确保使模型回答具有一定区分度,同时为保证回答的分布均衡性,我们共搜集了5篇国金证券研究所发布的个股研报摘要,研报文本内容在上述方面具有一定差异性,从而进行评估对比。 图表2:测评所用研报文本 研报所属行业 研报标题 研报摘要文本 交通运输 唐山港(601000):港口主业量价齐升,分红仍有上升空间 环渤海核心港口,区位优势显著。公司是主导唐山市京唐港区建设和经营的大型港口企业,核心主业为港口装卸堆存业务,1H2023主业营收占比为87%。公司所经营港口区位优势显著,具体表现为自然条件优越、交通便捷以及腹地资源好,唐山市65%以上的钢铁产能是公司的优势货源腹地。2023Q1-Q3,公司营业收入同比增长1%。归母净利润同比增长16%。 看好公司专注主业,分红仍有上升空间。2020年以来公司陆续剥离非核心业务,公司盈利能力随之提升,2023Q1-Q3毛利率提升至49%,为可比公司第一。公司专注主业以来现金留存更多,2022年分红比例提升至70%,当前股息率为5.8%,均为可比公司第一。我们认为公司未来分红提升主要源于大股东资金压力。近年来公司控股股东唐山实业有息负债规模大幅上升,其子公司亦有亏损,资金压力下公司分红仍有上升空间。 港口整合持续推进,行业迈入新时期。我们复盘了港口行业自2000年以来的发展历程,在2016年后港口整合趋于频繁,行业迈入新时期。港口整合旨在消除以往同区域内港口激烈竞争,从过往案例来看,港口整合对区域内港口企业毛利率和装卸费率有显著提升作用,营口港整合后第一年单吨收入同比提升60%。 腹地资源提供支撑,港口主业量价齐升。1)吞吐量:公司经营主要货种为铁矿石、钢材及煤炭。矿石和钢材货种主要看腹地内钢铁产量,今年以来唐山市钢企开工率处于高位,我们看好唐山市钢铁产量增长带动公司矿石、 金融工程专题报告 敬请参阅最后一页特别声明 4 扫码获取更多服务 研报所属行业 研报标题 研报摘要文本 钢材货种吞吐量增长。在秦皇岛港战略转型带来竞争格局优化以及“北煤南运”运量增长下,我们看好公司煤炭吞吐量迎来增长。预计2023-2025年公司货物吞吐量同比增速分别为11%/4%/4%。2)费率:2022年河北省完成港口整合,同区域内竞争格局改善,我们看好整合后公司装卸费率短期内可上升。预计2023-20225年公司港口主业营收同比增速为20%/5%/5%。 预计公司2023-2025年归母净利润分别为20.9亿元、22.0亿元、23.4亿元,对应PE分别为9.8x、9.3x、8.7x。参考可比公司2024年平均PE倍数10.5x,由于公司股息率高更具配置性价比,给予公司2024年11倍估值,目标价格为4.08元,首次覆盖给予“买入”评级。 港口腹地经济波动风险;人工成本大幅上升风险;环保政策趋严风险;港口费率管制风险。 医药 华东医药(000963):医美板块快速增长,创新管线兑现可期 2024年4月17日,公司发布2023年年度报告。2023年公司全年实现营业收入406.24亿元,同比增长7.71%;实现归属于上市公司股东的净利润28.39亿元,同比增长13.59%;实现扣非归母净利润27.37亿元,同比增长13.55%。分季度看,2023年第四季度公司实现营业收入102