行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

量化漫谈系列之九：金融文本解析评测：Llama3是最强开源模型吗？

2024-04-27 高智威,王小康国金证券 Hallam贾文强

Llama3发布迎来广泛关注近日，Meta重磅推出了Llama3大模型，一度被评为最强开源模型。当前的8B版本模型在五项基准上得分超过了Gemma7B-1t和Mistral7BInstruct。Llama370B三项基准超过GeminiPro1.5和Claude3Sonnet。在模型架构方面，Llama3采用了相对标准的Decoder-OnlyTransformer架构，使用128K的tokenizer，能够有效地编码语言。数据层面上，使用了超过15T的token进行预训练，是Llama2的7倍。并在8192个token的序列上对模型进行训练，使用掩码来确保自注意力不会跨越文档边界。此外，为了应对多语言使用情况，Llama3的预训练数据集中有超过5%的部分是高质量的非英语数据，涵盖30多种语言。除了目前已经推出的Llama38B和70B之外，Meta官方表示，未来将会推出400B+版本，有望能达到GPT4同样的水准。 GPT4模型依旧领先，期待后续Llama3400B版本有所提升我们针对目前市场上主流的开源模型及GPT进行测评对比，以二级市场投研的视角评判并分析各开源模型的优劣，以给投资者选择模型进行部署使用时提供参考依据。我们共选择5篇来自不同行业的个股研报，设计3个不同角度的问题：作者对该股票的看好程度、公司技术优势以及政策对行业产生影响。发现：Llama3在回答时无法全部使用中文回答，且部分回答的引用内容和逻辑推理过于牵强，与人类的一般判断标准具有一定偏差。而InternLM回答错误率明显更高，在多个问题上拒绝回答。在涉及行业技术壁垒的问题上，多次错误引用、错误推导，会给用户使用带来一定困扰。相较而言，ChatGLM3和Qwen国产开源大模型表现出色，大部分回答对于文本的引用全面、清晰富有条理，能准确判断用户意图和文本观点，具有较高的可信度和参考价值，是部署开源大模型的较好选择。 GPT4在所有模型中拔得头筹，在所有的判断类问题中均能完整、准确地分析文本中所涉及内容，其推理过程和判断标准也与人类最为相近。对于部分大模型在回答某些问题时存在的“无中生有”倾向，GPT4对于文中未提及内容会直接给出否定回答，具有相对客观的回答标准。风险提示 1.大模型回答具有一定随机性，每次回答无法保证结果完全一致，需要人为辅助判断作为决策依据。 2.本文涉及测评问题未针对模型擅长领域调整，可能存在不同领域下模型表现相对优劣出现变化。内容目录一、测评背景及设定3 1.国金金工金融文本解析应用评估体系3 2.测评选用开源大模型6 二、测评结果对比6 1.结果汇总6 2.回答原文9 风险提示15 图表目录图表1：国金金工金融文本应用评估体系设计3 图表2：测评所用研报文本3 图表3：测评所用开源大模型6 图表4：各模型回答总结7 图表5：各模型对研报作者看好程度的打分对比8 图表6：各模型对技术水平问题的判断8 图表7：各模型对政策影响问题的判断8 图表8：部分模型回答原文9 一、测评背景及设定近日，Meta重磅推出了Llama3大模型，一度被评为最强开源模型。在模型架构方面，Llama3采用了相对标准的Decoder-OnlyTransformer架构，使用128K的tokenizer，能够有效地编码语言。数据层面上，使用了超过15T的token进行预训练，是Llama2的7倍。并在8192个token的序列上对模型进行训练，使用掩码来确保自注意力不会跨越文档边界。此外，为了应对多语言使用情况，Llama3的预训练数据集中有超过5%的部分是高质量的非英语数据，涵盖30多种语言。除了目前已经推出的Llama38B和70B之外，Meta官方表示，未来将会推出400B+版本。而当前的8B版本模型在五项基准上得分超过了Gemma7B-1t和Mistral7BInstruct。Llama370B三项基准超过GeminiPro1.5和Claude3Sonnet。不过该模型一个明显的缺陷在于上下文窗口仅有8K，落后于行业内的平均水平。当面对较长的多轮问答任务或基于长文本进行分析总结类的任务时，模型的表现可能会受到影响。在本篇报告中，我们将针对目前市场上主流的开源模型进行测评对比，以二级市场投研的视角评判并分析各开源模型的优劣，以给投资者选择模型进行部署使用时提供参考依据。 1.国金金工金融文本解析应用评估体系在投资研究领域，大模型的一个重要应用场景是针对海量的信息及文本进行针对性地提炼总结信息、分析作者的观点、并对投资者关心的问题快速定位给出答案。因此，我们设计了基于研报读取问答场景下的三个问题，对所测评开源大模型使用相同的提示词分别提问，最终评判各模型在相应任务上的表现。以下为我们设计的金融文本应用评估体系主要内容：图表1：国金金工金融文本应用评估体系设计金融分析评估维度评估设计思路截至大模型强大的文本分析能力，评估研报作者对于股票的整体看好程度。进而利用模型判断辅结合文本披露信息分析作者观点助作为投资决策依据，可以作为舆情因子等进行横截面选股或聚合后进行其他策略构建。判断上市公司的技术水平及行业壁垒通过文本内容判断上市公司的技术水平在行业内的地位，进而给公司的投资逻辑提供决策基础。判断公司所处行业是否存在相关政策影判断股票所属行业或板块是否存在相关政策落地，从而对未来发展格局可能产生较大影响，部分响行业的竞争格局和发展状况政策影响可能会在一定程度上主导股票价格变化。来源：国金证券研究所考虑到目前大模型在面对复杂问题时的有限能力，确保模型的思考角度与我们预期一致，我们对三个问题均使用One-Shot或Few-Shot的方式设计提示词以提升模型回答准确度。此外，为确保使模型回答具有一定区分度，同时为保证回答的分布均衡性，我们共搜集了5篇国金证券研究所发布的个股研报摘要，研报文本内容在上述方面具有一定差异性，从而进行评估对比。图表2：测评所用研报文本研报所属研报标题研报摘要文本行业环渤海核心港口，区位优势显著。公司是主导唐山市京唐港区建设和经营的大型港口企业，核心主业为港口装卸堆存业务，1H2023主业营收占比为87%。公司所经营港口区位优势显著，具体表现为自然条件优越、交通便捷以及腹地资源好，唐山市65%以上的钢铁产能是公司的优势货源腹地。2023Q1-Q3，公司营业收入同比增长1%。归母净利润同比增长16%。交通运输唐山港（601000）：港口主业量价齐升，分红仍有上升空间看好公司专注主业，分红仍有上升空间。2020年以来公司陆续剥离非核心业务，公司盈利能力随之提升，2023Q1-Q3毛利率提升至49%，为可比公司第一。公司专注主业以来现金留存更多，2022年分红比例提升至70%，当前股息率为5.8%，均为可比公司第一。我们认为公司未来分红提升主要源于大股东资金压力。近年来公司控股股东唐山实业有息负债规模大幅上升，其子公司亦有亏损，资金压力下公司分红仍有上升空间。港口整合持续推进，行业迈入新时期。我们复盘了港口行业自2000年以来的发展历程，在2016年后港口整合趋于频繁，行业迈入新时期。港口整合旨在消除以往同区域内港口激烈竞争，从过往案例来看，港口整合对区域内港口企业毛利率和装卸费率有显著提升作用，营口港整合后第一年单吨收入同比提升60%。腹地资源提供支撑，港口主业量价齐升。1）吞吐量：公司经营主要货种为铁矿石、钢材及煤炭。矿石和钢材货种主要看腹地内钢铁产量，今年以来唐山市钢企开工率处于高位，我们看好唐山市钢铁产量增长带动公司矿石、研报所属行业研报标题研报摘要文本钢材货种吞吐量增长。在秦皇岛港战略转型带来竞争格局优化以及“北煤南运”运量增长下，我们看好公司煤炭吞吐量迎来增长。预计2023-2025年公司货物吞吐量同比增速分别为11%/4%/4%。2）费率：2022年河北省完成港口整合，同区域内竞争格局改善，我们看好整合后公司装卸费率短期内可上升。预计2023-20225年公司港口主业营收同比增速为20%/5%/5%。预计公司2023-2025年归母净利润分别为20.9亿元、22.0亿元、23.4亿元，对应PE分别为9.8x、9.3x、8.7x。参考可比公司2024年平均PE倍数10.5x，由于公司股息率高更具配置性价比，给予公司2024年11倍估值，目标价格为4.08元，首次覆盖给予“买入”评级。港口腹地经济波动风险；人工成本大幅上升风险；环保政策趋严风险；港口费率管制风险。 2024年4月17日，公司发布2023年年度报告。2023年公司全年实现营业收入406.24亿元，同比增长7.71%；实现归属于上市公司股东的净利润28.39亿元，同比增长13.59%；实现扣非归母净利润27.37亿元，同比增长13.55%。分季度看，2023年第四季度公司实现营业收入102.29亿元，同比增长3.79%，实现归属于上市公司股东的净利润6.50亿元，同比增长25.51%；实现扣非归母净利润5.77亿元，同比增长13.29%。经营分析四大业务板块多点发力，医美板块快速增长。公司医药工业、医药商业、医美、工业微生物四大业务板块多点发力，合力推动业绩增长。公司医美业务实现营业收入24.47亿元（剔除内部抵消因素），同比增长27.79%；其中全资子公司英国Sinclair实现销售收入14958万英镑（约13.04亿元人民币），同比增长14.49%；国内医美全资子公司欣可丽美学报告期内累计实现收入10.51亿元，同比增长67.83%。截至2023年底，核心产品华东医药（000963）：医美板块快医药 Ellansé®伊妍仕®官方合作医院数量已超600家，培训认证医生数量超过1100人，行业影响力和竞争力不断提升。坚决践行转型创新战略，研发管线兑现可期。公司继续深耕内分泌、自身免疫和肿瘤三大治疗领域，坚持“自速增长，创新研+引进”双轮驱动，不断丰富产品管线。截至目前，公司创新产品管线已超60项，其中9款，产品处于Ⅲ期管线兑现可期完美世界（002624）：传媒23年超额现金分红，静待新游上线临床或上市申报阶段。在内分泌领域，公司通过自主研发加引进吸收方式打造了以GLP-1等临床主流治疗靶点为核心的创新药和差异化仿制药产品管线，目前商业化及在研产品达到二十余款。在自身免疫领域，公司已拥有在研或海外已上市的生物药和小分子创新产品10余款。在肿瘤领域，公司重点布局ADC高壁垒研发平台和管线，其中ELAHERE®（索米妥昔单抗注射液）是全球首创ADC药物，已提交BLA注册申请，并被纳入国内优先审评品种名单。公司研发工作顺利推进，在研管线兑现可期。盈利预测、估值与评级我们维持2024-2026年盈利预期，预计公司分别实现归母净利润33.6亿元（+18%）、39.4亿元（+17%）、45.7亿元（+16%）。2024-2026年公司对应EPS分别为1.92、2.25、2.61元，对应当前PE分别为16、13、12倍。维持“买入”评级。风险提示产品研发进度不及预期；产品市场竞争加剧导致净利率下滑风险；市场推广不及预期风险等。 2024年4月15日，公司发布23年年度业绩，全年营收77.9亿元/yoy+1.6%，归母净利4.9亿元/yoy-64.3%，扣非归母2.1亿元/yoy-69.6%。公司计划本报告期分配利润，现金分红0.46元（含税）/股，现金分红总额8.73亿元。经营分析收入：游戏短期承压，积极拥抱AI；影视高增。1）游戏：23年营收66.7亿元/yoy-7.9%：其中，PC端22.1亿/yoy+16.2%，表现出强韧性及生命力；移动端40.9亿/yoy-19.3%，主要系老游戏流水自然下滑+新品上线较少；主机端1.0亿/yoy+310.2%，预计主要系《幻塔》等主机游戏带来增量；游戏相关其他业务

点击免费查看完整报告

量化漫谈系列之九：金融文本解析评测：Llama3是最强开源模型吗？

你可能感兴趣

量化漫谈系列之十四：DeepSeek部署与蒸馏模型推理评测

量化漫谈系列之二十一：Hermes Agent解析：自进化智能体范式与OpenClaw对比评测

基金量化观察：金融文本推理评测：o3-mini能超越DeepSeek-R1吗

量化漫谈系列之十六：Cursor的更强搭档：Claude 3.7 sonnet代码生成评测

基金量化观察：GEMINI 3模型金融文本分析深度评测

量化漫谈系列之二十：DeepSeek-V4发布：超长文本分析与Agent能力的全新进化

量化漫谈系列之十：RAG-ChatGPT读季报：公募基金经理一致观点解析

量化漫谈系列之九：如何用FOF组合跟上微盘股指数？

量化漫谈系列之十九：AI选股模型失效的三种应对方法

宏观固收量化研究系列之（九）：基于神经网络模型的利率择时