您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:国金金融工程金融文本测评o3mini能超越DeepSeekR1吗20250206 - 发现报告

国金金融工程金融文本测评o3mini能超越DeepSeekR1吗20250206

2025-02-06 未知机构 Cc
报告封面

超越超越DeepSeek-R1吗?吗?20250206_导读导读 2025年02月06日22:55 关键词关键词 国金证券赵岩金融文本推理测评OpenAI投资建议STEM推理数学竞赛编程竞赛金融工程团队投资框架逻辑推理能力用户体验 全文摘要全文摘要 在近期的研讨会上,国金证券金融工程团队分享了他们对O3ChatGPT的O3mini模型与deep seekRE模型的比较测试结果。测试聚焦于模型的推理能力、金融文本分析能力及技术贡献。结果显示,O3mini不仅在精度和速度上提供有效的替代方案,且在数学编码、科学领域的表现与OE模型相当,但响应速度更快。 国金金融工程国金金融工程–金融文本测评:金融文本测评:o3-mini能能 超越超越DeepSeek-R1吗?吗?20250206_导读导读 2025年02月06日22:55 关键词关键词 国金证券赵岩金融文本推理测评OpenAI投资建议STEM推理数学竞赛编程竞赛金融工程团队投资框架逻辑推理能力用户体验 全文摘要全文摘要 在近期的研讨会上,国金证券金融工程团队分享了他们对O3ChatGPT的O3mini模型与deep seekRE模型的比较测试结果。测试聚焦于模型的推理能力、金融文本分析能力及技术贡献。结果显示,O3mini不仅在精度和速度上提供有效的替代方案,且在数学编码、科学领域的表现与OE模型相当,但响应速度更快。在复杂逻辑推理问题的解答上,三款模型均表现出色。金融文本分析能力测试中,O3 mini与deep seek RE模型在准确性和专业度上领先。此外,O3 mini的价格优势和与搜索功能的结合使用也引起了关注。团队强调,将持续关注大语言模型的研究,以推动金融工程领域的进步。 章节速览章节速览 ● 00:00 O3 Mini模型与模型与Deep Seek RE模型推理性能对比模型推理性能对比 比。O3 Mini模型作为OpenAI最具成本效益的小型推理模型,提供low、medium、high三种推理能力选项,使用者可根据需求在精度和响应速度之间权衡。在中等版本的对比中,O3 Mini在数学编码和科学方面的性能与OE模型相当,但响应速度更快,且专家评估显示其生成的答案更准确、清晰,推理能力更强。在数学竞赛及编程竞赛等测评中,O3Mini的表现也优于OE模型,尤其是在高版本的推理能力下,其性能优势更加明显,响应速度相比OEMini提高了24%。 ● 03:49 O3 Mini模型性能、价格与模型性能、价格与Deep CRE模型对比分析模型对比分析O3 Mini模型的平均响应时长为10.16秒,首次对免费用户提供推理服务,且在网页端可试用。OpenAI 账号分为免费、Plus和Pro三种类型,其中Plus用户的使用限制从50条提升至150条,而Pro用户可无限制使用Mini模型及更高级的O3 Mini High模型。O3 Mini模型新增搜索功能,与Deep CRE模型相似。通过Python等途径可调用O3 Mini的API接口实现自动化使用,其价格较OE和OE Mini大幅下降,仅为OE模型的十分之一,但相较于Deep CRE模型,价格仍较高,显示出Deep CRE模型在性价比上的优势。 ● 05:22复杂推理任务及金融文本分析的模型评估复杂推理任务及金融文本分析的模型评估本次评估针对O3 mini模型、deep RE模型以及OE模型在复杂推理问题和金融文本分析能力上的表现进行了深入考 察。在推理能力方面,通过测试包括如何排水、爱因斯坦的经典谜题和鬼谷子数字谜题等,三个模型均能给出正确答案,显示出了强大的逻辑推理能力。此外,评估还对金融文本分析能力进行了测试,重点关注模型在实际金融工作中能否提供有效帮助。整体而言,三个模型在复杂逻辑推理任务中的表现相当,且有望在金融文本分析领域发挥作用。 ● 08:43大语言模型在金融文本分析中的表现评估大语言模型在金融文本分析中的表现评估本次评估针对三个大语言模型在金融文本分析任务中的表现进行了详细对比。通过测试模型对上市公司主营业务 描述的判断,以及对基金经理调研纪要中投资框架的总结能力,发现这些模型均能准确完成任务,但各有所长。其中,Deepseek的RE模型在遵守提示词要求及内容丰富度上表现最佳,同时因其API价格较低且网页版免费,提 供更好的用户体验和性价比。OpenAI的O3 mini模型和OE模型虽也表现出较强的逻辑推理能力,但在听话程度和内容全面性方面稍逊一筹。 ● 12:31 Deep Seek RE模型的技术贡献与推理能力提升模型的技术贡献与推理能力提升Deep Seek RE 模型在技术层面实现了显著的突破,尤其在推理能力、分链生成与建立成本方面表现突出,为大模型的技术发展指明了方向。该模型首次证实了后训练阶段的纯强化学习方法能有效提升大模型的能力,与传统的监督微调相比,避免了大量标注数据的需求,降低了成本和时间消耗。Deep Seek团队在基础模型DPCV3上应用强化学习,迭代生成的D RE zero模型展现了显著的自我演化过程。此外,通过搭建包括冷启动、推理导向、启发学习等在内的完整训练流程,以及利用搜寻到的思维数据微调小模型(如千问、拉马),显著增强了小模型的推理能力。官方论文显示,经过蒸馏数据微调的小模型,在推理任务上的表现超越了OpenAI的OEmini模型,证明了大模型的推理思路可直接转移给小模型,使得小模型在较小的训练和推理开销下取得更优效果。 要点回顾要点回顾 O3 mini模型是否能超越模型是否能超越deep seek RE模型?模型? 根据我们的测评,O3mini模型在数学编码和科学方面与OE模型性能相当,但在中等版本下,其响应速度更快,并且生成的答案更准确、清晰,推理能力更强。在高版本下,O3mini模型的性能也优于OpenAI的OE模型。此外,O3mini首次提供给免费用户使用,API价格相比之前大幅下降,但仍然略高于国产的deep CRE模型。 O3 mini模型与模型与OE mini模型相比有何优势?模型相比有何优势? O3 mini模型在数学竞赛、编程竞赛等方面的表现优于OE mini模型,不仅在中等版本时具有更快的响应速度(提高24%),而且在高版本中,其推理能力更强,平均回答时长更短(7.7秒vs 10.16秒)。 O3 mini模型是否具备搜索功能,以及与其他模型有何不同?模型是否具备搜索功能,以及与其他模型有何不同? O3 mini模型的一个重大进步在于它可以与搜索功能配合使用,这是之前OE和OE mini模型所不具备的。而国产的deep CRE模型同样具备搜索功能,相比之下,O3 mini模型在价格上虽有下降,但仍不及deep CRE模型在性价比方面的优势。 三个推理模型(三个推理模型(O3 mini、、deep RE、、OE)在解决复杂逻辑推理问题上的表现如何?对于金融文本分析)在解决复杂逻辑推理问题上的表现如何?对于金融文本分析能能力,这三个模型的表现如何?力,这三个模型的表现如何? 在解决诸如浴缸排水、爱因斯坦谜题以及鬼谷子问题等复杂逻辑推理问题时,O3 mini、deep RE和OE三个模型均能正确解答,显示出它们在处理复杂逻辑推理问题上的能力相当。我们将对三个模型的金融文本分析能力进行测评,以考察它们是否能在日常金融文本分析工作中提供有效帮助。目前尚未给出具体测评结果,但后续将进行详细分析。 这些大语言模型是否能根据上市公司主营业务描述判断股票是否属于某个行业概念股?这些大语言模型是否能根据上市公司主营业务描述判断股票是否属于某个行业概念股? 词中的低空经济产业链描述准确判断股票所属的具体环节,并给出“是”或“否”的答案。其中,Deep SIC RE和O3mini模型在遵守提示词要求方面表现较好,未额外输出其他信息,而OE模型虽然给出了正确答案,但在要求之外也提供了分析理由。 大语言模型在总结基金经理调研纪要中投资框架方面的能力如何?大语言模型在总结基金经理调研纪要中投资框架方面的能力如何? 三个模型都能完成对投资框架的总结任务,但提取的内容可能存在差异。Deep SIC RE和O3 mini模型提取的内容更丰富、精准且全面,语言表达专业;而OpenAI OE模型总结的内容较为简洁,可能会忽略一些要点,但整体上具有较强的总结能力。 综合测评结果,哪款模型表现最优?综合测评结果,哪款模型表现最优? 综合来看,三个模型在逻辑推理能力和处理金融文本分析问题方面都表现出较强的能力,其中Deep SIC RE模型的表现最好。从提示词要求遵守和内容丰富程度考虑,该模型得分最高,且因其API价格较低且网页版免费使用,性价比最高。 deep SIC RE模型的技术贡献有哪些?模型的技术贡献有哪些? deep SIC RE模型在推理能力、分链生成与建立成本等多个方面有较大提升,首次验证了后训练阶段采用纯强化学习方法能够提升大模型能力,不同于传统的微调增强方法。团队还搭建了完整的训练流程,包括冷启动、推理导向、启发学习、句子采样与SFT等方法,并通过蒸馏数据微调开源小模型,显著增强其推理能力,证明了蒸馏技术可将大模型推理思路转移给小模型,在较小训练量下取得优于自身独立强化学习的效果。