AI智能总结
R1推理性能评测推理性能评测20250122_导读导读 2025年01月22日21:14 关键词关键词 国金金融工程RE模型OpenAI OE模型推理性能测评金融领域行业概念股自然语言推理金融文本分析投资框架API接口编程开源模型深度思考模式 全文摘要全文摘要 国金金融工程团队对一款名为DeepSyc的最新推理模型(RE模型)进行了全面评测,同时将其与ChatGPT的OE模型进行了对比。测试包括一系列脑筋急转弯问题和金融领域实际问题,旨在评估模型 解能力、推理准确度方面优于V3版本和ChatGPT OE模型。团队还探讨了该模型的应用便捷性及成本效益,讨论了通过网页、APP或API接口使用该模型的可行性。 对标对标OpenAI o1,,Deepseek- R1推理性能评测推理性能评测20250122_导读导读 2025年01月22日21:14 关键词关键词 国金金融工程RE模型OpenAI OE模型推理性能测评金融领域行业概念股自然语言推理金融文本分析投资框架API接口编程开源模型深度思考模式 全文摘要全文摘要 国金金融工程团队对一款名为DeepSyc的最新推理模型(RE模型)进行了全面评测,同时将其与ChatGPT的OE模型进行了对比。测试包括一系列脑筋急转弯问题和金融领域实际问题,旨在评估模型 解能力、推理准确度方面优于V3版本和ChatGPT OE模型。团队还探讨了该模型的应用便捷性及成本效益,讨论了通过网页、APP或API接口使用该模型的可行性。 章节速览章节速览 ● 00:00国金金融工程研讨:国金金融工程研讨:DeepSeek RE模型性能测评模型性能测评在国金金融工程研讨会上,主讲人分享了针对DeepSeekRE模型的最新性能测评结果。在2024年12 月,使用DeepSeek V2.5版本完成金融领域复杂任务时,发现其不仅成本低廉,性能也相当出色。随后发布的V3版本,在性能上有了显著提升,且价格仍保持在优惠状态。 ● 01:47 Deep Seek RE模型性能评测模型性能评测在1月20日,Deep Sit公司发布了基于DC V3模型的最新推理模型Deep Seek RE ,该模型通过结合大模型强化学习实现了深度思考能力。测试中,RE模型在逻辑思维能力和金融文本分析能力上表现出色,对于脑筋急转弯类型的问题能给出准确且符合直观感受的答案,优于V3模型和ChatGPT OE模型。 ● 06:29大语言模型对上市公司概念归属和基金经理投资框架的分析能力评测大语言模型对上市公司概念归属和基金经理投资框架的分析能力评测本次评测关注大语言模型在两个关键任务上的表现:一是根据上市公司的主营业务描述,判断其是否属于某个行 业概念的产业链环节,特别是低空经济概念;二是总结基金经理的调研纪要,提炼出其投资框架。通过比较DeepCRE模型、V3模型和ChatGPT OE模型,发现Deep CRE模型在判断上市公司概念归属方面表现出色,能够准确地将化纤企业归类为低空经济的上游原材料与零部件环节。在基金经理投资框架的提取任务中,所有模型都能提供一定的信息,但DeepCRE模型因其简洁且精准的表述获得较高评价,显示出在复杂问题推理和金融文本分析方面的能力。尽管V3模型也能提供详细信息,但其表达略显啰嗦,专业性略逊于Deep CRE模型。ChatGPT OE模型虽然能给出答案,但在全面性和专业性方面有所不足。 ● 10:38 DeepSeek RE模型更新及使用方法介绍模型更新及使用方法介绍DeepSeek的RE模型已于1月20号晚上在网页端更新,手机APP 端也已同步,提供免费且无使用次数限制的最新RE模型使用。对于需要大量运行大模型的用户,可以通过调用API接口实现,API接口通过修改代 码模板中的模型名启用,支持四倍链内容输出,不计入64千上下文长度限制。价格方面,RE模型相对于其他模型如ChatGPT和OE模型等有明显优势,输入和输出价格均低于市场同类模型。此 外,DeepSeek也开放了RE模型的两个子模型RE zero和RE的核心权证,以及更新了用户协议,允许模型输出用于训练其他模型。本次更新展示了DeepSeek在提高模型使用便捷性和经济性方面的努力。 问答回顾问答回顾 发言人发言人问:问:deep seek的的V3模型相较于之前的版本,在性能上有何提升?模型相较于之前的版本,在性能上有何提升? 发言人答:deep seek V3模型相对于V2.5版本能力有了大幅提升,价格目前处于优惠状态。 发言人发言人问:问:deep seek RE模型是什么时候上线的,它的基础模型是什么?你们对模型是什么时候上线的,它的基础模型是什么?你们对deep seek RE模型的性模型的性能进能进行了怎样的测评?行了怎样的测评? 发言人答:deep seek RE模型在2024年1月20日晚上正式上线,它是基于DC V3模型为基础,通过结合大模型强化学习和高效的训练算法,成功实现了深度思考能力。我们使用了常见逻辑思维能力问题对RE模型进行了测评,包括脑筋急转弯类型的问题,以评估其推理能力是否优于V3模型和ChatGPT OE模型。 务,务,deep seek RE模型的表现如何?模型的表现如何? 发言人答:测试结果显示,deep seek RE模型在解决复杂、绕口的脑筋急转弯问题时,推理能力强劲且答案准确,优于V3模型和ChatGPT OE模型。在金融文本分析任务中,deep seek RE模型根据上市公司的主营业务内容判断其是否属于特定行业概念股(如低空经济概念),其判断结果与V3模型一致,均能给出准确答案,而ChatGPTOE模型的判断结果并不符合预期。 发言人发言人问:在第一个脑筋急转弯问题中,问:在第一个脑筋急转弯问题中,deep seek RE模型和其他模型的回答结果如何?在第二个脑筋模型和其他模型的回答结果如何?在第二个脑筋急急转弯问题中,转弯问题中,deep seek RE模型和其他模型的回答结果如何?模型和其他模型的回答结果如何? 发言人答:在第一个问题中,deep seek RE模型给出的标准答案是直接拔掉浴缸排水塞子让水流出去,而V3模型和ChatGPT OE模型则分别给出用勺子和碗舀水以及例行检查等不符合直观感受的答案。第二个问题中,deep seekRE模型给出了正确的答案“警察需要打车”,而V3模型和ChatGPT OE模型的答案均为常规交通违法检查等不符合题意的结论。 发言人发言人问:在对问:在对RE模型、模型、V3模型和模型和ChatGPT的的OE模型进行测评时,它们能否准确总结出基金经理投资模型进行测评时,它们能否准确总结出基金经理投资框框架?架? 发言人答:是的,三个模型都能提供基金经理投资框架的结果,但具体内容存在差异。其中,RE模型在提取信息的专业化和概括性上表现出色,语言表达精准且全面;V3模型也能总结出相关内容,但表达可能较为啰嗦,专业性不如RE模型;OE模型的结果则过于简洁,未能全面覆盖基金经理的特征。 发言人发言人问:问:deep CRE模型在复杂问题推理和金融文本分析方面表现如何?模型在复杂问题推理和金融文本分析方面表现如何? 发言人答:使用感受表明,deep CRE模型在复杂问题推理以及金融文本分析上表现出不错的表现,可以对标ChatGPT和OE模型。 发言人发言人问:如何使用问:如何使用deep seek RE模型?模型? 发言人答:目前网页端和手机APP端均已支持深度思考模式,用户可以免费调用最新版RE模型完成各类推理任务,且无使用次数限制。同时,对于大量运行大模型的客户,可通过API接口调用,并可获得大 模型反馈结果及中间思维链,API接口按token收费,上下文长度为64千,但输出的思维链内容不计入该范围。此外,RE模型相对于V3模型价格上有优势,且RE模型的核心权证已同步公开并允许用户通过模型调用方式训练其他模型。 发言人发言人问:关于问:关于RE模型与其他模型的价格对比如何?模型与其他模型的价格对比如何? 币,而OE模型的相应价格是7.5美元,换算成人民币是几十倍的价格。同时,RE模型的百万token输出价格也是16元人民币,对比ChatGPT的OE模型的60美金,价格优势明显。