AI智能总结
OpenAI发布最新推理模型o3-mini 2025年1月31日,OpenAI宣布发布最新的推理模型o3-mini,这是继o1、o1-mini之后,首个小型推理模型。以中等推理能力版本进行测试,o3-mini在AIME和GPQA等最具挑战性的推理和智能评估中与o1的表现相当。OpenAIo3-mini模型在保持推理能力的基础上,提高了响应速度。在A/B测试中,o3-mini的响应速度比o1-mini提高了24%。 经过若干推理问题测试,我们发现,DeepSeek-R1、o3-mini、o1模型推理能力基本相当,均能对复杂逻辑问题进行正确推理。经过金融文本分析能力测试,在我们设置的金融文本分析任务中,三个模型均能正确完成任务,但是从遵守提示词要求和输出内容丰富程度来说,DeepSeek-R1模型表现最佳。 ETF市场回顾 从一级市场资金流动情况来看,节前一周(2025.01.20-2025.01.27)已上市ETF资金净流入合计7.58亿元,其中债券型ETF资金净流入39.22亿元,股票型ETF资金净流入6.13亿元,商品型ETF资金净流入2.50亿元,跨境ETF资金净流出40.27亿元。 在股票型ETF中,宽基ETF上周资金净流入-5.47亿元,上周A500ETF资金净流入58.51亿元,中证1000ETF资金净流入33.98亿元,科创50ETF资金净流入7.40亿元,中证500ETF资金净流入5.42亿元,中证2000ETF资金净流入2.91亿元。 主题行业ETF上周资金净流入-9.00亿元。上周金融地产、消费、周期板块ETF资金净流入额分别为6.28亿元、3.17亿元、2.94亿元,高端制造、医药生物、科技板块ETF资金净流出额分别为0.01亿元、3.04亿元、17.22亿元。 节前一周共有7只ETF产品申报,其中包含集中申报的3只上证科创板综合ETF及3只上证科创板综合价格ETF。 主动权益及增强指数型基金表现跟踪 主动权益型基金中上周表现前五名的基金包括:汇安成长优选A(005550.OF)、德邦稳盈增长A(004260.OF)、招商优势企业A(217021.OF)、交银科技创新A(519767.OF)、平安鑫安A(001664.OF),它们的收益率分别为12.85%、10.12%、9.55%、9.49%、8.95%。 上周主动量化基金上周收益率中位数为0.67%,近1年以来收益率中位数为11.66%。上周TMT主题基金业绩相对较好,收益率中位数为1.55%。近1年以来,TMT与金融地产行业主题基金业绩领先,收益率中位数分别为29.54%、23.61%。 在沪深300增强指数型基金中,长信沪深300指数增强A(005137.OF)上周表现最佳,相对基准的超额收益率为1.27%。 在中证500增强指数型基金中,中欧中证500指数增强A(015453.OF)上周表现出色,相对业绩基准的超额收益率为1.15%。在中证1000增强指数型基金中,大成中证1000指数增强A(018661.OF)上周取得了1.48%的超额收益率。在国证2000增强指数型基金中,鹏华国证2000指数增强A(017892.OF)表现最优,取得了1.37%的超额收益率。 风险提示 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险;基金历史业绩不代表未来;ETF二级市场价格波动风险;基金相关信息及数据仅作为基金研究使用,不作为募集材料或者宣传材料; 大语言模型随机性风险。 1、OpenAI发布最新推理模型o3-mini 2025年1月31日,OpenAI宣布发布最新的推理模型o3-mini,这是继o1、o1-mini之后,首个小型推理模型,据官网介绍,这是OpenAI最具成本效益的模型。本次发布的o3-mini模型,根据推理能力不同,包含low、medium、high三个选项,使用者可以在推理能力和速度直接进行选择和权衡。虽然o1模型仍然是更广泛的常识推理模型,但o3-mini为需要精确和速度的技术领域提供了专门的替代方案。 与o1模型类似,OpenAI o3-mini针对STEM推理进行了优化。中等推理能力版本的o3-mini在数学、编码和科学方面与o1的性能相当,同时响应速度更快。专家测试者的评估显示,与OpenAI o1-mini相比,o3-mini生成的答案更准确、更清晰,推理能力更强。以中等推理能力版本进行测试,o3-mini在AIME和GPQA等最具挑战性的推理和智能评估中与o1的表现相当。 图表1:通用知识领域测评结果 数学竞赛:在低推理能力版本(low)下,OpenAI o3-mini的性能与OpenAI o1-mini相当;在中等推理能力版本(medium)下,o3-mini的性能与o1相当;在高推理能力版本(high)下,o3-mini的性能优于OpenAI o1-mini和OpenAI o1。 编程竞赛:在Codeforces竞赛编程中,OpenAI的o3-mini随着推理能力的增加,逐渐获得更高的Elo分数,均优于o1-mini。在中等推理能力版本(medium)下,它达到了与o1相当的表现。 图表2:OpenAI推理模型在数学竞赛中的测评结果 图表3:OpenAI推理模型在编程竞赛中的测评结果 OpenAI o3-mini模型在保持推理能力的基础上,提高了响应速度。在A/B测试中,o3-mini的响应速度比o1-mini提高了24%,平均回答时长为7.7秒,而o1-mini的平均时长为10.16秒。 图表4:延迟时间对比:o1-mini vs o3-mini 1.1模型推理能力测评 首先,为了对比DeepSeek-R1模型、OpenAIo1模型、OpenAIo3-mini模型的推理能力差异,我们对一些常见的考察逻辑思维能力的问题进行了测试。 1)问题1:给你一个装满水的浴缸,旁边有一个勺子和一个碗,你怎样把缸里的水排出去?从各个模型的答案来看,DeepSeek-R1、OpenAI o1、OpenAI o3-mini三个模型均给出了标准答案。 图表5:DeepSeek-R1对问题1的答案 图表6:OpenAIo3-mini对问题1的答案 图表7:OpenAIo1模型对问题1的答案 2)问题2:假如你是一个逻辑推理专家,请推理如下爱因斯坦谜题: 在一条街上有颜色互不相同的五栋房子,不同国籍的人分别住在这五栋房子力,每人抽不同品牌的香烟,喝不同的饮料,养不同的宠物。已知如下情况: 英国人住红色房子里。2.瑞典人养狗。3.丹麦人喝茶。4.绿色房子坐落在白色房子的左面。5.绿色房子的主人喝咖啡。6.抽Pall Mall香烟的人养鸟。7.黄色房子的主人抽Dunhill香烟。8.挪威人住第一间房子。9.五座房子中间的那座的主人喝牛奶。10. 抽Blends香烟的住在养猫人的隔壁。11.养马的人住在抽Dunhill香烟者的隔壁。12. 抽Blue Master香烟的喝啤酒。13.德国人抽Prince香烟。14.挪威人住的房子在蓝色房子的隔壁。15.抽Blends香烟的人有一个喝水的邻居。问:谁养鱼? 从问题2的答案来看,DeepSeek-R1、OpenAIo1、OpenAI o3-mini均获得了正确的推理答案,即德国人养鱼。 图表8:DeepSeek-R1对问题2的答案 图表9:OpenAIo3-mini对问题2的答案 图表10:OpenAIo1对问题2的答案 3)问题3:鬼谷子随意从2-99中选取了两个数,他把这两个数的和告诉了庞涓,把这两个数的乘积告诉了孙膑,但庞涓和孙膑不知道对方获得的数字。第二天,庞涓自信的跟孙膑说,虽然我不知道这两个数字是什么,但是我知道你一定也不知道。随后,孙膑说:“那我知道了”。庞涓说:“那我也知道了”。请问这两个数是什么? 对于这样一道逻辑推理问题,DeepSeek-R1、OpenAI o1、OpenAI o3-mini均获得了正确的推理答案。 图表11:DeepSeek-R1对问题3的答案 图表12:OpenAI o3-mini对问题3的答案 图表13:OpenAI o1对问题3的答案 1.2金融文本分析能力测评 为了测试三个模型在金融文本分析领域的推理能力,我们对模型是否能够根据上市公司主营业务文本推断概念股、是否能够准确提取基金经理投资框架分别进行了测试。 首先,我们测试了,DeepSeek-R1模型、OpenAIo1模型、OpenAIo3-mini模型是否能够根据上市公司主营业务判定概念股,考验其推理判定能力。我们以“低空经济”概念为例,在提示词中给出了低空经济及其产业链各环节的描述,并提出了判别标准,让大语言模型结合上市公司主营业务情况进行判断。 根据测试结果,三个模型给出的答案与我们主观上的判定结果一致,并且准确输出该股票所属的低空经济产业链的具体环节,但OpenAI o3-mini并未能严格按照要求的格式进行输出,输出了多余的“分析说明”内容。 图表14:DeepSeek-R1对低空经济概念股的判定结果 图表15:OpenAI o3-mini对对低空经济概念股的判定结果 图表16:OpenAIo1模型对低空经济概念股的判定结果 我们也对三个大语言模型能否准确梳理基金经理调研纪要中的投资框架进行了测评。我们要求大模型从整体投资理念、资产配置框架、行业配置框架、风格配置框架、选股框架、交易框架、风控框架等多个维度对XX基金经理调研纪要进行信息总结提取,并严格限定了输出结果的格式。 从结果来看,三个模型均能按照提示词要求的格式和内容提取到基金经理投资框架信息。 投资框架的每一个部分都能准确的从纪要中找到对应的内容。但相比之下,DeepSeek-R1模型和OpenAI o3-mini模型对投资框架的梳理总结性强,每一个要点都能全面的进行信息提取,语言表达较为专业。而OpenAIo1模型总结的内容较为简洁,但不及其他两个模型输出的投资框架内容丰富。 图表17:DeepSeek-R1对调研纪要的提取结果 图表18:OpenAI o3-mini对对调研纪要的提取结果 图表19:OpenAIo1模型对调研纪要的提取结果 综上,在我们设置的金融文本分析任务中,三个模型均能正确完成任务,但是从遵守提示词要求和输出内容丰富程度来说,DeepSeek-R1模型表现最佳。 1.3模型使用:网页、API OpenAIo3-mini模型是OpenAI首次向免费用户提供的推理模型,免费用户可在网页端试用该模型。而plus用户对推理模型的使用限制也从o1-mini的每天50条限制提高到每天150条。Pro用户可以无限制的使用及o3-mini及更高版本的o3-mini-high模型。此外,o3-mini模型现在可与搜索功能配合使用,与DeepSeek-R1模型接近。此前o1及o1-mini模型并不具备此功能。 API价格方面,OpenAIo3-mini模型的价格较o1及o1-mini模型大幅下降,不及o1模型的十分之一。尽管o3-mini模型价格下降,但国产的DeepSeek-R1模型在价格上仍具有极大的优势。 图表20:OpenAIo3-mini模型API接口价格 2、DeepSeek-R1模型的核心技术贡献 DeepSeek-R1模型在推理能力、思维链生成与降低成本等多个模型性能方面有较大提升,并在一定程度上指明了大模型的技术发展路径。以下我们主要在技术层面探讨DeepSeek-R1模型及其相关研究带来的贡献。 2.1纯强化学习路径的可行性 DeepSeek首次验证了在后训练阶段纯强化学习方法能够为大模型带来能力提升。在此之前,后训练阶段对模型进行增强的思路主要是微调,通过对模型进行监督微调(SFT)来增强其性能。然而SFT需要大量的标注数据,成本高、耗时长且难以使用大量数据进行微调。 DeepSeek团队直接在基础模型(base model