您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰海通证券]:大模型持续迭代,产业应用不断优化 - 发现报告

大模型持续迭代,产业应用不断优化

金融2025-06-19孙坤、刘欣琦国泰海通证券阿***
AI智能总结
查看更多
大模型持续迭代,产业应用不断优化

股票研究/2025.06.19 大模型持续迭代,产业应用不断优化综合金融 ——金融科技行业AI应用双周报第十一期 刘欣琦(分析师)孙坤(分析师) 021-38676666021-38676666 登记编号S0880515050001S0880523030001 评级:增持 细分行业评级 股票研 究 行业双周 报 证券研究报 告 本报告导读: DeepseekR1版本更新,豆包支持视频通话。Wind推出指数策略增强AI平台, AICon大会上,金融科技AI产品突破显著。 投资要点: 投资建议:AI在证券投研及投顾、银行信贷和营销渠道、保险代理人赋能、小微商户点餐及营销、消费金融风控及客服等场景逐步落地,未来空间广阔。1)看好券商行业智能投研、智能投顾的发展前 景,推荐推出垂类模型及相关产品的头部公司同花顺、东方财富、九方智投控股,相关标的恒生电子。2)看好消费金融行业中智能客服、智能营销、智能风控场景的快速落地,推荐易鑫集团、百融云、奇富科技。3)看好银行和保险行业中依托大模型实现研发的提质增效及各业务场景的应用,相关标的长亮科技、宇信科技、中科软、新致软件。4)看好大模型在支付行业中商户点餐、营销等场景的应用,建议布局相关业务的支付公司,推荐拉卡拉、移卡。 DeepseekR1版本更新,豆包支持视频通话。5-6月全球AI技术 迭代加速:微软在Build大会将xAI的Grok3与Grok3Mini集 成至Azure平台;谷歌Gemini2.5Pro支持100万token上下文;OpenAI为ChatGPTPro用户升级o3推理模型,任务完成率有所提升。国产模型方面,DeepSeek-R1版本更新,推理能力接近国际顶尖,字节豆包1.6支持256K上下文且成本降至1/3,多模态方面,支持视频通话分析,通义千问向量模型开源并登顶MTEB榜单,小米、小红书等企业也在多模态与混合架构领域取得突破。 Wind推出指数策略增强AI平台。5月26日,Wind推出全球首个 自然语言生成的AliceAI指数策略平台,能根据用户指令智能匹配 因子组合,自动构建回测策略,10分钟内完成从构思到评估全流程,还支持方案解析、交互优化与报告导出,提升策略研发效率。 5月23-24日AICon大会上,金融科技AI产品突破显著:奇富科技优化DeepSeek等基座大模型,构建端到端风控体系,用户特征一致性校验模型准确率超95%;中邮消费金融“邮远见”大模型成效佳,智能坐席辅助、机器人及数据分析引擎多项指标表现亮眼,还探索了AgenticAI数字员工应用。这些突破推动金融行业智能化、高效化发展。 风险提示:大模型技术迭代不及预期;大模型在金融领域相关场景的落地不及预期。 目录 1.AI重要事件:DeepseekR1版本更新,豆包支持视频通话3 2.金融科技进展:Wind推出指数策略增强AI平台,AICon全球人工智能开发与应用大会上,金融科技领域多款AI产品展现出显著突破6 3.投资建议7 4.风险提示8 1.AI重要事件:DeepseekR1版本更新,豆包支持视频通话 5月19日,微软在Build大会上宣布与xAI合作将Grok3及Grok3Mini模型引入AzureAIFoundry平台。Grok3模型凭借在推理、数学、编码、世界知识和指令执行方面的优势,可以完成财务预测、医疗诊断支持、法律文件分析和科学研究协助等企业任务,其131K标记的扩展上下文长度可处理大量数据集,还具备结构化输出、工具支持等特性。Grok3与Grok3Mini在AIME2025、GPQA等多项基准测试中表现亮眼。开发者可通过AzureAIFoundry轻松部署模型,享受标准按量付费及即将推出的预配吞吐量(PTU)等灵活部署选项。5月19日起模型免费预览两 周,6月起按输入输出代币量收费,全球版Grok3每百万输入代币3美元、输出15美元,Grok3Mini输入0.25美元、输出1.27美元。借助Azure平台,模型部署具备可扩展、内容安全控制及完善的可观察性与监控等企业级优势,助力开发者从原型快速迈向生产应用,推动AI在企业场景中的深度落地。 (https://devblogs.microsoft.com/foundry/announcing-grok-3-and-grok-3-mini-on-azure-ai-foundry/ https://news.microsoft.com/build-2025-book-of-news/zh/) 5月20日,继3月谷歌发布Gemini2.5Pro后,再度更新Gemini2.5系列模型。在性能上,Gemini2.5Pro在学术基准测试表现优异,且在WebDevArena编程排行榜以1415的ELO得分领先,在LMArena各维度人类偏好评估中名列前茅,其100万个token的上下文窗口带来顶尖的长上下文与视频理解能力;自整合LearnLM后,成为领先学习模型,超越顶级模型。同时,2.5ProDeepThink在2025USAMO数学基准测试等难题中取得突出成绩。Gemini2.5Flash在推理、多模态等关键基准改进,效率提升,使用token减少20-30%。功能层面,新增原生音频输出,LiveAPI支持音频视频输入及原生音频输出对话,可控制语气等,还支持多扬声器文本转语音;引入ProjectMariner的计算机使用功能;在安全方面,增强对间接提示注入等安全威胁的防护。开发者体验上,GeminiAPI和VertexAI中2.5Pro和Flash加入思维摘要,2.5Pro扩展思考预算,GeminiAPI添加对MCP工具支持。 (来源:https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#developer-experience) 5月23日,OpenAI将ChatGPT内的Operator自主网页浏览和光标控制代理从原先使用的GPT-4o多模态大语言模型,升级为更强大的o3推理模型,并以“研究预览”形式面向每月200美元的ChatGPTPro付费订阅者全球发布。Operator于2025年1月首次亮相,能自主进行指向、点击等操作完成Web任务,运行在云托管虚拟浏览器,结合了基于GPT-4o的多种能力,且有内置安全措施。此次升级旨在提升性能,新的o3推理模型在浏览器交互中准确性和持久性更佳,更易成功完成任务。在第三方评估基准测试中表现出色,如在衡量基于浏览器任务完成情况的OSWorld基准测试中,o3模型得分为42.9分,高于上一版本的38.1;在WebArena上,得分从48.1提升至62.9;在GAIA基准测试中,o3模型得分为62.2,远超前代模型的12.3。o3模型还继承并微调了早期版本的安全措施,可确认94%敏感操作,金融交易确认率达100%,对高风险网络交互保持谨慎界限。此次升级对金融行业有重要意义,能为金融机构自动化复杂流程、精准分析数据提供助力,增强风险评估与管理能力,尽管处于研究预 览阶段,但已展现出推动金融智能化变革的潜力,有望提升金融服务效率与质量。 (来源:https://venturebeat.com/ai/openai-updates-operator-to-o3-making-its-200-monthly-chatgpt-subscription-more-enticing/) 5月28日,国产AI大模型DeepSeek的核心推理模型R1完成版本更新,升级至DeepSeek-R1-0528,此次更新在多方面实现重大突破。用户可通过官方渠道开启“深度思考”功能体验,API同步更新且调用方式不变。该版本以DeepSeekV3Base为基座,通过增加算力强化后训练,显著提升推理能力,在数学、编程等基准测评中成绩居国内模型首位,整体表现接近国际顶尖模型o3与Gemini-2.5-Pro。例如AIME2025测试准确率从旧版70%提升至87.5%,单题思考消耗tokens从12K增至23K,其思维链蒸馏所得8B模型在AIME2024中超越Qwen3-8B并接近Qwen3-235B。同时,新版幻觉率降低45%-50%,创意写作能力优化,支持工具调用(Tau-Bench测评成绩与OpenAIo1-high相当),前端代码生成等领域能力亦有提升。API新增FunctionCalling和JsonOutput支持,max_tokens参数调整为限制单次输出总长度(默认32K,最大64K),官方渠道上下文长度维持64K,128K版本可通过第三方平台调用,模型685B参数(含14BMTP层)的开源版本已同步发布。 (来源:https://api-docs.deepseek.com/zh-cn/news/news250528) 6月11日,字节跳动旗下火山引擎举办Force原动力大会,在AI领域取得重要进展。会上发布豆包大模型1.6,其在复杂推理、竞赛级数学、多轮对话及指令遵循等测试集中表现优异,已跻身全球前列。该模型支持多模态理解和图形界面操作,可完成酒店预订、购物小票整理等实际任务,在电商、自动驾驶数据标注、门店巡检等场景得到广泛应用。同时亮相的豆包视频生成模型Seedance1.0pro,在文生视频、图生视频任务上于国际知名评测榜单ArtificialAnalysis中排名第一,能生成高品质、画面自然稳定的1080P视频。目前,豆包大模型已覆盖多模态、视频、图像等多品类,服务众多行业头部客户,在中国公有云大模型市场份额占比达46.4%,日均tokens使用量超16.4万亿,较2024年5月首次发布时增长137倍。字节豆包1.6支持256K上下文,多模态方面,支持视频通话分析。 在Agent开发方面,火山引擎通过技术与商业创新,让豆包1.6按“输入长度”区间定价,降低企业模型使用成本,综合成本降低至豆包1.5的三分之一,提升深度思考、多模态和工具调用等能力,加速Agent规模化应用。同时,AI云原生全栈服务升级,推出多项新产品,如火山引擎MCP服务、PromptPilot智能提示工具等。字节跳动技术副总裁洪定坤指出豆包1.6已接入字节AI编程产品TRAE内测,将提升软件开发效率。 (来源:https://www.xinhuanet.com/tech/20250611/db9b3c0ef97d49058413563b1c434951/c.html https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-1-6&projectName=undefinedhttps://mp.weixin.qq.com/s/JSjCuc3LhigXndkUsjBI3Q) 6月6日,阿里通义千问正式发布Qwen3-Embedding系列模型并开源至 HuggingFace、ModelScope和GitHub平台,同时阿里云百炼平台提供文 本向量模型服务。该系列模型基于Qwen3基础模型训练,专为文本表征、检索与排序任务设计,继承Qwen3多语言理解优势,支持超100种语言及编程语言。其8B参数模型在MTEB多语言榜单以70.58分位列第一,性能超越众多商业API,排序模型显著提升搜索相关性。模型提供 0.6B至8B三种参数配置,支持表征维度自定义与指令适配优化,灵活满足不同场景需求。架构上,Embedding模型采用双塔结构取“EOS”隐藏状态作语义表示,Reranker模型以单塔结构计算文本对相关性得分。训练采用三阶段架构(弱监督预训练、监督训练、模型融合),并通过Qwen3生成能力构建多任务Prompt体系,动态生成弱监督文本对,提升数据效率。该模型为文本表征与排序提供新基座,未来将优化训练效率并拓展多模态表征体系,助力金融领域在智能检索、多语言风控、跨模态数据分析