行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总：AI模型通过标准图灵测试，智谱发布AI Agent AutoGLM沉思

2025-04-08 肖承志,冯昱文中邮证券罗鑫涛Robin

AI重点要闻

AI模型通过标准图灵测试：加州大学圣地亚哥分校的研究团队声称GPT-4.5以73%的比率被认作人类，显著超越真实人类参与者；LLaMa-3.1-405B获得56%的识别率，与人类无显著差异。
智谱发布AIAgent：AutoGLM沉思：智谱发布首个免费且具备深度研究功能和操作能力的智能体AutoGLM沉思，让智谱大模型从“建议者”进化为“实践者”。
DeepSeek发布百宝箱项目AwesomeDeepSeekIntegrations：收录了诸多DeepSeek应用，帮助开发者一站式搞定诸多工具调用，涵盖大模型本地部署工具、AI文档阅读工具等。
亚马逊推出AI智能体NovaAct：亚马逊官方发布AI智能体NovaAct，可在浏览器中执行操作，并发布SDK供开发人员使用，意在凭借自研技术展开竞争。

企业动态

百度端到端语音语言大模型发布：百度发布首个基于全新互相关注意力的端到端语音语言大模型，实现超低时延与超低成本，在电话语音频道的语音问答场景中，调用成本较行业均值下降约50%-90%。
OpenAIo3模型运行成本估算大幅上调：负责维护和管理ARC-AGI的ArcPrizeFoundation对OpenAI的o3“推理”人工智能模型在ARC-AGI基准测试中的成本估算进行了重大修订，解决一个单一的ARC-AGI问题的成本可能高达约3万美元。
飞桨新一代框架3.0正式发布：飞桨框架3.0具备动静统一自动并行、大模型训推一体、科学计算高阶微分、神经网络编译器、异构多芯适配等五大新特性。
Runway发布AI视频生成模型Gen-4：Runway发布AI视频生成模型Gen-4，称这是目前为止保真度最高的AI驱动视频生成工具之一，能够有效利用视觉参考资料，并结合用户的文本指令，创造出风格、主体、地点等要素保持一致的新图像和视频。

AI行业洞察

OpenAI宣布完成400亿美元超大规模融资：OpenAI宣布完成了一轮规模巨大的私募融资，融资金额高达400亿美元，公司估值在融资完成后达到3000亿美元。
国家天文台基于通义千问打造国际首个太阳大模型“金乌”：国家天文台联合阿里云发布国际首个太阳大模型“金乌”，基于通义千问系列开源模型打造，目前在M5级太阳耀斑预报上准确率超91%。

技术前沿

美国奥赛题挑战AI数学能力：MathArena团队使用2025年美国数学奥林匹克竞赛题对大模型进行了详细评估，结果显示所有大模型表现均不佳，DeepSeek-R1表现最好，得分为4.76%。
UQABench：用于评估embedding提示LLM进行个性化问答的基准：UQABench评估框架是首个专门针对用户嵌入提示LLM个性化能力的标准化基准，采用三级评估流程，包括预训练阶段、微调阶段和评估阶段，评估任务包括序列理解、行为预测和兴趣感知。

风险提示

以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。

2025 年 4 月 8 日研究所研究所金工周报标题分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com研究所 AI 模型通过标准图灵测试，智谱发布 AI AgentAutoGLM 沉思——AI 动态汇总 20250407标题摘要 l模型通过标准图灵测试 3 月 31 日，加州大学圣地亚哥分校的研究团队发布论文声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。在实验中，GPT-4.5 以 73%的比率被认作人类，显著超越真实人类参与者；LLaMa-3.1-405B 获得 56%的识别率，与人类无显著差异。基线模型（ELIZA 和 GPT-4o）成功率显著低于随机概率（分别为 23%和21%）。近期研究报告近期研究报告《“924”以来融资资金防守后均见到行情低点，仍关注科技配置机会——行业轮动周报 20250330》 - l智谱发布 AI Agent AutoGLM 沉思 3 月 31 日，智谱发布 AutoGLM 沉思，这是首个免费且具备深度研究功能（Deep Research）和操作能力（Operator）的智能体。AutoGLM的发布让智谱大模型从“建议者”进化为“边想边干”的“实践者”。《英伟达召开 GTC 2025 大会，Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 lDeepSeek 发布百宝箱项目 Awesome DeepSeek Integra-tions DeepSeek 官方发布收录了诸多 DeepSeek 应用的百宝箱项目Awesome DeepSeek Integrations，帮助开发者一站式搞定诸多工具调用。该项目除了汇总了可用于 DeepSeek 的应用程序，还总结了 AIAgent 框架、AI 数据应用框架、RAG 框架等。为开发者打造一站式开发工具。《反转效应强势，GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24《微盘领涨创下历史新高，4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 l亚马逊推出 AI 智能体 Nova Act 4 月 1 日，亚马逊官方发布了 AI 智能体 Nova Act,亚马逊官方声称该智能体为能够代表用户完成任务并在一系列数字和物理环境中采取行动的系统。目前该智能体可在浏览器中执行操作，并且同步发布了 Amazon Nova Act SDK 的研究预览版以供开发人员使用。《小市值强势，动量风格依旧——中邮因子周报 20250309》 - 2025.03.10 《泛科技大幅回调，融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 l风险提示：以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。摘要《高波不再持续，多数风格切换——中邮因子周报 20250302》–2025.03.03 《3 月胜率最高的策略：多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 《扩散指数有高位回调风险——微盘股指数周报 20250216》- 2025.02.17 《基本面回撤，高波风格持续——中邮因子周报 20250209》- 2025.02.10近期研究报告目录 1AI 重点要闻 ................................................................................ 41.1AI 模型通过标准图灵测试 ................................................................ 41.2智谱发布 AI Agent：AutoGLM 沉思.........................................................71.3DeepSeek 发布百宝箱项目 Awesome DeepSeek Integrations...................................81.4亚马逊推出 AI 智能体 Nova Act..........................................................102企业动态..................................................................................112.1百度端到端语音语言大模型发布..........................................................112.2OpenAI o3 模型运行成本估算大幅上调 .................................................... 112.3飞桨新一代框架 3.0 正式发布............................................................122.4Runway 发布 AI 视频生成模型 Gen-4.....................................................133AI 行业洞察 ............................................................................... 143.1OpenAI 宣布完成 400 亿美元超大规模融资，估值达 3000 亿美元............................143.2国家天文台基于通义千问打造国际首个太阳大模型“金乌”..................................154技术前沿..................................................................................154.1美国奥赛题挑战 AI 数学能力，顶级模型得分不足 5% ........................................ 154.2UQABench：用于评估 embedding 提示 LLM 进行个性化问答的基准..............................175风险提示..................................................................................19 图表目录图表 1： LLMs 图灵实验结果................................................................4图表 2：图灵测试 ........................................................................ 5图表 3：实验结果 ........................................................................ 6图表 4： AutoGLM 沉思.....................................................................7图表 5： Awesome DeepSeek Integrations 应用程序...........................................9图表 6： AI Agent 框架....................................................................9图表 7： Nova Act 模型对比...............................................................10图表 8：百度端到端语音语言大模型 ....................................................... 11图表 9： ARC-AGI 测评....................................................................12图表 10：飞桨 3.0 架构 .................................................................. 13图表 11：金乌模型 ...................................................................... 15图表 12： LLMs 美国奥赛题论文............................................................16图表 13： MathArena 测评.................................................................16图表 14： UQABench 论文..................................................................17图表 15： SRs VS. GRs ................................................................... 18 1AI 重点要闻 1.1AI 模型通过标准图灵测试 3 月 31 日，加州大学圣地亚哥分校的研究团队发布论文声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。图灵测试由英国数学家和计算机科学家阿兰・图灵于 1950 年提出，他称之为“模仿游戏”。图灵设想，如果一名提问者在通过文本交流时无法区分对方是机器还是人类，那么这个机器可能具备类似人类的智能。在三方图灵测试中，提问者需与一名人类和一台机器进行对话，并准确辨识出人类身份。在实验中，GPT-4.5 以 73%的比率被认作人类，显著超越真实人类参与者；LLaMa-3.1-405B 获得 56%的识别率，与人类无显著差异。基线模型（ELIZA 和 GPT-4o）成功率显著低于随机概率（分别为 23%和 21%）。资料来源：Large Language Models Pass the Turing Test，中邮证券研究所以下为图灵测试的界面，绿色对话框为裁判，灰色对话框为被测试者，顶部计时器为所剩时间的倒计时。AI 和人类都试图向裁判证明自己才是人类，如果测试员没法准确认出谁是真人，那就说明机器通过测试了，这也意味着 AI 能模仿人类的思维和表达方式。在整个实验中，分别测试了 GPT-4.5、LLaMa-3.1-405B，均测试两种提示策略。同时，基线策略选择了 ELIZA（规则聊天机器人）与 GPT-4o（无提示）。两种提示策略为 NO-PERSONA和 PERSONA，NO-PERSONA 是仅告知模型“目标是说服对方自己是人类”，而 PERSONA 引导模型模仿特定人格（如年轻、内向、熟悉网络文化的用户）。实验的参与者为 126 名本科生和 158 名 Prolific 平台用户

点击免费查看完整报告

AI动态汇总：AI模型通过标准图灵测试，智谱发布AI Agent AutoGLM沉思

AI重点要闻

企业动态

AI行业洞察

技术前沿

风险提示

你可能感兴趣

计算机行业快评报告：智谱发布AI Agent AutoGLM沉思，将迎来智谱“开源年”

智谱AutoGLM沉思版Beta测试Agent逻辑再强化中信证券计算

华西计算机每日资讯0331智谱发布Agent产品AutoGLM沉思

计算机行业周报：智谱发布“AutoGLM沉思”，端侧AI催化密集

传媒行业点评报告：AutoGLM沉思实现“边想边干”，继续布局AI Agent

通信周跟踪：智谱发布AutoGLM催化agent行情，CPO对光模块仍是机遇

2026春节期间AI行业动态汇总一国内模型与产品发布1智谱AI2

AI动态汇总20250818：智元推出机器人世界模型平台genie envesioner，智谱上线GLM-4.5a视觉推理模型

AI动态汇总20250421：OpenAI发布GPT-4.1，智谱发布GLM-4-32B-0414系列

AI动态汇总20250804：智谱发布GLM-4.5，蚂蚁数科发布金融推理大模型Agentar-Fin-R1