您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中邮证券]:AI动态汇总:AI模型通过标准图灵测试,智谱发布AI Agent AutoGLM沉思 - 发现报告

AI动态汇总:AI模型通过标准图灵测试,智谱发布AI Agent AutoGLM沉思

2025-04-08 肖承志,冯昱文 中邮证券 罗鑫涛Robin
报告封面

2025 年 4 月 8 日 研究所研究所 金工周报标题 分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com研究所 AI 模型通过标准图灵测试,智谱发布 AI AgentAutoGLM 沉思——AI 动态汇总 20250407标题摘要 l模型通过标准图灵测试 3 月 31 日,加州大学圣地亚哥分校的研究团队发布论文声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。在实验中,GPT-4.5 以 73%的比率被认作人类,显著超越真实人类参与者;LLaMa-3.1-405B 获得 56%的识别率,与人类无显著差异。基线模型(ELIZA 和 GPT-4o)成功率显著低于随机概率(分别为 23%和21%)。 近期研究报告近期研究报告 《“924”以来融资资金防守后均见到行情低点,仍关注科技配置机会——行业轮动周报 20250330》 - l智谱发布 AI Agent AutoGLM 沉思 3 月 31 日,智谱发布 AutoGLM 沉思,这是首个免费且具备深度研究功能(Deep Research)和操作能力(Operator)的智能体。AutoGLM的发布让智谱大模型从“建议者”进化为“边想边干”的“实践者”。 《英伟达召开 GTC 2025 大会,Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 lDeepSeek 发布百宝箱项目 Awesome DeepSeek Integra-tions DeepSeek 官 方发 布 收录 了 诸多 DeepSeek 应用 的 百宝 箱 项目Awesome DeepSeek Integrations,帮助开发者一站式搞定诸多工具调用。该项目除了汇总了可用于 DeepSeek 的应用程序,还总结了 AIAgent 框架、AI 数据应用框架、RAG 框架等。为开发者打造一站式开发工具。 《反转效应强势,GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24《微盘领涨创下历史新高,4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 l亚马逊推出 AI 智能体 Nova Act 4 月 1 日,亚马逊官方发布了 AI 智能体 Nova Act,亚马逊官方声称该智能体为能够代表用户完成任务并在一系列数字和物理环境中采取行动的系统。目前该智能体可在浏览器中执行操作,并且同步发布了 Amazon Nova Act SDK 的研究预览版以供开发人员使用。 《小市值强势,动量风格依旧——中邮因子周报 20250309》 - 2025.03.10 《泛科技大幅回调,融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 l风险提示: 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。摘要 《高波不再持续,多数风格切换——中邮因子周报 20250302》–2025.03.03 《3 月胜率最高的策略:多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 《扩散指数有高位回调风险——微盘股指数周报 20250216》- 2025.02.17 《基本面回撤,高波风格持续——中邮因子周报 20250209》- 2025.02.10近期研究报告 目录 1AI 重点要闻 ................................................................................ 41.1AI 模型通过标准图灵测试 ................................................................ 41.2智谱发布 AI Agent:AutoGLM 沉思.........................................................71.3DeepSeek 发布百宝箱项目 Awesome DeepSeek Integrations...................................81.4亚马逊推出 AI 智能体 Nova Act..........................................................102企业动态..................................................................................112.1百度端到端语音语言大模型发布..........................................................112.2OpenAI o3 模型运行成本估算大幅上调 .................................................... 112.3飞桨新一代框架 3.0 正式发布............................................................122.4Runway 发布 AI 视频生成模型 Gen-4.....................................................133AI 行业洞察 ............................................................................... 143.1OpenAI 宣布完成 400 亿美元超大规模融资,估值达 3000 亿美元............................143.2国家天文台基于通义千问打造国际首个太阳大模型“金乌”..................................154技术前沿..................................................................................154.1美国奥赛题挑战 AI 数学能力,顶级模型得分不足 5% ........................................ 154.2UQABench:用于评估 embedding 提示 LLM 进行个性化问答的基准..............................175风险提示..................................................................................19 图表目录 图表 1: LLMs 图灵实验结果................................................................4图表 2: 图灵测试 ........................................................................ 5图表 3: 实验结果 ........................................................................ 6图表 4: AutoGLM 沉思.....................................................................7图表 5: Awesome DeepSeek Integrations 应用程序...........................................9图表 6: AI Agent 框架....................................................................9图表 7: Nova Act 模型对比...............................................................10图表 8: 百度端到端语音语言大模型 ....................................................... 11图表 9: ARC-AGI 测评....................................................................12图表 10: 飞桨 3.0 架构 .................................................................. 13图表 11: 金乌模型 ...................................................................... 15图表 12: LLMs 美国奥赛题论文............................................................16图表 13: MathArena 测评.................................................................16图表 14: UQABench 论文..................................................................17图表 15: SRs VS. GRs ................................................................... 18 1AI 重点要闻 1.1AI 模型通过标准图灵测试 3 月 31 日,加州大学圣地亚哥分校的研究团队发布论文声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。图灵测试由英国数学家和计算机科学家阿兰・图灵于 1950 年提出,他称之为“模仿游戏”。图灵设想,如果一名提问者在通过文本交流时无法区分对方是机器还是人类,那么这个机器可能具备类似人类的智能。在三方图灵测试中,提问者需与一名人类和一台机器进行对话,并准确辨识出人类身份。 在实验中,GPT-4.5 以 73%的比率被认作人类,显著超越真实人类参与者;LLaMa-3.1-405B 获得 56%的识别率,与人类无显著差异。基线模型(ELIZA 和 GPT-4o)成功率显著低于随机概率(分别为 23%和 21%)。 资料来源:Large Language Models Pass the Turing Test,中邮证券研究所 以下为图灵测试的界面,绿色对话框为裁判,灰色对话框为被测试者,顶部计时器为所剩时间的倒计时。AI 和人类都试图向裁判证明自己才是人类,如果测试员没法准确认出谁是真人,那就说明机器通过测试了,这也意味着 AI 能模仿人类的思维和表达方式。 在整个实验中,分别测试了 GPT-4.5、LLaMa-3.1-405B,均测试两种提示策略。同时,基线策略选择了 ELIZA(规则聊天机器人)与 GPT-4o(无提示)。两种提示策略为 NO-PERSONA和 PERSONA,NO-PERSONA 是仅告知模型“目标是说服对方自己是人类”,而 PERSONA 引导模型模仿特定人格(如年轻、内向、熟悉网络文化的用户)。 实验的参与者为 126 名本科生和 158 名 Prolific 平台用户