行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI产业跟踪：智源BGE向量模型全面登顶SOTA，谷歌Veo 3首次实现音画同步

信息技术 2025-05-29 刘峰,李嘉琪国泰海通证券福肺尖

AI行业动态

Lovart创始人认为AI图像产品经历三个阶段：单一内容生成、工作流工具、AI规划执行的Agent阶段，强调设计师和垂直领域专业知识的重要性。
Gartner发布企业构建智能应用五项基本原则：自适应体验、嵌入式智能、自主编排、互联数据和可组合架构。
OpenAI收购前苹果首席设计官团队io，获得55人硬件团队，开发AI设备，预计2026年发布。
微软Build 2025大会开幕，宣布进入AI智能体时代，推出Coding Agent、NLWeb、Copilot Tuning等。
AI笔记产品Granola完成B轮融资，以2.5亿美元估值，通过高效的个性化AI会议记录功能成为独角兽创始人和企业高管的首选笔记工具。

AI应用资讯

国内资讯

混元图像2.0让AI生图进入“零延迟”时代，实现毫秒级图像生成，支持文生图和图生图功能。
Manus生图功能登场，能理解用户意图、规划解决方案，并知道如何调用各种工具完成任务。
腾讯发布新版QQ浏览器，集成QBot功能，采用腾讯混元和DeepSeek双模型驱动，支持AI搜索、多模态交互等功能。
B站开源动画视频生成模型AniSora，支持多种二次元风格视频生成，可实现基于国产芯片华为910B的高效分布式训练。
GenSpark发布Agentic AI下载代理，通过自然语言指令实现文件下载和处理自动化。
字节推出语音播客模型，基于流式模型实现文本到双人对话播客的秒级转化。
昆仑万维发布天工超级智能体，集成5个专家智能体和1个通用智能体，可一站式生成文档、PPT、表格等多模态内容。

海外资讯

OpenAI推出AI编程工具Codex，能生成更清晰代码且自动迭代测试至通过。
Google推出LightLab项目，通过扩散模型实现单张图像的精确光源控制。
Supermemory发布新API，作为应用程序和LLM间的透明代理，通过智能维护对话上下文来突破大模型2万Token的限制。
苹果发布AI生3D模型Matrix3D，仅需三张照片即可生成高质量3D场景模型。
谷歌超级编码智能体Jules上线，基于Gemini 2.5 Pro模型，提供每日5次免费使用额度，可直接连接GitHub仓库。
Google NotebookLM推出APP，主打文档转播客功能，支持离线听书、实时互动提问和跨平台内容分享。
谷歌Veo 3实现音画同步生成功能，能根据提示词同时生成视频画面、对白、唇动和音效。
首个大规模大气AI击败全球最先进数值预报系统，微软推出的大规模大气基础模型Aurora在多个预测领域表现优异。
谷歌发布Flow AI剪辑工具，支持Veo3视频生成，提供三种生成方式：文生视频、图生视频、素材转视频。
Google发布首款轻量级智能眼镜产品Project Aura，搭载Gemini 2.5 Pro和Project Astra，实现实时翻译、视觉搜索和多模态上下文理解。
英伟达开展新研究项目DreamGen，让机器人在神经网络生成的「梦境世界」中自主学习。
FaceAge研究登上「柳叶刀」杂志，通过分析人脸照片预测生物年龄，能评估癌症患者治疗预后。
Responses API支持MCP服务，开发者只需简单配置即可连接外部服务，无需手动函数调用。
微软开源Web Agent项目Magentic-UI，支持自动浏览网页、读写文件和代码。
xAI推出Live Search API，为Grok AI提供实时数据访问能力，可获取X平台、网页内容和突发新闻的最新信息。

AI大模型资讯

国内资讯

智源研究院发布三款向量模型：BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot，全部开源并在多个基准测试中登顶。
腾讯混元模型矩阵全面升级，TurboS排名全球前八，引入长短思维链融合技术后，理科推理提升10%，代码能力提升24%，竞赛数学提升39%。

海外资讯

Wind-surf推出SWE-1模型，强调针对整个软件工程流程优化，在编程基准测试中与GPT-4.1等模型表现相当。
谷歌推出文本「扩散模型」Gemini Diffusion，采用扩散技术生成文本，速度达2000 token/秒。
Mistral开源Devstral，具有240亿参数，在SWE-Bench Verified基准测试中得分46.8%，超越GPT-4.1-mini和其他开源模型。

科技前沿

全球机器人视触融合挑战赛中国团队包揽三金，原力灵机Dexmal赢得纯触觉操控和触觉传感器设计两项金牌，通过双范式学习框架将成功率提升2-3倍。
AI 200小时发现一种全新物质，微软推出的企业级AI科研平台Microsoft Discovery，在200小时内发现新型环保冷却剂，比传统方法快数月。
UC伯克利推出全开源人形机器人Berkeley Humanoid Lite（BHL），总成本低于5000美元，所有材料可通过3D打印或在线购买获得。
OpenAI沙漠中建全球最大AI数据中心，计划在阿布扎比建设5千兆瓦数据中心，规模超过摩纳哥。
新一代B300与「万卡互联」MVLink登场，NVIDIA推出新一代Grace Blackwell GB300系统，性能全面提升，可通过MVLink技术将72个GPU连接成单一巨型GPU。
华为昇腾新推出CloudMatrix 384超节点和Atlas 800I A2服务器，在DeepSeek模型推理性能上超越英伟达Hopper架构。
Google自研TPU强势进军AI市场，在性能相当的情况下，AI成本仅为OpenAI使用的英伟达GPU的五分之一。

目录1. AI行业动态..........................................................................................................32. AI应用资讯..........................................................................................................32.1.国内资讯........................................................................................................32.2.海外资讯........................................................................................................43. AI大模型资讯......................................................................................................73.1.国内资讯........................................................................................................73.2.海外资讯........................................................................................................74.科技前沿..............................................................................................................75.风险提示..............................................................................................................8 请务必阅读正文之后的免责条款部分2 of 9 1.AI行业动态Lovart创始人陈冕：我们没有产品经理，只有设计师据极客公园公众号5月16日消息，Lovart创始人认为AI图像产品经历三个阶段：从单一内容生成（Midjourney等），到工作流工具（ComfyUI等），再到当前由AI规划执行的Agent阶段。Lovart产品设计遵循"还原设计最原始样子"理念，通过画布（桌子）和对话框实现AI与人的自然交互，目标是成为一个集设计师、导演、摄影师于一体的"创意团队"。在团队组建上，Lovart认为通用型产品经理将被AI取代，更重视能将垂直领域专业知识教给AI的设计师，强调"我们没有产品经理，只有设计师"。Gartner发布企业构建智能应用五项基本原则据Gartner公司公众号5月22日消息，Gartner 2025大中华区高管交流大会盛大召开，Gartner发布最新研究，阐释生成式人工智能（GenAI）如何改变行业实践，推动企业软件从“辅助工具”迈向“智能代理”的根本性转变。GenAI将彻底重塑企业应用的目的、功能以及人机交互方式。Gartner指出GenAI将推动企业软件从辅助工具转向智能代理，发布构建智能应用的五大原则：自适应体验、嵌入式智能、自主编排、互联数据和可组合架构。智能应用强调个性化体验和主动服务，可通过自然语言交互完成跨系统任务，AI能力深度嵌入业务逻辑，实现自动化流程优化。企业需保持五大原则投入均衡，同步升级基础数据、流程、架构与体验，确保智能应用从试点示范迈向规模价值应用。OpenAI收购前苹果首席设计官团队据APPSO公众号5月22日消息，OpenAI正式官宣将以接近65亿美元（折合人民币468.16亿元）的价格收购由OpenAI CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io，获得由前苹果首席设计官Jony Ive领导的55人硬件团队，预计2025年夏季完成交易。io正在开发全新形态的AI设备，旨在减少屏幕使用时间，产品方向包括耳机、可穿戴设备和AI家用设备，预计2026年发布。关联公司LoveFrom将继续独立运营但承担OpenAI更多设计职责，包括ChatGPT界面、语音交互等产品线，Ive称这可能是其30年职业生涯中最重要的工作。微软Build 2025大会开幕据新智元公众号5月20日消息，微软Build 2025大会开幕式上，纳德拉再次向全世界宣告——我们正式进入AI智能体时代。Coding Agent将GitHub Copilot升级为自主编程助手，实现bug修复、代码维护的全流程自动化。NLWeb开源项目实现网站自然语言交互，Agent Factory平台支持Grok等模型构建智能体应用。Copilot Tuning支持企业用自有数据微调智能体，精准适配企业独特语言风格。Microsoft Discovery助力科研创新，具备生成想法、结果模拟和自主学习能力。AI笔记产品Granola完成B轮融资据Founder Park 5月19日消息，Granola以2.5亿美元估值完成B轮融资，通过高效的个性化AI会议记录功能，成为独角兽创始人和企业高管的首选笔记工具。产品核心优势在于赋予用户控制权，支持实时编辑和个性化记录，并采用不保存音频的方式保护隐私。创始人认为AI工具的关键在于增强而非替代人类能力，未来将从单一笔记工具发展为融合个人上下文的综合工作平台。2.AI应用资讯2.1.国内资讯混元图像2.0让AI生图进入“零延迟”时代据腾讯科技公众号5月16日消息，腾讯混元Image2.0实现毫秒级图像生成，用户输入提示词时即可看到实时变化，突破了传统5-10秒生成时间的限制。新模型支持文生图和图生图两大功能，图生图模式下可选择"参考主体"或"参考轮廓"，并可调节参考强度。双画布联动功能支持实时预览和多图层融合，在复杂场景下可通过多次快速的调试达到理想效果。Manus生图功能登场据机器之心公众号5月16日消息，Manus推出图像生成功能，除单纯生图外，还能理解用户意图、规划解决方案，并知道如何调用各种工具完成任务。该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务，新用户可获赠1000积分免费体验。实测显示图像生成效果不错，但网站部署等复杂任务运行速度较慢，需等待数分钟至十几分钟不等。腾讯发布新版QQ浏览器据腾讯云公众号5月19日消息，腾讯发布新版QQ浏览器，集成QBot功能，采用腾讯混元和DeepSeek双模型驱动，可从全网内容中提炼整理答案。主要功能包括AI搜索、多模态交互、文档解读翻译、智能写作和学习辅导，支持PC和手机端信息同步。同时提供AI工具箱，包含格式转换、信息提取、文档处理等办公功能，支持端外唤起，无需额外插件可直接在浏览器中使用。B站开源动画视频生成模型AniSora据机器之心公众号5月19日消息，B站开源动画生成模型Index-AniSora，支持多种二次元风格视频生成，入选IJCAI25，可实现基于国产芯片华为910B的高效分布式训练。系统包含两个版本：基于CogVideoX-5B的V1.0和基于Wan2.1-14B的V2.0，支持时空掩码、局部控制等功能，覆盖80-90%应用场景。B站构建了千万级文本-视频训练数据，并开源首个动画领域人类偏好强化学习模型，包含30,000条标注样本的奖励数据集。GenSpark发布Agentic AI下载代理据算家云公众号5月19日消息，MainFunc旗下GenSpark发布全球首个AI下载代理工具Agentic Download Agent，通过自然语言指令实现文件下载和处理自动化。采用Mixture-of-Agents架构，整合8个不同规模语言模型和80余种工具链，将传统耗时任务压缩至分钟级完成。配套推出AI Drive智能云盘，支持多种数字资产格式，可对已下载文件进行二次分析处理，并开放API接口供企业系统集成。字节推出语音播客模型据火山引擎公众号5月20日消息，字节推出豆包·语音播客模型，基于流式模型实现文本到双人对话播客的秒级转化，支持热点内容快速生成。模型突破传统AI播客痛点，实现双人对话自然流畅、高度拟人的语音效果，并具备深度搜索功能，5秒可生成热点播客。支持灵感创作和超长文本转播客功能，将在豆包APP、PC端和扣子等产品陆续上线。昆仑万维发布天工超级智能体据昆仑万维集团公众号5月22日消息，昆仑万维发布天工超级智能体（SkyworkSuper Agents），集成5个专家智能体和1个通用智能体，可一站式生成文档、PPT、表格等多模态内容。产品核心是基于deep research技术的"Office三件套"（文档、PPT、表格），支持深度信息检索和可溯源内容生成，成本仅为OpenAI的40%，并已将相关框架开源。系统设计特色包括自动化需求澄清、信息溯源和个人知识库功能，用户可上传多种格式文件构建知识库，支持全球用户免邀请码注册使用。2.2.海外资讯OpenAI推出AI编程Codex据Z Potentials公众号5月18日消息，OpenAI发布新版AI编程工具Codex，由codex-1模型驱动，能生成更清晰代码且自动迭代测试至通过。Codex运行于云端沙盒环境，可同时处理多项编程任务，支持与GitHub连接并预加载代码仓库。该工具目前向ChatGPT Pro等付费用户开放，后续将实施速率限制，用户可购买额外积分获取更多使用权限。Google推出LightLab项目据机器之心公众号5月16日消息，谷歌推出LightLab项目，通过扩散模型实现单张图像的精确光源控制，可调节光源强度、颜色，并能插入虚拟光源。研究团队通过结合真实照片对和合成渲染图像构建训练数据集，利用光的线性特性分离目标光源和环境光。实验表明该技术在PSNR和SSIM指标上优于现有方法，能实现物理上合理的光照效果，但需要12小时训练时间和64个v4 TPU。Supermemory发布新API据AI寒武纪公众号5月16日消息，Supermemory发布Infinite Chat API，作为应用程序和LLM间的透明代理，通过智能维护对话上下文来突破大模型2万Token的限制。该API采用RAG技术处理溢出的上下文内容，声称可节省90%的Token消耗，且只需一行代码即可集成到现有应用。定价方案包括每月20美元固定费用，每个对话线程前2万Token免费，超出部分按每百万Token 1美元计费。苹果发布AI生3D模型据三次方AIRX公众号消息，苹果联合南京大学等机构发布Matrix3D模型，采用统一架构和遮蔽学习策略，仅需三张照片即可生成高质量3D场景模型，并已开源。苹果高层推动Siri向ChatGPT方向转型，内部测试的聊天机器人已接近ChatGPT水平，计划增加网页搜索和App调用等功能。苹果正谨慎处理Siri升级策略，避免提前公布功能，并考虑将Siri与Apple Intelligence品牌分开，以规避负面影响。谷歌超级编码智能体Jules上线据新智元公众号5月20日消息，谷歌发布AI编程助手Jules，基于Gemini 2.5 Pro模型，提供每日5次免费使用额度，可直接连接GitHub仓库。Jules能自主完成代码编写、Bug修复、测试运行等任务，会先生成详细计划供开发者审查，并可在云虚拟机中验证代码。产品即将推出Codecast功能可生成代码库音频摘要，Gartner预测到2028年75%新应用开发将使用AI辅助编程。Google NotebookLM

点击免费查看完整报告

AI产业跟踪：智源BGE向量模型全面登顶SOTA，谷歌Veo 3首次实现音画同步

AI行业动态

AI应用资讯

国内资讯

海外资讯

AI大模型资讯

国内资讯

海外资讯

科技前沿

你可能感兴趣

传媒行业周报：5月游戏版号发放，谷歌发布AI视频生成模型Veo 3

AI周观察：英伟达FY26Q3表现亮眼，谷歌发布系列SOTA模型

AI行业跟踪32期：Llama 3.1与闭源模型差距缩小，谷歌对AI投资态度积极

AI产业跟踪海外：海外Raycast在Mac上集成多个AI大模型，谷歌发布Gemini2.5模型

AI产业跟踪海外：BindCraft实现功能性结合蛋白设计，谷歌PH-LLM发布

全球科技（计算机）行业周报：谷歌发布最新AI模型Gemini 3，OpenAI推出GPT-5.1 Pro

AI动态汇总：OpenAI发布搭建智能体新工具，谷歌发布轻量级模型Gemma 3

AI产业跟踪：商汤发布并开源NEO原生多模态模型架构，实现视觉、语言深层统一

事件点评：发布源2.0模型，全面拥抱AI浪潮

人工智能行业跟踪报告：谷歌发布开源模型Gemma，端侧生成式AI或现增量需求