您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰海通证券]:产业观察:【AI产业跟踪~海外】微软开源Phi~4新版 - 发现报告

产业观察:【AI产业跟踪~海外】微软开源Phi~4新版

信息技术2025-07-16李嘉琪、刘峰国泰海通证券Z***
AI智能总结
查看更多
产业观察:【AI产业跟踪~海外】微软开源Phi~4新版

【AI产业跟踪-海外】微软开源Phi-4新版摘要:产业最新趋势跟踪,点评产业最新风向OAI行业动态Meta挖走苹果AI基础模型负责人高盛着力培育“AI原住民”引领未来OAI应用资讯微软上线DeepResearch智能体谷歌Veo3升级马斯克发布Grok4OAI大模型资讯伯克利开源代码AgentDeepSWEEarthMind开源多模态大模型DeepSeekR1T2成热门变体模型开源项目ZLUDA支持非英伟达芯片运行CUDA基于能量机制的EBTAI模型Hugging Face 开源 SmolLM3微软开源Phi-4新版扩散模型Mercury首个无分词器语言模型H-NetαAI科技前沿AI助力破解十年顽疾AI设计药物进入人体试验Meta新架构突破Transformer局限STAR技术带来生育新希望径向注意力技术引发AI视频生成效率革命MIT自适应语言模型英伟达等推出Fast-dLLM风险提示AI软件销售不及预期,capex投资计划变动,AI产品及大模型研发不及预期等。请务必阅读正文之后的免责条款部分1of7 登记编号往期回顾高速新时代2025.07.142025.07.14变体模型,DeepSWE开源AIAgent2025.07.092025.07.082025.07.08 目录 1.AI行业动态2.AI应用资讯3.AI大模型资讯4.科技前沿5.风险提示 1.AI行业动态Meta挖走苹果AI基础模型负责人据DeepTech公众号7月8日消息,苹果人工智能基础模型团队负责人庞若鸣离职加入Meta超级智能团队,其团队开发的大语言模型支撑着Apple Intelligence核心功能。此事发生在苹果AI技术路线存分歧的敏感时期,内部在自主模型与外部模型间摇摆,且组织架构混乱,此前已有核心成员离职。苹果在AI领域依赖外部技术,与垂直整合理念相悖,加之对隐私的坚持限制模型训练,面临OpenAl、谷歌、Meta等多方竞争压力,若不调整战略恐面临更多人才流失。高盛着力培育“AI原住民”引领未来据AIGC公众号7月8日消息,高盛重视培养"AI原住民”,即从小接触生成式AI的年轻从业者,认为他们能更好适应并塑造AI未来,而非被其取代。公司为这些年轻人提供技能与工具,助其成为变革领导者。高盛推出内部AI程序GSAIAssistant,提升工作效率并降低数据泄露风险。其认为Al整合关乎文化、教育和人性,培养这代人对定义未来工作与社会意义重大。2.AI应用资讯微软上线DeepResearch智能体据AlGC公众号7月8日消息,微软在AzureAlFoundry推出DeepResearch公开预览版,该智能体集成OpenAl的o3模型与必应搜索能力,可自动化处理复杂研究任务。其能自主拆解问题、调用必应抓取权威信息,经03模型推理分析后生成含来源引用和推理路径的结构化报告,支持科研、金融等多领域场景。开发者可通过API将其集成到应用中,还能与逻辑应用等工具组合实现工作流自动化,且具备企业级安全合规与可观测性,为复杂研究提供高效解决方案。谷歌Veo3升级据新智元公众号7月9日消息,谷歌Veo3实现重大升级,用户上传一张照片即可生成带音频的视频,角色在多镜头下保持高度一致性。其支持丰富运镜功能,可生成不同风格内容,如科幻片、广告、动漫等。用户能选择视频质量,虽高质量模式消耗更多credits,但效果惊艳。该升级为Al叙事和内容创作带来突破,目前需在Flow平台体验。马斯克发布Grok 4据DeepTech公众号7月10日消息,马斯克旗下xAl发布Grok4系列模型,含单代理版Grok4和多代理版Grok4Heavy,后者支持四个代理同时工作,上下文窗口达256ktokens。其推理能力在多项基准测试中居首,HLE测试得分超谷歌Gemini等模型。后续还将推出多模态等模型。OpenAl将推出Al驱动浏览器据AIGC公众号7月11日消息,OpenAl即将发布一款AlAgent驱动的浏览器,未来几周内上线,旨在以人工智能改变网页浏览方式,挑战谷歌Chrome的市场主导地位。该浏览器将部分用户交互整合在类ChatGPT的聊天界面,而非跳转网站,还能整合AI工具自动执行预订餐厅、填表等任务。此举是其融入用户生活战略的一部分,也为自主控制数据。 3.AI大模型资讯伯克利开源代码AgentDeepSWE据新智元公众号7月7日消息,伯克利团队推出的DeepSWE在代码任务基准测试中表现突出。该模型基于Qwen3-32B,仅通过强化学习训练,采用改良的GRPO++算法及7种优化策略,在R2E-Gym环境中学习复杂编程行为。其开源了模型、训练代码和数据集,还通过测试时扩展策略提升性能,为开源代码智能体发展提供新范式,有望改变编码助手领域格局。EarthMind开源多模态大模型据AIGC公众号7月7日消息,意大利特伦托大学等机构联合开源多模态大模型EarthMind,专为地球观测数据设计。该模型引入空间注意力提示(SAP)模块,通过交叉注意力图与真实掩码对比,引导模型精准定位目标区域;跨模态融合模块采用在线对比学习实现光学与SAR影像特征对齐,并通过动态加权实现模态互注意力。其多粒度处理架构可同时应对图像、区域、像素级任务,为自然灾害监测、城市规划评估等提供统一分析框架,代码已在GitHub开源。DeepSeekR1T2成热门变体模型据PaperAgent公众号7月7日消息,DeepSeek-TNG-R1T2-Chimera模型身抱抱脸热门排行榜Top9,该模型基于DeepSeekR1-0528、R1和V3-0324构建,在智能与输出token长度间达成新平衡。其速度比常规R1快约20%,较R1-0528快两倍以上,在GPQA和AIME-24等基准测试中表现更优,且交流风格良好。相较于同类模型,R1T2被认为是R1的理想替代品,若无需R1-0528级别智能,也可作为其更经济的替代选择,在推理能力需求场景中更具优势。开源项目ZLUDA支持非英伟达芯片运行CUDA据量子位公众号7月8日消息,开源项目ZLUDA最新版本支持大模型工作负载,器学习领域,支持AMD等多种GPU架构,正推进对Im.C、PyTorch等的适配,并优化了日志系统与运行时编译兼容性,为跨平台GPU计算提供新可能。基于能量机制的EBTAI模型据量子位公众号7月8日消息,弗吉尼亚大学团队提出的EBT(基于能量的Transformer)架构,通过能量最小化过程模拟人类“想清楚再回答"的思考模式,优化能量函数解决建模难题,结合Transformer优势实现可扩展学习,为Al系统2思维研究提供新思路,展现出优异的扩展性与泛化能力。HuggingFace开源SmolLM3据AIGC公众号7月9日消息,HuggingFace推出的SmoILM3是一款30亿参数的顶级小模型,性能超越同类开源模型,支持128K长上下文和6种语言,具备深度思考与非思考双推理模式。其采用优化的Transformer架构,通过三阶段训练策略,融合网络、数学和代码数据,并经长上下文扩展及推理适应训练。模型开源架构细节与训练方法,助力开发者研究优化,被3B的SOTA模型。微软开源Phi-4新版 据AIGC公众号7月10 日消息,微软开源Phi-4家族新版Phi-4-mini-flash-reasoning,延续小参数高性能特点,适用于笔记本等边缘设备。其采用创新SambaY架构,通过门控存储单元实现跨层记忆共享,推理效率提升10倍,延迟降低2-3倍。在长文本生成、数学推理和长上下文检索等任务中表现优异,高级数学推理能力突出,为教育、科研等领域提供高效工具。扩散模型Mercury据量子位公众号7月10日消息,InceptionLabs推出基于扩散技术的大语言模型Mercury,突破自回归模型逐词生成限制,采用从噪声到结构化输出方式,可并行生成并动态纠错。其在H100GPU上实现高吞吐量,代码生成速度比传统模型快10倍,响应时间大幅缩短,硬件占用减少。支持多语言代码生成,错误纠正能力强,为开发效率提升提供新工具。首个无分词器语言模型H-Net分词器语言模型H-Net。其通过动态分块机制处理原始数据,无需人工分词规则,性能可与基于分词的Transformer媲美。该模型采用分层架构,结合状态空间模型提升效率,在多语言处理、鲁棒性和可解释性上表现更优,尤其对缺乏明显分割线索的语言优势显著,有望成为通用基础模型核心架构,目前已开源相关代码和预训练资源。4.科技前沿AI助力破解十年顽疾据新智元公众号7月6日消息,ChatGPT成功诊断出一名被困扰十年的罕见基因突变病例,而此前数十位医生未能确诊。类似案例中,AI多次帮助患者识别出被忽视的病因。微软发布的MAI-DxO系统表现更优,在复杂病例诊断中准确率远超人类医生,且成本更低。这些进展显示AI在医疗诊断领域潜力巨大,有望开启“AI+医生”的新型共治模式,优化医疗资源利用,为解决看病难、诊断难问题提供新路径。AI设计药物进入人体试验据新智元公众号7月7日消息,DeepMind分拆的IsomorphicLabs宣布,首批基于AlphaFold研发的候选药物已进入人体临床试验。这标志着Al制药从理论迈向实践,有望解决新药研发周期长、成本高的痛点。AlphaFold能精准预测蛋白质结构及分子间相互作用,助力高效药物设计。IsomorphicLabs通过“Al+专家”模式,致力于提升研发效率与成功率,为医疗健康领域带来新希望。Meta新架构突破Transformer局限据量子位公众号7月7日消息,Meta推出2-SimplicialTransformer新架构,核心突破在于将传统Transformer的点积注意力扩展为三元线性操作,引入第三个键向量K以捕获更丰富的关系,增强复杂任务表达能力。其借助OpenAl的Triton框架实现高效运算,结合滑动窗口机制平衡性能与成本。实验显示,该架构在较大模型上表现优于传统Transformer,缩放指数更高,随参数增加性能提升更快,尤其适用于数据有限场景,但目前计算复杂度和延迟仍需优化。 STAR技术带来生育新希望据AIGC公众号7月7日消息,哥伦比亚大学团队研发的STAR(精子追踪与恢复)技术,借助AI突破传统限制,为无精症患者带来生育可能。该技术通过高速成像拍摄海量图像,快速识别并分离罕见精子,避免了传统侵入性治疗的风险。首例应用已帮助一对多年不孕夫妇成功受孕,展现出AI在辅助生殖领域的潜力。除STAR外,AI在胚胎健康预测、卵子质量评估等生育相关场景亦有应用,为生育护理开辟新路径。径向注意力技术引发AI视频生成效率革命据新智元公众号7月8日消息,MIT与英伟达等团队提出的径向注意力技术,为Al视频生成带来突破。其基于时空能量衰减原理,采用O(n logn)复杂度的稀疏注意力机制,无需重新训练即可适配预训练模型。该技术使长视频生成速度提升3.7倍,训练成本降低4.4倍,同时保持甚至提升视频质量,兼容现有风格微调,为长视频生成的普及提供可能。MIT自适应语言模型据新智元公众号7月9日消息,MIT提出SEAL框架,让大模型通过生成自编辑指令,自主生成微调数据和优化参数以适应新任务。其借助强化学习,以任务表现为奖励优化自编辑生成。在知识整合和少样本学习任务中,SEAL表现优于传统方法及GPT-4.1生成的数据,为大模型自主学习提供新思路,相关成果已发布。英伟达等推出Fast-dLLM据AIGC公众号7月9日消息,英伟达、港大等机构联合提出Fast-dLLM,解决扩散语言模型推理效率低的问题。其通过块状生成方式实现KV缓存复用,结合基于置信度的并行解码策略,在提升速度的同时保持生成质量。为扩散模型高效应用提供新思路。5.风险提示Al软件销售不及预期,capex投资计划变动,Al产品及大模型研发不及预期等。AI市场竞争环境激烈,产品数量庞大,可能由于同类产品过多,差异化优势不明显导致AI软件销售不及预期。同时对市场前景预判存在变化导致投资计划的调整。同时在大模型研发方面