您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:AI产业跟踪-海外:微软开源Phi-4新版 - 发现报告

AI产业跟踪-海外:微软开源Phi-4新版

2025-07-16李嘉琪、刘峰国泰君安证券大***
AI智能总结
查看更多
AI产业跟踪-海外:微软开源Phi-4新版

请务必阅读正文之后的免责条款部分1of7【AI产业跟踪-海外】微软开源Phi-4新版摘要:产业最新趋势跟踪,点评产业最新风向[Table_Summary]AI行业动态Meta挖走苹果AI基础模型负责人高盛着力培育“AI原住民”引领未来AI应用资讯微软上线Deep Research智能体谷歌Veo 3升级马斯克发布Grok 4AI大模型资讯伯克利开源代码Agent DeepSWEEarthMind开源多模态大模型DeepSeek R1T2成热门变体模型开源项目ZLUDA支持非英伟达芯片运行CUDA基于能量机制的EBTAI模型Hugging Face开源SmolLM3微软开源Phi-4新版扩散模型Mercury首个无分词器语言模型H-NetAI科技前沿AI助力破解十年顽疾AI设计药物进入人体试验Meta新架构突破Transformer局限STAR技术带来生育新希望径向注意力技术引发AI视频生成效率革命MIT自适应语言模型英伟达等推出Fast-dLLM风险提示AI软件销售不及预期,capex投资计划变动,AI产品及大模型研发不及预期等。 刘峰(研究助理)0755-23976068liufeng6@gtht.comS0880124060013 目录1. AI行业动态..........................................................................................................32. AI应用资讯..........................................................................................................33. AI大模型资讯......................................................................................................44.科技前沿..............................................................................................................55.风险提示..............................................................................................................6 请务必阅读正文之后的免责条款部分2of7 1.AI行业动态Meta挖走苹果AI基础模型负责人据DeepTech公众号7月8日消息,苹果人工智能基础模型团队负责人庞若鸣离职加入Meta超级智能团队,其团队开发的大语言模型支撑着AppleIntelligence核心功能。此事发生在苹果AI技术路线存分歧的敏感时期,内部在自主模型与外部模型间摇摆,且组织架构混乱,此前已有核心成员离职。苹果在AI领域依赖外部技术,与垂直整合理念相悖,加之对隐私的坚持限制模型训练,面临OpenAI、谷歌、Meta等多方竞争压力,若不调整战略恐面临更多人才流失。高盛着力培育“AI原住民”引领未来据AIGC公众号7月8日消息,高盛重视培养“AI原住民”,即从小接触生成式AI的年轻从业者,认为他们能更好适应并塑造AI未来,而非被其取代。公司为这些年轻人提供技能与工具,助其成为变革领导者。高盛推出内部AI程序GS AIAssistant,提升工作效率并降低数据泄露风险。其认为AI整合关乎文化、教育和人性,培养这代人对定义未来工作与社会意义重大。2.AI应用资讯微软上线Deep Research智能体据AIGC公众号7月8日消息,微软在Azure AI Foundry推出Deep Research公开预览版,该智能体集成OpenAI的o3模型与必应搜索能力,可自动化处理复杂研究任务。其能自主拆解问题、调用必应抓取权威信息,经o3模型推理分析后生成含来源引用和推理路径的结构化报告,支持科研、金融等多领域场景。开发者可通过API将其集成到应用中,还能与逻辑应用等工具组合实现工作流自动化,且具备企业级安全合规与可观测性,为复杂研究提供高效解决方案。谷歌Veo 3升级据新智元公众号7月9日消息,谷歌Veo 3实现重大升级,用户上传一张照片即可生成带音频的视频,角色在多镜头下保持高度一致性。其支持丰富运镜功能,可生成不同风格内容,如科幻片、广告、动漫等。用户能选择视频质量,虽高质量模式消耗更多credits,但效果惊艳。该升级为AI叙事和内容创作带来突破,目前需在Flow平台体验。马斯克发布Grok 4据DeepTech公众号7月10日消息,马斯克旗下xAI发布Grok 4系列模型,含单代理版Grok 4和多代理版Grok 4 Heavy,后者支持四个代理同时工作,上下文窗口达256k tokens。其推理能力在多项基准测试中居首,HLE测试得分超谷歌Gemini等模型。后续还将推出多模态等模型。OpenAI将推出AI驱动浏览器据AIGC公众号7月11日消息,OpenAI即将发布一款AIAgent驱动的浏览器,未来几周内上线,旨在以人工智能改变网页浏览方式,挑战谷歌Chrome的市场主导地位。该浏览器将部分用户交互整合在类ChatGPT的聊天界面,而非跳转网站,还能整合AI工具自动执行预订餐厅、填表等任务。此举是其融入用户生活战略的一部分,也为自主控制数据。 3.AI大模型资讯伯克利开源代码Agent DeepSWE据新智元公众号7月7日消息,伯克利团队推出的DeepSWE在代码任务基准测试中表现突出。该模型基于Qwen3-32B,仅通过强化学习训练,采用改良的GRPO++算法及7种优化策略,在R2E-Gym环境中学习复杂编程行为。其开源了模型、训练代码和数据集,还通过测试时扩展策略提升性能,为开源代码智能体发展提供新范式,有望改变编码助手领域格局。EarthMind开源多模态大模型据AIGC公众号7月7日消息,意大利特伦托大学等机构联合开源多模态大模型EarthMind,专为地球观测数据设计。该模型引入空间注意力提示(SAP)模块,通过交叉注意力图与真实掩码对比,引导模型精准定位目标区域;跨模态融合模块采用在线对比学习实现光学与SAR影像特征对齐,并通过动态加权实现模态互注意力。其多粒度处理架构可同时应对图像、区域、像素级任务,为自然灾害监测、城市规划评估等提供统一分析框架,代码已在GitHub开源。DeepSeek R1T2成热门变体模型据PaperAgent公众号7月7日消息,DeepSeek-TNG-R1T2-Chimera模型跻身抱抱脸热门排行榜Top9,该模型基于DeepSeek R1-0528、R1和V3-0324构建,在智能与输出token长度间达成新平衡。其速度比常规R1快约20%,较R1-0528快两倍以上,在GPQA和AIME-24等基准测试中表现更优,且交流风格良好。相较于同类模型,R1T2被认为是R1的理想替代品,若无需R1-0528级别智能,也可作为其更经济的替代选择,在推理能力需求场景中更具优势。开源项目ZLUDA支持非英伟达芯片运行CUDA据量子位公众号7月8日消息,开源项目ZLUDA最新版本支持大模型工作负载,登上GitHub热榜。该项目旨在让非英伟达GPU运行CUDA程序,目前聚焦机器学习领域,支持AMD等多种GPU架构,正推进对llm.c、PyTorch等的适配,并优化了日志系统与运行时编译兼容性,为跨平台GPU计算提供新可能。基于能量机制的EBTAI模型据量子位公众号7月8日消息,弗吉尼亚大学团队提出的EBT(基于能量的Transformer)架构,通过能量最小化过程模拟人类“想清楚再回答”的思考模式,在跨模态及数据、参数、计算量等多维度超越主流模型。其源于EBM原理,通过优化能量函数解决建模难题,结合Transformer优势实现可扩展学习,为AI系统2思维研究提供新思路,展现出优异的扩展性与泛化能力。Hugging Face开源SmolLM3据AIGC公众号7月9日消息,HuggingFace推出的SmolLM3是一款30亿参数的顶级小模型,性能超越同类开源模型,支持128K长上下文和6种语言,具备深度思考与非思考双推理模式。其采用优化的Transformer架构,通过三阶段训练策略,融合网络、数学和代码数据,并经长上下文扩展及推理适应训练。模型开源架构细节与训练方法,助力开发者研究优化,被认为是3B领域的SOTA模型。微软开源Phi-4新版 据AIGC公众号7月10日消息,微软开源Phi-4家族新版Phi-4-mini-flash-reasoning,延续小参数高性能特点,适用于笔记本等边缘设备。其采用创新SambaY架构,通过门控存储单元实现跨层记忆共享,推理效率提升10倍,延迟降低2-3倍。在长文本生成、数学推理和长上下文检索等任务中表现优异,高级数学推理能力突出,为教育、科研等领域提供高效工具。扩散模型Mercury据量子位公众号7月10日消息,Inception Labs推出基于扩散技术的大语言模型Mercury,突破自回归模型逐词生成限制,采用从噪声到结构化输出方式,可并行生成并动态纠错。其在H100GPU上实现高吞吐量,代码生成速度比传统模型快10倍,响应时间大幅缩短,硬件占用减少。支持多语言代码生成,错误纠正能力强,为开发效率提升提供新工具。首个无分词器语言模型H-Net根据DeepTech公众号7月12日消息,Mamba提出者团队推出首个端到端无分词器语言模型H-Net。其通过动态分块机制处理原始数据,无需人工分词规则,性能可与基于分词的Transformer媲美。该模型采用分层架构,结合状态空间模型提升效率,在多语言处理、鲁棒性和可解释性上表现更优,尤其对缺乏明显分割线索的语言优势显著,有望成为通用基础模型核心架构,目前已开源相关代码和预训练资源。4.科技前沿AI助力破解十年顽疾据新智元公众号7月6日消息,ChatGPT成功诊断出一名被困扰十年的罕见基因突变病例,而此前数十位医生未能确诊。类似案例中,AI多次帮助患者识别出被忽视的病因。微软发布的MAI-DxO系统表现更优,在复杂病例诊断中准确率远超人类医生,且成本更低。这些进展显示AI在医疗诊断领域潜力巨大,有望开启“AI+医生”的新型共治模式,优化医疗资源利用,为解决看病难、诊断难问题提供新路径。AI设计药物进入人体试验据新智元公众号7月7日消息,DeepMind分拆的Isomorphic Labs宣布,首批基于AlphaFold研发的候选药物已进入人体临床试验。这标志着AI制药从理论迈向实践,有望解决新药研发周期长、成本高的痛点。AlphaFold能精准预测蛋白质结构及分子间相互作用,助力高效药物设计。Isomorphic Labs通过“AI+专家”模式,致力于提升研发效率与成功率,为医疗健康领域带来新希望。Meta新架构突破Transformer局限据量子位公众号7月7日消息,Meta推出2-Simplicial Transformer新架构,核心突破在于将传统Transformer的点积注意力扩展为三元线性操作,引入第三个键向量K'以捕获更丰富的关系,增强复杂任务表达能力。其借助OpenAI的Triton框架实现高效运算,结合滑动窗口机制平衡性能与成本。实验显示,该架构在较大模型上表现优于传统Transformer,缩放指数更高,随参数增加性能提升更快,尤其适用于数据有限场景,但目前计算复杂度和延迟仍需优化。 STAR技术带来生育新希望据AIGC公众号7月7日消息,哥伦比亚大学团队研发的STAR(精子追踪与恢复)技术,借助AI突破传统限制,为无精症患者带来生育可能。该技术通过高速成像拍摄海量图像,快速识别并分离罕见精子,避免了传统侵入性治疗的风险