行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

阿里发布 Qwen3-VL 4B、8B，豆包语音合成 2.0 升级

信息技术 2025-10-21 国泰海通证券 yuAner

AI行业动态
- 玻色量子完成数亿元A++轮融资，用于光量子计算机研发、芯片工艺建设及商业生态拓展。
AI应用资讯
- 雄安新区上线AI红绿灯，通过AI算法动态调整信号灯时长，提升路口通行效率。
AI大模型资讯
- 腾讯发布DeepGEM病理大模型，可在一分钟内预测肺癌基因突变，准确率达78%至99%。
- 清华大学等联合提出稀疏注意力模型InfLLM-V2，长文本理解性能达稠密模型的98%以上，推理速度提升4至9倍。
- 阿里云发布Logics-Parsing开源模型，显著提升复杂排版、表格等内容的解析能力。
- 蚂蚁集团开源dInfer框架，单批次推理场景下平均吞吐量达847.22 tokens/s，较Fast-dLLM提升超10倍。
- 阿里通义千问团队推出Qwen3-VL系列4B与8B版本，性能超越Gemini 2.5 Flash Lite和GPT-5 Nano。
- LiblibAI 2.0升级为完整“AIGC流水线”，集成多款热门模型，但用户体验仍需优化。
- 火山引擎发布豆包语音合成2.0和豆包声音复刻模型2.0，实现深度语义理解与情感演绎。
科技前沿
- 上海交大与上海AI Lab推出MM-HELIX项目及AHPO算法，提升多模态大模型的反思与复盘能力，Qwen2.5-VL-7B在多模态复杂推理任务上准确率提升18.6%。
风险提示
- AI软件销售不及预期，capex投资计划变动，AI产品及大模型研发不及预期等。
- 受AI产业链新建产能变化影响，全球AI软件销售不及预期，或因上下游芯片产出限制，影响产业产品研发。

摘要：产业最新趋势跟踪，点评产业最新风向刘峰(研究助理)0755-23976068liufeng6@gtht.com登记编号S0880124060013 【新材料产业周报】伊泰化工万吨级高碳α-烯烃项目公示，华彩科技等多家新材料企业完成融资2025.10.19【数字经济资本市场周概览】云迹科技港交所主板挂牌上市，千里科技向港交所递交招股书2025.10.19【数字经济周报】博通推出业界首个Wi-Fi 8芯片解决方案2025.10.19全球最大固体运载火箭“引力一号”第二次成功发射——商业航天跟踪17期2025.10.16【AI产业跟踪-海外】Figure三代机器人Figure03发布，OpenAI发布Sora 2 2025.10.15 目录 1. AI行业动态..........................................................................................................32. AI应用资讯..........................................................................................................33. AI大模型资讯......................................................................................................34.科技前沿..............................................................................................................45.风险提示..............................................................................................................4 1.AI行业动态玻色量子完成数亿元A++轮融资据玻色量子公众号10月15日消息，国内量子计算领军企业北京玻色量子科技有限公司完成数亿元A++轮融资，由华德科创、南山战新投联合领投，广发信德、湖南财信产业基金、纬德信息等跟投，老股东啟赋资本持续加码。本轮资金将用于“专用”与“通用”光量子计算机研发、量子计算芯片工艺建设、国内首个规模化光量子计算机制造工厂建设及“量子计算+AI”商业生态拓展。玻色量子已自主研发1,000量子比特专用光量子计算机，支持PyTorch量子原生AI训练套件，广泛应用于AI训练、生物制药、金融等领域。。 2.AI应用资讯雄安新区上线AI红绿灯据中国电信公众号10月14日消息，雄安新区容东片区的数字道路正式启用AI红绿灯，实现“灯看路放行”。该系统通过信号杆交通感知设备实时采集车流与行人数据，运用AI算法动态调整信号灯时长，最大化路口通行效率。AI红绿灯在高峰期缓解拥堵、平峰期减少等待，同时支持行人优先、单向高流量加时及深夜阶段智能跳过空闲相位，实现绿灯空放率低于2%。这一建设是中国电信推动数字道路与智慧城市建设的重要举措，结合智能灯杆与无人机巡检，实现道路设施运维及交通管理自动化，5公里巡检仅需15分钟，成本下降约60%，提升了城市交通与运营管理效率。 3.AI大模型资讯腾讯发布DeepGEM病理大模型据腾讯云公众号10月13日消息，腾讯生命科学实验室携手广州医科大学第一附属医院、广州呼吸健康研究院联合研发的DeepGEM病理大模型，已在肺癌基因突变预测中完成大规模验证。该模型只需常规病理切片图像，即可在一分钟内预测肺癌基因突变，准确率达78%至99%，无需基因测序，无需人工标注肿瘤区域，可自动识别图像中关键病灶，并生成突变空间分布图。 InfLLM-V2开源据新智元公众号10月9日消息，清华大学、OpenBMB与哈工大联合提出稀疏注意力模型InfLLM-V2，可在保持稠密模型性能的同时，大幅提升长文本处理效率。该模型仅需5B长文本数据即可完成训练，长文本理解性能达稠密模型的98%以上，在推理速度上提升4至9倍。InfLLM-V2通过「短长无缝切换」机制，在短文本场景保持稠密注意力精度，长文本则自动切换为稀疏模式，显著降低计算与显存开销。研究团队基于该架构已推出MiniCPM4与MiniCPM4.1两款开源模型，并计划将InfLLM-V2集成进主流推理框架，推动长序列高效处理技术落地。 Logics-Parsing开源据阿里数据公众号10月16日消息，阿里云数据技术及产品部团队在云栖大会上正式发布并开源自主研发的PDF解析模型Logics-Parsing。该模型基于Qwen2.5-VL架构，通过引入以布局为中心的强化学习LC-RL与“SFT-then-RL”两阶段训练策略，显著提升了模型对复杂排版、表格、公式、手写体等内容的解析能力。Logics-Parsing可实现端到端文档处理，从PDF或图片直接生成结构化输出，精准还原阅读顺序与逻辑关系。实测显示，其在数学公式、化学分子式及手写识别等任务上表现达到SOTA水平，为AI在文档理解与知识提取领域的落地提供了新路径。 dInfer框架据AIGC开放社区公众号10月15日消息，蚂蚁集团联合多所高校发布论文《dInfer:An Efficient Inference Framework for Diffusion Language Models》，并正式开源高性能扩散语言模型推理框架dInfer。该框架针对扩散模型推理中的高计算成本、缓存失效和并行冲突三大难题，提出“层级解码”“信用解码”和“邻近KV缓存刷新”等创新方案，实现高效稳定的并行生成。实测结果显示，dInfer在单批次推理场景下的平均吞吐量（TPS）达到847.22 tokens/s，较Fast-dLLM提升超10倍，较自回归标杆vLLM快3倍以上。阿里发布Qwen3-VL 4B、8B 据智东西公众号10月15日消息，阿里通义千问团队推出Qwen3-VL系列4B与8B版本，提供Instruct与Thinking两类模型，尺寸更小、VRAM占用更低，但保留全部核心能力。在STEM、VQA、OCR、视频理解及Agent任务等权威基准中，Qwen3-VL表现超越Gemini 2.5 Flash Lite和GPT-5 Nano，甚至与半年前的旗舰Qwen2.5-VL-72B相媲美。Qwen3-VL 8B Instruct/Thinking在多项测评中取得SOTA成绩，4B版本亦展现“以小敌大”的实力。该模型支持更广泛硬件部署，并已在全球开源社区及OpenRouter图像处理榜单中获得广泛认可，配套发布的Cookbook进一步提升用户多模态应用效率。 LiblibAI 2.0升级据量子位公众号10月15日消息，LiblibAI 2.0实现了从“找模型”到完整“AIGC流水线”的升级。新版本不仅集成了Qwen-Image、Seedream 4.0、Nano-Banana及Midjourney V7等热门模型，还整合海螺2.0、通义万相2.5、可灵2.5、Vidu Q1等视频模型，并支持视频特效、首尾帧调整等功能，用户可在平台内直接生成图像与视频作品。界面风格更贴近“ChatGPT+Canva”，降低了创作门槛，并提供全球最大图片风格库和模板化操作。不过部分用户反映，模板提示词锁死、一次生成多图速度有限、页面偶有卡顿。整体来看，LiblibAI 2.0已从模型社区成功迈向创作者工具闭环，潜力巨大，但用户体验仍需优化。豆包语音合成2.0升级据火山引擎公众号10月16日消息，火山引擎发布豆包语音合成模型2.0（Doubao-Seed-TTS 2.0）和豆包声音复刻模型2.0（Doubao-Seed-ICL 2.0），实现深度语义理解与情感演绎。2.0版本可理解多轮对话、用户指令及隐含情绪，让语音从“朗读”升级为“理解后的精准表达”，互动更拟人、情感更饱满、指令控制更精准。教育场景下，复杂公式符号朗读准确率达90%。声音复刻2.0可秒级还原用户声线，并在对话与内容配音中传递情绪。 4.科技前沿上海交大&上海AI Lab发布MM-HELIX与AHPO 据量子位公众号10月19日消息，上海交通大学与上海人工智能实验室联合推出MM-HELIX项目及AHPO算法，旨在提升多模态大模型的反思与复盘能力。MM-HELIX构建了包含42种高难度任务的Benchmark，用以精准评估模型的长链反思推理能力，并发布MM-HELIX-100K数据集，通过步骤启发式响应生成（SERG）高效训练模型进行自我纠错。结合AHPO自适应混合策略优化算法，实现“新手引导—熟练放手”的动态教学，使模型既学专家智慧，又培养独立思考能力。实验显示，搭载MM-HELIX-100K与AHPO的Qwen2.5-VL-7B在多模态复杂推理任务上准确率提升18.6%，并在通用数学与逻辑任务上平均提升5.7%，显示出显著的泛化反思能力。 5.风险提示 AI软件销售不及预期，capex投资计划变动，AI产品及大模型研发不及预期等。受AI产业链新建产能变化影响，及全球AI软件销售不及预期，或因上下游芯片产出及量产能力限制，影响产业产品研发情况。本公司具有中国证监会核准的证券投资咨询业务资格分析师声明作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力，保证报告所采用的数据均来自合规渠道，分析逻辑基于作者的职业理解，本报告清晰准确地反映了作者的研究观点，力求独立、客观和公正，结论不受任何第三方的授意或影响，特此声明。免责声明本报告仅供国泰海通证券股份有限公司（以下简称“本公司”）的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅在相关法律许可的情况下发放，并仅为提供信息而发放，概不构成任何广告。本报告的信息来源于已公开的资料，本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时，本公司对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。在任何情况下，本报告中的信息或所表述的意见均不构成对任何人的投资建议。在任何情况下，本公司、本公司员工或者关联机构不承诺投资者一定获利，不与投资者分享投资收益，也不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者务必注意，其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。本公司利用信息隔离墙控制内部一个或多个领域、部门或关联机构之间的信息流动。因此，投资者应注意，在法律许可的情况下，本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易，也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下，本公司的员工可能担任本报告所提到的公司的董事。市场有风险，投资需谨慎。投资者不应将本报告作为作出投资决策的唯一参考因素，亦不应认为本报告可以取代自己的判断。在决定投资前，如有需要，投资者务必向专业人士咨询并谨慎决策。本报告版权仅为本公司所有，未经书面许可，任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的，需在允许的范围内使用，并注明出处为“国泰海通证券研究”，且不得对本报告进行任何有悖原意的引用、

点击免费查看完整报告

阿里发布 Qwen3-VL 4B、8B，豆包语音合成 2.0 升级

你可能感兴趣

国君传媒|豆包实时语音大模型上线,AI交互水平再升级

通信行业点评报告：字节发布豆包实时语音模型，重视AI产业链

豆包实时语音大模型正式推出，1月国产及进口游戏版号发布

东芯股份广和通模块存储核心供应商豆包发布实时语音大模型

传媒行业周观察：阿里通义万相发布视频生成模型，字节豆包亦发布在即；国庆档电影排片丰富

互联网行业研究：阿里发布多款千问模型，豆包日均Token用量超120万亿

阿里交互式世界模型HappyOyster落地，腾讯混元3D世界模型2.0发布

传媒行业周报：阿里开源全能视频模型腾讯发布混元图像2.0模型

通信行业点评报告：字节Force原动力大会亮点：豆包大模型1.6发布、多模态模型升级、Tokens加速增长、多行业落地

ChatGPT热点挖票豆包语音大模型产业链解析20250122

阿里发布 Qwen3-VL 4B、8B，豆包语音合成 2.0 升级

你可能感兴趣

国君传媒|豆包实时语音大模型上线,AI交互水平再升级

通信行业点评报告：字节发布豆包实时语音模型，重视AI产业链

豆包实时语音大模型正式推出，1月国产及进口游戏版号发布

东芯股份广和通模块存储核心供应商豆包发布实时语音大模型

传媒行业周观察：阿里通义万相发布视频生成模型，字节豆包亦发布在即；国庆档电影排片丰富

互联网行业研究：阿里发布多款千问模型，豆包日均Token用量超120万亿

阿里交互式世界模型HappyOyster落地，腾讯混元3D世界模型2.0发布

传媒行业周报：阿里开源全能视频模型 腾讯发布混元图像2.0模型

通信行业点评报告：字节Force原动力大会亮点：豆包大模型1.6发布、多模态模型升级、Tokens加速增长、多行业落地

ChatGPT热点挖票豆包语音大模型产业链解析20250122

传媒行业周报：阿里开源全能视频模型腾讯发布混元图像2.0模型