行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024中国开源开发者报告

信息技术 2025-01-24 - OSCHINA&Gitee&Gitee AI Marco.M

2024年中国开源模型：崛起与变革

崛起与变革

2024年，中国在开源人工智能模型领域的崛起和变革成为全球瞩目的焦点。中国学术界和产业界大力推进自主研发，实现了显著飞跃并在全球取得显著成就。以下是中国开源模型在这一年取得的重大成就和未来展望。

崛起

技术突破：自主研发的模型如GLM、Qwen、DeepSeek等在国内外评测中表现卓越。
社区贡献：智谱的CogVideoX成为全球首批开源的文生视频模型之一，增强了中国模型的全球竞争力。
生态完善：政府支持和企业投入促进了人工智能生态体系的迅速完善，中国有望在人工智能领域占据更核心地位。

变革

端上模型：小型模型性能增强，降低云端推理成本，提升用户隐私控制。
推理扩展：通过延长“思考时间”优化模型性能，提升逻辑推理和复杂任务表现。
隐私保护：通过开源策略分享研究细节，推动行业整体技术水平进步。

开源模型的持久性

开源模型未必更先进，但会更长久。大模型赛道的特点包括：

市场化程度高：基础要素大多在市场上获得。
竞争格局：海外“一超多强”，国内“多头并举”。
商业化路径：技术先进性、C端用户基数和生态系统大小等。

开源策略的重要性

技术先进性：大模型领域的先进技术尚未带来可观收入。
C端用户：缺乏忠诚度，难以产生独特粘性。
开源策略：通过开源策略分享研究细节，促进全球开发者之间的协作与创新。

总结

2024年中国开源模型的发展展现了技术、生态和社会价值之间的深度协同，为全球人工智能发展注入源源不断的动力。未来，中国开源模型有望继续引领全球技术进步，为全人类的智能化生活提供更丰富的解决方案与可能性。

目录 Part1：中国开源开发者生态数据 04 | Gitee 数据篇15 | OSS Compass Insight P a r t2 ： T O P 1 0 1 - 2 0 2 4 大模型观点 21 | 2024 年中国开源模型：崛起与变革26 |开源模型未必更先进，但会更长久30 |大模型撞上“算力墙”，超级应用的探寻之路36 | AI 的三岔路口：专业模型和个人模型40 | 2024 年 AI 编程技术与工具发展综述45 | RAG 的 2024：随需而变，从狂热到理性51 |大模型训练中的开源数据和算法：机遇及挑战57 | 2024 年 AI 编程工具的进化62 | AI 开发者中间件工具生态 2024 年总结66 | AI Agent 逐渐成为 AI 应用的核心架构68 |谈开源大模型的技术主权问题72 | 2024:大模型背景下知识图谱的理性回归77 |人工智能与处理器芯片架构89 |大模型生成代码的安全与质量93 | 2024 年 AI 大模型如何影响基础软件行业中的「开发工具与环境」98 |推理中心化：构建未来 AI 基础设施的关键 Part 3：国内 GenAI 生态高亮瞬间 104 |中国 GenAI 消费应用人气榜 Top10 106 | AI 创新应用开发大赛获奖作品编委会局长，OSCHINA 副主编肖滢，OSCHINA 副主编李泽辰，Gitee 主编高瞻，Gitee AI 运营设计：张琪开发者是开源生态的重要支柱。本章结合、的数据分析，勾勒 2024 年中国开源开发者的整体画像趋势轮廓，主要反映中国开源开发者使用开源大模型概况、开源项目/组织健康度，以及中国开源社区的生态评估等情况。 Gitee 数据篇开发者是社区的力量源泉开发者是社区的力量源泉和开源共同体拥抱开放透明 40 万 2024年Gitee开源组织数量 2024年，Gitee上的开源组织数量达到了40万个，越来越多的开发者选择凝聚在一起，共同拥抱开放透明的组织协同。本年度最受开发者关注的开源组织 2024年，技术大厂及其大型项目依然备受关注，它们推动着技术的快速发展和广泛应用。同时，「民间」开源组织虽然在关注度上不及大厂主导的项目，但它们在某些技术细分领域中却拥有非常强的影响力和活跃的开发者社区。两者的不同发展模式相互补充，共同推动了国内开源生态的繁荣与多样化。本年度最受开发者喜爱的开源组织收获Star数方面，更加注重创新和技术探索「民间」开源组织更加「接地气」，受到了更多开发者的喜爱。虽然面临资源的挑战，但它们的灵活性和社区驱动力使得它们获得了更多开发者的支持。本年度最活跃的开源组织不同开源组织在Issue解决和PR处理数量上的差异，反映了它们在开发活跃度、社区参与度和技术成熟度上的不同战略。技术大厂主导的项目往往具有较高的资源投入和社区管理效率，而民间组织则可能更注重技术问题的快速解决，并逐步吸引更多的开发者参与贡献。编程语言流行趋势 2024年，Gitee上的编程语言依然由Java、JavaScript、Python引领潮流。与此同时变化也在悄然进行中：凭借AI开发热潮，C与C++依然在今年焕发着生命力，流行度已与十年前不相上下。 TypeScript依然强势增长，随着越来越多的开发者从JavaScript转向TypeScript，其未来的发展更值得期待。11 / 111 本年度增长最快编程语言 TypeScript连续两年成为了Gitee年度增长最快编程语言（2023年增长率为49.04%），同样持续强势的还有Rust以及C语言家族。此外，Dart及Arduino首次上榜，符合2024年跨平台开发及机器人开发的潮流。开源许可证方面，MIT及Apache-2.0依然是Gitee开发者最常用的开源许可证，使用它们作为开源许可证的仓库占比超过了61%。木兰宽松许可证第二版（MulanPSL-2.0）紧随其后，获得了越来越多国内开发者的认可的MulanPSL-2.0已经连续两年成为了Gitee最常用开源许可证的前列。可以预见，在未来的国内开源生态中，木兰宽松许可证将会越来越主流。本年度使用率增长最多的开源许可证 2024年，宽松许可证依然是开发者选择的主流，BSL、BSD、CC、Zlib等宽松许可证依然增长迅速。值得注意的是，除了LGPL、AGPL这样大家熟知的较为严格的许可证外，相比于木兰宽松许可证更加严格的木兰公共许可证第二版（MulanPubL-2.0）也在今年受到了更多关注。 OSS Compass Insight OSS Compass Insight 2 0 2 4中国开源开发者报告重点聚焦大模型，本章节以大模型L L M开发技术栈作为切入点，将深入探讨以下中国A I大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、 A I 辅助编程、 L L M应用开发框架、模型微调、推理优化、 L L MA g e n t ，以及检索增强生成（ R A G ）等多个关键技术栈。为了更全面客观地展示中国大模型L L M开发技术栈的开源社区生态，我们使用了对开源社区的生态评估体系，希望通过这些数据洞察中国开源开发者在A I技术领域的活跃度、生产力和创新能力。 O S SC o m p a s s提供了一个公共的平台用来评估开源项目和社区的健康度，该平台对整个社区开放，支持G it H u b和G it e e等平台托管的开源项目。 OSS Compass Insight 生产力-协作开发指数作为国内及业内领先的A I开发基础设施，本部分图表中的开发框架、向量数据库、开发平台、大模型均表现出色，代表着它们的代码提交频率、参与者、代码合并比率等协作开发工作保持着较高的水平。 OSS Compass Insight 稳健性-活跃度作为AI开发生态中的关键组成部分，本部分图表中的开发框架、大模型及相关工具在活跃度的表现各有千秋。如应用开发平台Dify受行业技术更新影响较小，其活跃度始终保持着较高水平；而大语言模型MOSS则较易受技术更新影响，活跃度随时间整体呈下滑趋势。 OSS Compass Insight 创新力-组织活跃度开源组织的活跃程度成为衡量社区生态建设是否繁荣的重要指标之一。本部分图表中的多个组织在社区活跃度上表现各有差异。如某些组织在开源项目中长期保持较高的贡献水平，展现出其对生态建设的持续支持；而部分组织的活跃度则随时间推移逐渐下降，可能受到内部资源调整或技术方向变化的影响。本章汇集了来自不同领域专家和开发者对开源大模型和人工智能技术的深刻见解，不仅涵盖了技术层面的深入探讨，也触及了社会、伦理和政策层面的广泛议题。从对中国开源模型崛起的分析，到对开源模型持久性的思考，再到对超级应用探寻之路的探索，每篇文章都为我们提供了独特的视角，帮助我们理解开源大模型在 AI 技术领域的作用和影响。 2024 年中国开源模型：崛起与变革文/Tiezhen、Adina、Lu Cheng 2024 年，中国在开源人工智能模型领域的崛起和变革成为全球瞩目的焦点：从学术到产业，从技术到生态，中国通过自主研发和协同创新，逐步完成了从“追随者”到“引领者”的转变。这种转变不仅是技术实力的体现，更是中国人工智能生态系统快速完善的真实写照。以下，我们将从崛起与变革两个维度，探讨中国开源模型在这一年取得的重大成就和未来展望。崛起从“追随者”到“引领者” 2024 年，中国学术界和产业界大力推进自主研发，在技术创新和模型能力上实现了显著飞跃，并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示，从智谱的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列，这些自主研发的模型在国内外各项评测中表现卓越。 https://huggingface.co/spaces/zh-ai-community/zh-model-rel 其中，Qwen 系列凭借灵活的多尺寸选项，强大的多语言支持以及友好的模型授权功能，赢得了社区开发者的高度评价。DeepSeek 通过引入多头潜在注意力（Multi-head LatentAttention, MLA）技术，在性能和成本上实现了革命性突破，开创高性价比的 AI 新纪元。智谱的 CogVideoX 系列文生视频模型，成为全球首批开源的文生视频模型之一，不仅在技术方面让中国视频生成模型列入领先梯队，强化了中国模型在全球范围的竞争力，也为国际开源生态的发展产生了积极的影响，为全球开发者提供了更多创新和应用的可能。中国开源模型从最初的质疑中崛起，逐步赢得了广泛认可。这不仅彰显了中国开源模型从追随者到行业引领者的跨越式成长，也为全球人工智能发展注入了新的活力与动力。中国开源模型的成功并非偶然。在政府对人工智能产业的持续支持以及国内人工智能行业对模型研发的巨额投入下，从基础算法到行业应用、从算力基础设施到数据资源整合，中国人工智能生态体系正在迅速完善。这一趋势表明，未来中国有可能在全球人工智能领域占据更为核心的地位。开源生态的繁荣与协作随着开源模型影响力的提高，中国开源社区的活跃度也明显提升。无论是企业、研究机构还是个体开发者都更加积极地参与到开源工作中。以阿里巴巴的通义千问 Qwen 为例，据不完全统计，截止 2024 年 9 月，全球已有近 8万基于 Qwen 的衍生模型，超越了 Meta 的 Llama。该系列模型已被集成到 Hugging FaceTransformers、Hugging Chat 和阿里自家的百炼平台中，极大促进了全球开发者的交流和协作，形成了国际化开源生态。北京智源研究院和上海人工智能实验室等研究机构，通过与企业和高校合作及开源平台的建设，建立了更完善的协作机制，从而在开源模型 (如 InternLM) 和数据集 (如 Infinity-MM) 领域贡献了大量有影响力的基础工作和资源。 2024 年，中国开源社区涌现出众多高质量的自发研究成果。其中，MAP 团队推出的全开源模型 Map Neo 引人瞩目。该模型在训练数据、脚本以及模型对齐工作上实现了全面公开，成为国内少有的真正意义上完全开源的项目。而 InstantX 团队的 InstantID 则作为中国模型在国际开源社区的 2024 年首秀，一经发布便获得了广泛关注，为中国模型在全球开源生态中赢得了更多认可。平衡发展与合规创新中国在推动人工智能技术发展的同时，也在监管层面努力建立了完善、透明的治理机制。这种监管创新为开源模型的发展提供了稳定的政策环境，同时确保技术应用符合社会价值导向。比如《人工智能示范法 2.0（专家建议稿）》对于免费且已开源方式提供人工智能研发的个人和组织给予减轻或免承担法律责任；《生成式人工智能服务管理暂行办法》则明确了人工智能技术的使用和合规要求，促进了开源模型在合规框架下良性发展。变革端上模型的兴起与隐私保护随着小型模型

点击免费查看完整报告

2024中国开源开发者报告

2024年中国开源模型：崛起与变革

崛起与变革

开源模型的持久性

开源策略的重要性

总结

你可能感兴趣

2023中国开源开发者报告

2021中国开源开发者报告

中国生成式AI开发者洞察2024

2024中国开发者画像洞察研究报告

华为开发者大会·2025即将召开，机构称华为终端将全面进入鸿蒙时代，这家公司多款产品已适配开源鸿蒙系统；“五一”黄金周的预订热潮已提前到来..

谷歌突击封杀使用开源智能体OpenClaw的开发者账号

全球科技行业周报：B站开源轻量级Index-1.9B系列模型，原生鸿蒙面向开发者启动测试

【盘中宝】华为鸿蒙生态加速，又一高校成立开源鸿蒙技术俱乐部，已有超200万开发者投入到相关生态的开发中，鸿蒙开发人才需求紧缺，这家企业上线了多个鸿蒙相关课程

随着Meta的Llama2 开源，开源模型，以及聚集大模型开发者的开源社区，正在发挥不可或缺的作用

中国AI开发者应用生态调研报告