您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OSCHINA&Gitee&Gitee AI]:2024中国开源开发者报告 - 发现报告

2024中国开源开发者报告

AI智能总结
查看更多
2024中国开源开发者报告

目录 Part1: 中 国 开 源 开 发 者 生 态 数 据 04 | Gitee 数据篇15 | OSS Compass Insight P a r t2 : T O P 1 0 1 - 2 0 2 4 大 模 型 观 点 21 | 2024 年中国开源模型:崛起与变革26 |开源模型未必更先进,但会更长久30 |大模型撞上“算力墙”,超级应用的探寻之路36 | AI 的三岔路口:专业模型和个人模型40 | 2024 年 AI 编程技术与工具发展综述45 | RAG 的 2024:随需而变,从狂热到理性51 |大模型训练中的开源数据和算法:机遇及挑战57 | 2024 年 AI 编程工具的进化62 | AI 开发者中间件工具生态 2024 年总结66 | AI Agent 逐渐成为 AI 应用的核心架构68 |谈开源大模型的技术主权问题72 | 2024:大模型背景下知识图谱的理性回归77 |人工智能与处理器芯片架构89 |大模型生成代码的安全与质量93 | 2024 年 AI 大模型如何影响基础软件行业中的「开发工具与环境」98 |推理中心化:构建未来 AI 基础设施的关键 Part 3:国内 GenAI 生态高亮瞬间 104 |中国 GenAI 消费应用人气榜 Top10 106 | AI 创新应用开发大赛获奖作品 编委会 局长,OSCHINA 副主编肖滢,OSCHINA 副主编李泽辰,Gitee 主编高瞻,Gitee AI 运营设计:张琪 开发者是开源生态的重要支柱。 本章结合、的数据分析,勾勒 2024 年中国开源开发者的整体画像趋势轮廓,主要反映中国开源开发者使用开源大模型概况、开源项目/组织健康度,以及中国开源社区的生态评估等情况。 Gitee 数据篇 开发者是社区的力量源泉 开发者是社区的力量源泉 和开源共同体拥抱开放透明 40 万 2024年Gitee开源组织数量 2024年,Gitee上的开源组织数量达到了40万个,越来越多的开发者选择凝聚在一起,共同拥抱开放透明的组织协同。 本年度最受开发者关注的开源组织 2024年,技术大厂及其大型项目依然备受关注,它们推动着技术的快速发展和广泛应用。 同时,「民间」开源组织虽然在关注度上不及大厂主导的项目,但它们在某些技术细分领域中却拥有非常强的影响力和活跃的开发者社区。 两者的不同发展模式相互补充,共同推动了国内开源生态的繁荣与多样化。 本年度最受开发者喜爱的开源组织 收获Star数方面,更加注重创新和技术探索「民间」开源组织更加「接地气」,受到了更多开发者的喜爱。 虽然面临资源的挑战,但它们的灵活性和社区驱动力使得它们获得了更多开发者的支持。 本年度最活跃的开源组织 不同开源组织在Issue解决和PR处理数量上的差异,反映了它们在开发活跃度、社区参与度和技术成熟度上的不同战略。 技术大厂主导的项目往往具有较高的资源投入和社区管理效率,而民间组织则可能更注重技术问题的快速解决,并逐步吸引更多的开发者参与贡献。 编程语言流行趋势 2024年,Gitee上的编程语言依然由Java、JavaScript、Python引领潮流。 与此同时变化也在悄然进行中:凭借AI开发热潮,C与C++依然在今年焕发着生命力,流行度已与十年前不相上下。 TypeScript依然强势增长,随着越来越多的开发者从JavaScript转向TypeScript,其未来的发展更值得期待。11 / 111 本年度增长最快编程语言 TypeScript连续两年成为了Gitee年度增长最快编程语言(2023年增长率为49.04%),同样持续强势的还有Rust以及C语言家族。 此外,Dart及Arduino首次上榜,符合2024年跨平台开发及机器人开发的潮流。 开源许可证方面,MIT及Apache-2.0依然是Gitee开发者最常用的开源许可证,使用它们作为开源许可证的仓库占比超过了61%。 木兰宽松许可证第二版(MulanPSL-2.0)紧随其后,获得了越来越多国内开发者的认可的MulanPSL-2.0已经连续两年成为了Gitee最常用开源许可证的前列。 可以预见,在未来的国内开源生态中,木兰宽松许可证将会越来越主流。 本年度使用率增长最多的开源许可证 2024年,宽松许可证依然是开发者选择的主流,BSL、BSD、CC、Zlib等宽松许可证依然增长迅速。 值得注意的是,除了LGPL、AGPL这样大家熟知的较为严格的许可证外,相比于木兰宽松许可证更加严格的木兰公共许可证第二版(MulanPubL-2.0)也在今年受到了更多关注。 OSS Compass Insight OSS Compass Insight 2 0 2 4中 国 开 源 开 发 者 报 告 重 点 聚 焦 大 模 型 , 本 章 节 以 大 模型L L M开 发 技 术 栈 作 为 切 入 点 , 将 深 入 探 讨 以 下 中 国A I大 模 型 领 域 的 代 表 性 开 源 项 目 社 区 。 这 些 开 源 项 目 社 区 覆 盖 了 深 度 学 习 框 架 、 向 量 数 据 库 、 A I 辅助 编 程 、 L L M应 用 开 发 框 架 、 模 型 微 调 、 推 理 优 化 、 L L MA g e n t , 以 及 检 索 增 强 生 成 ( R A G ) 等 多 个 关 键 技 术 栈 。 为 了 更 全 面 客 观 地 展 示 中 国 大 模 型L L M开 发 技 术 栈 的 开 源社 区 生 态 , 我 们 使 用 了对 开 源 社 区 的 生 态 评估 体 系 , 希 望 通 过 这 些 数 据 洞 察 中 国 开 源 开 发 者 在A I技 术领 域 的 活 跃 度 、 生 产 力 和 创 新 能 力 。 O S SC o m p a s s提 供 了 一 个 公 共 的 平 台 用 来 评 估 开 源 项 目和 社 区 的 健 康 度 , 该 平 台 对 整 个 社 区 开 放 , 支 持G it H u b和G it e e等 平 台 托 管 的 开 源 项 目 。 OSS Compass Insight 生产力-协作开发指数 作 为 国 内 及 业 内 领 先 的A I开 发 基 础 设 施 , 本 部 分 图 表中 的 开 发 框 架 、 向 量 数 据 库 、开 发 平 台 、 大 模 型 均 表 现 出色 , 代 表 着 它 们 的 代 码 提 交频 率 、 参 与 者 、 代 码 合 并 比率 等 协 作 开 发 工 作 保 持 着 较高 的 水 平 。 OSS Compass Insight 稳健性-活跃度 作为AI开发生态中的关键组成部分,本部分图表中的开发框架、大模型及相关工具在活跃度的表现各有千秋。 如应用开发平台Dify受行业技术更新影响较小,其活跃度始终保持着较高水平;而大语言模型MOSS则较易受技术更新影响,活跃度随时间整体呈下滑趋势。 OSS Compass Insight 创新力-组织活跃度 开源组织的活跃程度成为衡量社区生态建设是否繁荣的重要指标之一。 本部分图表中的多个组织在社区活跃度上表现各有差异。 如某些组织在开源项目中长期保持较高的贡献水平,展现出其对生态建设的持续支持;而部分组织的活跃度则随时间推移逐渐下降,可能受到内部资源调整或技术方向变化的影响。 本章汇集了来自不同领域专家和开发者对开源大模型和人工智能技术的深刻见解,不仅涵盖了技术层面的深入探讨,也触及了社会、伦理和政策层面的广泛议题。 从对中国开源模型崛起的分析,到对开源模型持久性的思考,再到对超级应用探寻之路的探索,每篇文章都为我们提供了独特的视角,帮助我们理解开源大模型在 AI 技术领域的作用和影响。 2024 年中国开源模型:崛起与变革 文/Tiezhen、Adina、Lu Cheng 2024 年,中国在开源人工智能模型领域的崛起和变革成为全球瞩目的焦点:从学术到产业,从技术到生态,中国通过自主研发和协同创新,逐步完成了从“追随者”到“引领者”的转变。这种转变不仅是技术实力的体现,更是中国人工智能生态系统快速完善的真实写照。以下,我们将从崛起与变革两个维度,探讨中国开源模型在这一年取得的重大成就和未来展望。 崛起 从“追随者”到“引领者” 2024 年,中国学术界和产业界大力推进自主研发,在技术创新和模型能力上实现了显著飞跃,并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示,从智谱的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列,这些自主研发的模型在国内外各项评测中表现卓越。 https://huggingface.co/spaces/zh-ai-community/zh-model-rel 其中,Qwen 系列凭借灵活的多尺寸选项,强大的多语言支持以及友好的模型授权功能,赢得了社区开发者的高度评价。DeepSeek 通过引入多头潜在注意力(Multi-head LatentAttention, MLA)技术,在性能和成本上实现了革命性突破,开创高性价比的 AI 新纪元。 智谱的 CogVideoX 系列文生视频模型,成为全球首批开源的文生视频模型之一,不仅在技术方面让中国视频生成模型列入领先梯队,强化了中国模型在全球范围的竞争力,也为国际开源生态的发展产生了积极的影响,为全球开发者提供了更多创新和应用的可能。 中国开源模型从最初的质疑中崛起,逐步赢得了广泛认可。这不仅彰显了中国开源模型从追随者到行业引领者的跨越式成长,也为全球人工智能发展注入了新的活力与动力。中国开源模型的成功并非偶然。在政府对人工智能产业的持续支持以及国内人工智能行业对模型研发的巨额投入下,从基础算法到行业应用、从算力基础设施到数据资源整合,中国人工智能生态体系正在迅速完善。这一趋势表明,未来中国有可能在全球人工智能领域占据更为核心的地位。 开源生态的繁荣与协作 随着开源模型影响力的提高,中国开源社区的活跃度也明显提升。无论是企业、研究机构还是个体开发者都更加积极地参与到开源工作中。 以阿里巴巴的通义千问 Qwen 为例,据不完全统计,截止 2024 年 9 月,全球已有近 8万基于 Qwen 的衍生模型,超越了 Meta 的 Llama。该系列模型已被集成到 Hugging FaceTransformers、Hugging Chat 和阿里自家的百炼平台中,极大促进了全球开发者的交流和协作,形成了国际化开源生态。 北京智源研究院和上海人工智能实验室等研究机构,通过与企业和高校合作及开源平台的建设,建立了更完善的协作机制,从而在开源模型 (如 InternLM) 和数据集 (如 Infinity-MM) 领域贡献了大量有影响力的基础工作和资源。 2024 年,中国开源社区涌现出众多高质量的自发研究成果。其中,MAP 团队推出的全开源模型 Map Neo 引人瞩目。该模型在训练数据、脚本以及模型对齐工作上实现了全面公开,成为国内少有的真正意义上完全开源的项目。 而 InstantX 团队的 InstantID 则作为中国模型在国际开源社区的 2024 年首秀,一经发布便获得了广泛关注,为中国模型在全球开源生态中赢得了更多认可。 平衡发展与合规创新 中国在推动人工智能技术发展的同时,也在监管层面努力建立了完善、透明的治理机制。这种监管创新为开源模型的发展提供了稳定的政策环境,同时确保技术应用符合社会价值导向。比如 《人工智能示范法 2.0(专家建议稿)》对于免费且已开源方式提供人工智能研发的个人和组织给予减轻或免承担法律责任;《生成式人工智能服务管理暂行办法》 则明确了人工智能技术的使用和合规要求,促进了开源模型在合规框架下良性发展。 变革 端上模型的兴起与隐私保护 随着小型模型