您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:从社区数据看大模型开发生态的全景与趋势 - 发现报告

从社区数据看大模型开发生态的全景与趋势

信息技术2024-12-05王旭、夏小雅-车***
AI智能总结
查看更多
从社区数据看大模型开发生态的全景与趋势

关于我们 写开源Bug,做开源项目,搞开源创业,混开源社区,管公司开源,参与开源基金会。 分析开源数据,发开源论文,搞开源学术,写开源代码,管开源社区,做公司开源策略。 ...大人,时代变了,大模型来了 目 录 02全景:社区关系网 01案例:热点到数据 04架构与全景图 03热点:项目与趋势 01案例研究 从热点新闻到社区数据 社区的行为数据只反映一部分的社区关系,既不全面,也不充分,并不被视为是对项目本身「好坏」的公平评价,我们只是以此来提供一些参考信息。 我们怎么观察AI开发生态 从GitHub上,我们可以有的行为信息 项目之间可能有的生态关系 •项目本身的活动数据。•项目本身的Commit/PR/Issue数量、频率、分布情况等•项目之间的彼此关联信息——项目之间的互动——通过共同的参与人达到的互动。•同时对两个项目的Commit/PR/Issue/Comments等。•以及Star/Fork(以下分析中没有使用这两个数据) •依赖性 •有依赖性的项目,有可能会有互相的,尤其是对被依赖项目的贡献•竞争性/可替换性•同一位置的项目,有可能会有上下游同时给他们贡献•上下游(合作)•合作者有可能会有彼此的贡献 从PyTorch,vLLM,LangChain出发 https://xiaoya-yaya.github.io/ant-ospo-insights/ +AutoGPT 从AutoGPT, llama.cpp,Chatchat出发 向下:从DeepSpeed, Triton, ONNX出发 https://xiaoya-yaya.github.io/ant-ospo-insights/ 插播一个有趣的发现 从过去一年里项目名/仓库名发生变化的这些热门AI项目们: •openai/triton-> triton-lang/triton•OpenDevin/OpenDevin-> All-Hands-AI/OpenHands•jmorganca/ollama->ollama/ollama•google/jax->jax-ml/jax•jerryjliu/llama_index-> run-llama/llama_index•hiyouga/LLaMA-Efficient-Tuning->hiyouga/LLaMA-Factory•KillianLucas/open-interpreter->OpenInterpreter/open-interpreter•ollama-webui/ollama-webui-> open-webui/open-webui•joaomdmoura/CrewAI->crewAIInc/crewAI 多数为从个人项目发起,迅速火爆继而transfer到GitHub ORG下面和社区共同治理的,也有从如Google这样的企业生长出来演变成一个中立社区进行托管的,还有因为项目在演化过程中roadmap逐渐发生变化而修改项目名以重新定位公众认知的,如LLaMA-Factory,OpenHands。 一些发现 哪些项目不会被引入进来 哪些项目会被引入进来 •比如Kubernetes,就完全没有被引入,虽然大家都会用它,我们推测: •改变出发点会改变入选项目,但有些热点项目,不论从哪个点出发,都很容易被引入进来: •API已经比较稳定,即使是利用了接口也不需要去社区互动;•同时快速发展的项目可能更容易有互动•以及有很可能的一点——计算生态圈和AI生态圈的开发者之间可能是有相对强的隔离的 •PyTorch,llama.cpp,huggingface/transformers•可以认为关心LLM生态的人都会去这些项目有所表达;•距离应用/算法开发比较近的项目热度会更高 •开发者本身是会有扎堆现象的: •比如中国开发者会更容易和中国开发者产生互动:•比如ChatChat就更容易把MetaGPT, DB-GPTDify,FastGPT这些项目给联系进来 •有些很多人用的项目,但是互动比较少: •比如大部分Nvidia的项目都没有被引入进来,推测是单向使用,或者社区比较高冷。 02生态全景 从社区关联到生态关系网 生态是本无所谓有,无所谓无的。正如这些公共接口;其实项目之间本没有公共接口,重复造的轮子多了,也便成了接口。 ——这不是鲁迅说的,是王旭说的 全景图中用到的前置定义 大模型生态中的变化点 几个不同视角或线索 •开发阶段•从人的输入,到代码进入【代码仓库】;•供应链•从代码或数据的存储,到镜像/模型注册中心,再到执行点•运维•部署与升级:编排、调度、运行、更新等•运行阶段•端到端工作流,上下游的配合 •围绕预训练模型 •分布式预训练本身是庞大的计算任务,而且是围绕GPU的,相关有很多项目出现;•模型的庞大尺寸,催生了新项目,或者让相关的项目产生了变化;•从数据库为中心的服务到模型为中心的服务; •开发和应用流程•更注重自然语言等输入手段和工具本身的智能化——交互式、智能化的开发 AI生态中的生态位 AI生态中的开源项目们 一些可能的架构断言 开发工具可能会有更多变化 模型可能成为架构中的一等公民 •开发者工具,尤其是IDE,一直以来是最活跃的地方,也是AI可以产生影响很大的地方——有灵魂的工具;•CI、测试领域可能还会有更多变化 •模型成为“新的数据库”;•模型运行时可能成为和应用运行时并列的一等公民;•大模型的供应链上,大模型的尺寸,训练工作流和应用镜像相似又有不同; 03热点洞察 趋势上的项目与项目的趋势 传统机器学习框架的十年发展趋势 大规模分布式计算引擎 推理部署服务引擎 AI应用编排类框架 传统IDE与AI交互式开发工具 04回到架构 面对AI生态的全景图 AI生态中的生态位 我们能做些什么 对于要进入AI生态的参与者 我们好像看到了20年前的LAMP ⚫(给年轻朋友)LAMP即Linux,Apachehttpd,MySQL,PHP;⚫大模型开发的范式正在形成,做应用,或是做LAMP(平台、基础设施)本身;⚫与LAMP不完全相同的可能是,大概没有哪个组件会一统江湖,但生态是有些神似的。 ⚫关注趋势上的项目,和新的生态位,做自己的判断;⚫对于做自己的项目的人,最好能利用上一个好的生态位,或是和中心生态位产生良好互动;⚫如果有余力,创造新的生态位 THANKS 大模型正在重新定义软件Large Language Model Is RedefiningThe Software 为开源世界带来微小而美好的改变