您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [拾象科技]:拾象分享 - 发现报告

拾象分享

2023-07-15 - 拾象科技 北京律师
报告封面

拾象分享丨2023.07 01关键结论 01模型格局:决定下一代超级入口 n对GPT的最新认知: •GPT不止模型,而是新一代超级计算机,重构“用户交互+软件执行+计算”•模型即产品:ChatGPT/MidJourney/Character•自然语言=API n对模型格局的猜想: •类似航空航天:OpenAI登月(SpaceX)VS其他(波音/空客/庞巴迪/湾流,but…)•属地独立市场:US/China…日韩/中东/欧洲/东南亚,和语系相关•本质是对入口争夺:生产力入口、助理入口、娱乐入口… 02数据是GPT的核心秘方,来源于大量实验工程(GPU) nGPT的北极星能力:复杂推理能力(写代码、解题、处理复杂任务) n众多ChatBot们为何推理和解题能力都还不行?智力来源在哪? n代码数据带来推理能力,GPTpre-trainingcodedata比预期要高,猜测接近50%占比 nGoogle受限于大公司身份,很多数据受到版权限制不能用于模型训练 n做模型像做菜,原材料、配比、排序、拼接决定口味差异 03OpenAI的下一代模型:AI登月时刻 nScale: •Compute: ~10万张H100, ~50亿美元投入•Data source: Video +合成数据•Multimodal: AI that can use computer to do complex knowledge work tasks•Coding/Tooling: run & debug & use APIs•能力上接近AGI nCostnLatency/SpeednExcellent APInHallucinationn拉开差距,追赶难度骤然变大? 04关键胜负手 n数据n人才密度n组织能力nGPU资源nKillerApp 02KeyTakeawaysFromOpenAI 训LLM比造原子弹更复杂,每一代大模型发布都像登月 “简单”技术,可堆积、研发方向明确,涉及技术项目有限,只要造出来就能形成威慑,无需考虑商业盈利。 每一步都需要实验和聪明人的奇思妙想,技术上有无数小细节,无法大力出奇迹。 准备周期长,正式launch之前的实验都是在地球上做的,和真实环境相差很远。 LLM:正式训练前准备至少8个月,正式训练成功率50%,内部无数tricks。 全公司重点攻坚下一代模型训练,一个月内决定数据解决方案 n大规模服务客户和训练下一代模型的主要瓶颈是compute n做模型越久,越认为模型和硬件应该co-design OpenAI内部如何看待AGI 非常有信心下一代模型会接近AGI 中期 用模型发现新的科学定律是终极目标,挑战是如何让模型和现实世界产生交互 解决大部分数学问题,写代码能替代人——模型和世界交互的方式就是代码。 Coding等能力超过50%人类,AGI代表能做绝大部分知识工作者的工作。 ChatGPT是另一个重点,目标达到10亿用户 •除了下一代模型外最重视的产品•招聘、Mobile版本、dedicate compute资源 重视程度 •Productivity场景彻底代替StackOverflow•20%是Education,比人类助教优秀很多 UseCase •2.8亿MAU,周末数据下跌(说明entertainment的场景少)•用户会自己知道如何使用Google和ChatGPT 用户行为 •OpenAI今年预计10亿美金收入,20亿美金ARR,ChatGPT占70-80%•ChatGPT目标是达到10亿用户,和Office一个量级•目前付费用户是MAU的2.7%,约700万 增长预期 •Working assistant•企业客户定制 商业模式 提问分布数据最有价值,未来Plugin数据可用来操作计算机 通过用户提问筛选出45万条高质量提问分布,非常宝贵,无法通过人工标注者获取。ChatGPT 数十万用户,还很早期,暂时还没用用户数据做训练,未来希望训练模型操作计算机。挑战是精确度必须很高。Plugin 开源社区模型不具备真正智能,更好的小模型来自大模型的Scale Down n开源社区也许也能获得高质量数据,但如何把握配方和各种超参数很难 n开源软件某部分没写对仍然能work,但做LLM必须全部正确,没法小修小补n未来趋势:大模型explore新方法,scale down做小模型,大模型和小模型互相交流nOpenAI的模型就是从大到小,以前不愿开源,未来可能开源 OpenAI组织力优势仍然很强,合并后的GoogleDeepmind或难竞争 减少hallucination可通过scaling/retrieval/reward model Hallucination的原因: n网上很多信息本来就是错的,学到了错误信息n模型喜欢模仿语言风格,对正确信息判断不好 减少hallucination的方案: n目前20%的hallucination可以通过scaling降低:看到很多问题都能通过scaling解决,OpenAI相信hallucination也可以 n如果inference的成本能降到特别低,latency也能特别低:可以让模型在回答问题前尽可能多地去做retrival和verify,就像一个人的思考如果变得很便宜,就可以让它可能多地去思考 03Hidden State of GPT LLM训练中的事实与观点 LLM技术应用的新趋势 n好的LLM扮演人类思考的系统1,好的AI应用扮演人类思考的系统2 •prompting方式的变化将会与更好的Python glue code框架一起进化,简单的prompting交互只能达到System 1的效果•高级的chain & agents才能接近System 2的能力 nAPI能力将继续进化 ** Tree of Thought是典型的的系统2模拟 04硅谷开源模型社区近况 指令遵循的开源小模型被过度炒作,已经到达瓶颈 n今年第一季度的炒作“LLaMA7B/13B +指令微调=GPT 3.5Level” n目前遭遇的卡点: •在复杂推理和代码等表现不好的任务上的难以进入正循环•最好的指令微调数据集仍然来自先进模型蒸馏•对“高质量”数据和“更好的”模型缺少标准化评估•不可商用•开源小模型团队以PhD为主,缺少懂产品的人来解决这些问题 注意力转向Pre-Train环节,开源社区靠“团结”发展 nOpenLLaMA 7B和13B的分工展现出开源社区在核心项目突破上正在变得更团结; n此外,从全链路来看,开源社区已经发展到了全覆盖的阶段,每个环节都有头部的开源项目可用: 开源模型能否替代OpenAIAPI?客户乐观,研究者悲观 n生态里的不同角色对开源模型的前景呈现两极分化: n从客户需求的迫切角度出发,开源模型目前的“可商用”进展比“更智能”更重要 nOpenAIFoundry的内部投入没有我们预期那么大 开源还是个社会问题,落后于OpenAI不一定是坏事 n我们在湾区不止一次听到这个类比:将最先进的LLM开源相当于把原子弹放在每个人手里 n开源社区的发力方向不需要是超越OpenAI: •没有一个开源社区可以豁免开源先进模型带来的威胁•EleutherAI直接选择不致力于发布推动智能前沿进展的模型和功能,而旨在特点情况下发布合适大小和智能用例的LLM•蒸馏的做法抽象看并不差,领先的模型推动AGI并且帮助将不会带来智能威胁的模型优化得更实用 n技术之外,法律和政策制定有进化的空间,许多社区成员认为Apache 2.0这样用于软件的协议实际上并不适用于模型 05Robotics 软件:Robot Learning已成为学界主流研究路线 n什么是Robot Learning? •AI和Robotics的交叉研究领域•机器人通过算法学习获得新技能,适应新环境•Learning vs.传统控制•ImitationLearning vs. Reinforcement Learning n重要玩家 行业代表人物: 现在 早期 •UC Berkeley•Google•OpenAI(后解散)•大学:UC Berkeley、MIT、Stanford…•软件:Google、Nvidia、Meta、Covariant…•硬件+软件:Tesla、1X、Figure、Boston Dynamics… 软件:当我们关注LLM+Robotics,我们在关注什么? nLLM给Robotics带来了什么? •人们可以用自然语言给机器人发送指令•机器人能够理解人类指令,自主拆分成相应步骤并执行•机器人能够理解和应用世界常识,完成此前没有学习过的任务 n瓶颈 •Low-level Policy•价值与财务模型 06模型公司的机会、挑战和投资判断 模型公司的象限 nCompanion机会:Tier2模型公司打差异化的方式;商业模式和应用场景更有想象空间;内容形式不够精彩,需要多模态 nProductivity机会:Scaling Law、多模态和MoE带来复杂推理能力,同时吃下标准和非标的软件生意 判断1:何时从Training转向Serving? 投资机会时间轴 判断2:Serving带来的投资机会 n共识与非共识: •共识打满的在toC+Productivity,非共识的机会在toB+Companion;•现在投资难度/风险最大的是toB+Productivity,•中期内投资回报率可能最高的在toC+Companion。 n芯片: •NV因其遥遥领先的片间通讯能力在Training端形成垄断;•但2-3年后,当角色陪伴型模型的资源倾向推理后,AMD和TPU的芯片在推理方面完全不落下风。 n开源社区和学界:它们核心精力放在模型压缩、Instruct tunning和Prompt Engineering,这些都是Serving中重要环节,所以尽管他们现在的能力和必要性饱受质疑,可能只是Timing问题。 n投资Infra的时机: nWanDB,是否有足够的时间开发Serving产品线,现有的Training产品的红利还有几年nMosaicML,短期内业务爆发厉害,但内部若没有Serving产品将难以为继nPinecone,当前并不是业务爆发期,可能2-3年内会出现不错买点 判断3:未来模型的迭代节奏会很像手机系统 n预计未来模型的迭代节奏会很像手机系统:1-2年更新一次大版本,中间有无数次小版本迭代;n中期来看,RLHF不应该是Alignment的唯一手段,Direct Preference Optimization和StableAlignment是新路径n长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的Embedding 判断4:LLM的Context Window就像电脑内存,向量数据库是LLM的硬盘 n4k可能就像XP的256MB一样,而32k就像2GB。未来图片和视频的内容将让Context Window变得更重要;n现在Context Window都是顺序读取的,有没有可能选取最相关的,能像内存一样随机/选择性读取?n未来模型里会不会出现多级内存?Cache,HBM和DRAM 07重要公司 硅谷大厂的LLM nGoogle其实有一手高潜力的好牌,GenAI战略的三个支柱也非常明确:做最先进的LLM(Google Brain和DeepMind),对现有产品进行重大改进(搜索、Workspace等),和对外提供工具(GCP、TPU等); nGoogle Brain和DeepMind合并引发短期震荡,但是内部员工和OpenAI的人有很多交集,觉得对方并没有什么特别的秘诀,仍然有信心。目前最重要的项目是Gemini,瞄准GPT-4的下一代,定位不一样的多模态