AI智能总结
#如何定义Deepseek? ~Deepseek是一个工程化的优秀厂商,在高效的架构优化、优质的数据和模型、有力的网络通信工程能力的支撑下实现了这一壮举,也证明了几个趋势:MOE架构、低精度训练推理、RL的有效性等 # Deepseek V3/R1模型能力如何? ~一个聪明, 【DCDZ】Deepseek到底意味着什么:推理时代的加速到来,开源架构的胜利! #如何定义Deepseek? ~Deepseek是一个工程化的优秀厂商,在高效的架构优化、优质的数据和模型、有力的网络通信工程能力的支撑下实现了这一壮举,也证明了几个趋势:MOE架构、低精度训练推理、RL的有效性等 # Deepseek V3/R1模型能力如何? ~一个聪明,但口齿不清的天才~优势:数学、coding等强逻辑和强框架任务~劣势:文本创作、多模态、agent等 #训练推理算力成本下降多少? ~根据论文显示,deepseek v3训练相较Llama 3.1下降约90%(295w GPU*时vs 3072w GPU*时),考虑前人的基数效应,成本下降应该也在30%以上(个人粗拍)~推理成本下降接近一个数量级,其中推理内存需求减少30%,生成速度提升4倍,简单计算成本下降82.5% (参考o1 $15/百万输入+$60/百万输出,R1 $0.55/美元输入+2.19美元/百万输出) # AI硬件如何影响? ~计算:超大集群向分布式集群和定制化架构演变~通信:时延和带宽为导向向多负载、分布式、吞吐量优先等方向演变~内存:大内存和高带宽是持续追求的方向 #大模型未来如何演变? ~开源正在加速追赶甚至在超越闭源~大模型从自回归走向自生成Instruction,真正AGI可能藏在RL+COT+Attention里面 #对投资如何影响? ~AI投资范式伴随模型范式改变,由大而全向深度、专业化和多轮思考演进,由预训练为主向推理+训练结合的方式进化~大模型淘汰赛加速,FOMO可能会让很多人更恐惧,算力投资不会停滞,只会更加疯狂~R1确立模型蒸馏具备价值,端侧Agent发展有望加速 #看好什么方向和标的? ~云端:#长期维度看好# AI通胀方向:#算力密度(先进制程/封装)#功率密度(电源/散热)#传输密度(高速PCB/CPO)等,结构性看好25年推理占比提升,#更低成本,#更多定制化,#更大吞吐流量,以及国内算力投资加速,#字节及腾讯供应链推荐:【沪电股份】、【寒武纪】、【长电科技】、【中芯国际H 】、【江海股份】,关注:景旺电子、盛科通信、广合科技、海光信息、中富电路