AI智能总结
首款Transformer专用芯片Sohu亮相,10倍于B200速度成为最快AI芯片 —计算机行业周报 投资要点 推荐(维持) ▌算力:算力租赁价格平稳,Transformer ASIC芯片Sohu计算速度超B200 10倍 分析师:宝幼琛S1050521110002baoyc@cfsc.com.cn 本周算力租赁价格环比持平。在产业动态方面,6月26日,Etched公司推出全球首款Transformer专用集成电路(ASIC)芯片Sohu。Sohu采用台积电的4nm工艺制造,只有1个核心,每张芯片配有144GBHBM3E高带宽内存,推理性能明显优于GPU和其他通用人工智能芯片,同时能耗更低。在Llama 70B吞吐量中,Sohu每秒可以处理超过50万个tokens,速度超过H100的20倍,并超过英伟达今年3月推出的顶配芯片B200的10倍。同时,Sohu实现了90%以上的FLOPS利用率,相比之下使用TRT-LLM的GPU约为30%。当前,OpenAI、谷歌、亚马逊、微软、Meta等所有大型科技公司都在使用Transformer模型,市场前景广阔。Sohu的推出无疑是Transformer芯片领域的一大进步,能够为未来亿万级参数模型的运行赋能。 资料来源:Wind,华鑫证券研究 ▌AI应用:科大讯飞大发布星火大模型V4.0,全面对标GPT-4 Turbo 相关研究 1、 《 计 算 机 行 业 周 报 : 华 为HarmonyOSNEXT强势亮相,“纯血鸿蒙”有望重塑AI操作系统市场格局》2024-06-232、《计算机行业周报:AMD公 布MI325X同台竞技英伟达,“年更”预 示AI芯 片 竞 争 趋 于 白 热 化 》2024-06-163、《计算机行业动态研究报告:车路一体化项目接连启动,智慧交通市场有望提质增速》2024-06-11 6月27日,科大讯飞正式对外发布了讯飞星火大模型V4.0,以及在医疗,教育,商业等多个领域的人工智能应用。讯飞星火V4.0七大核心能力全面升级,在国内外涵盖理解,推理,综合考试,数学,科学以及代码任务的12项中英文主流测试集中,讯飞星火V4.0在8项测试集中排名第一,领先国内大模型。讯飞星火V4.0在文本生成,语言理解,知识问答,逻辑推理和数学五大能力方面整体超越GPT-4Turbo,进一步缩小在代码,多模态能力方面的差距。目前,星火V4.0的多模态能力达到了GPT-4Turbo97%的水平。讯飞星火V4.0是基础全国首个国产万卡算力集群飞星一号训练而成,完全自主可控。 ▌AI融资动向:EvolutionaryScale获1.42亿美元种子轮融资 本期AI初创公司的融资中,EvolutionaryScale / Etched融资额前二,分别为1.42亿/1.2亿美元。EvolutionaryScale是一家前沿人工智能研究实验室和公益公司,致力于开发生命科学领域的人工智能,构 建了第一个蛋白质大型语言模型ESM1并持续开发下一代ESM3,此轮融资将用于进一步扩展模型能力。Etched专注于打造适用于Transformer架构推理的专业性AI芯片Sohu以及推理服务器,Sohu是迄今为止最快的Transformer芯片,有利于实现超级智能,成为领先的AI芯片供应商。 ▌投资建议 “AI封锁”悄然升级,进一步提升全栈AI技术自主可控要求。6月25日,OpenAI通过官方推送邮件告知API用户,自7月9日起,将阻止来自未列入支持国家和地区名单的区域的API流量,如要继续使用OpenAI的服务,需要在受支持的区域进行访问。海外对于中国AI的限制一直存在,本次为OpenAI正式宣告停止中国的API服务,“AI封锁”下,全栈AI技术国产化迫切性进一步提升。预计随着国产大模型技术进一步提升,大模型将会逐渐向本地进行迁移,迎来新机遇。 建议关注以AI为核心的龙头厂商科大讯飞(002230.SZ)、有望迎来需求爆发的AI应用金桥信息(603918.SH)等。 ▌风险提示 1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。 正文目录 1、算力动态:算力租赁价格平稳,首款TRANSFORMER ASIC芯片SOHU亮相.........................41.1、数据跟踪:算力租赁价格平稳......................................................41.2、产业动态:首款Transformer ASIC芯片Sohu亮相,推理速度10倍于B200...............42、AI应用动态:科大讯飞大发布星火大模型V4.0,全面对标GPT-4 TURBO........................72.1、流量跟踪:Kimi访问量环比+9.63%..................................................72.2、产业动态:科大讯飞大发布星火大模型V4.0,全面对标GPT-4 Turbo.....................83、AI融资动向:EVOLUTIONARYSCALE获种子轮融资额1.42亿美元................................114、行情复盘...............................................................................125、投资建议...............................................................................136、风险提示...............................................................................14 图表目录 图表1:本周算力租赁情况...............................................................4图表2:全球首款Transformer ASIC芯片Sohu..............................................4图表3:Llama 70B测试中Sohu与H100、B200推理速度对比..................................5图表4:Sohu芯片参数展示..............................................................6图表5:LLM连续batching处理——以4个输入token和四个输出token的序列为例.............6图表6:Transformer架构的领导地位和架构趋同性..........................................7图表7:2024.6.18-2024.6.24 AI相关网站流量.............................................7图表8:星火大模型V4.0全面升级........................................................8图表9:首发长文本溯源能力.............................................................9图表10:两人混叠场景下讯飞星火V4.0语音模型能力对比...................................9图表11:三人混叠场景下讯飞星火V4.0语音模型能力对比...................................9图表12:-5dB高噪场景下讯飞星火V4.0语音模型能力对比...................................10图表13:星火APP/Desk首批上线14个智能体..............................................10图表14:本周AI初创公司的融资动态.....................................................11图表15:本周指数日涨跌幅..............................................................12图表16:本周AI算力指数内部涨跌幅度排名...............................................12图表17:本周AI应用指数内部涨跌幅度排名...............................................13图表18:重点关注公司及盈利预测........................................................14 1、算 力 动 态 : 算 力 租 赁 价 格 平 稳 , 首 款Transformer ASIC芯片Sohu亮相 1.1、数据跟踪:算力租赁价格平稳 本周算力租赁价格环比持平。具体来看,显卡配置为A100-40G中,腾讯云16核+96G价格为28.64元/时,阿里云12核+94GiB价格为31.58元/时;显卡配置为A100-80G中,恒源云13核+128G价格为8.50元/时;阿里云16核+125GiB价格为34.74元/时;显卡配置为A800-80G中,恒源云16+256G的租赁较为紧张。 1.2、产业动态:首款Transformer ASIC芯片Sohu亮相,推理速度10倍于B200 6月26日,Etched公司宣布完成1.2亿美元A轮融资,将用于开发和销售全球首款Transformer专用集成电路(ASIC)芯片Sohu。Sohu能够实现实时语音代理、毫秒级处理数千字文本、更强大的代码树搜索、并行比较数百个相应、多播推测解码以及实时生成新内容等功能,能够为未来万亿级参数模型的运行赋能。 图表2:全球首款Transformer ASIC芯片Sohu 资料来源:Etched官网,华鑫证券研究 Transformer架构首次蚀刻入芯片,推理性能数量级跃升。Etched将研发目光投向芯片专业化,Sohu采用台积电的4nm工艺制造,推理性能明显优于GPU和其他通用人工智能芯片,同时能耗更低。在Llama 70B吞吐量中,Sohu每秒可以处理超过50万个tokens,速度超过H100的20倍,并超过英伟达今年3月推出的顶配芯片B200的10倍。换言之,一台集成了8块Sohu的服务器可以匹敌160块H100 GPU。同时,针对Llama 3 70B的FP8精度基准测试显示:无稀疏性、8倍模型并行、2048输入或128输出长度。由于Sohu仅能运行一种算法,可以删除绝大多数控制流逻辑,允许拥有更多的数学块,因此,Sohu实现了90%以上的FLOPS利用率,相比之下使用TRT-LLM的GPU约为30%。 资料来源:机器之心,华鑫证券研究 突破内存带宽瓶颈,计算能力与利用率强大。Sohu只有1个核心,每张芯片配有144GB HBM3E高带宽内存。在Sohu上,推理是分batch运行的。每个batch都需要加载所有模型权重一次,并在batch的每个token中重复使用。通常LLM输入是计算密集型的,而LLM输出是内存密集型的。当输入和输出token与连续batch结合时,工作负载变成了高度计算密集型。以LLM连续batching处理为例,当运行2048个输入token和128个输出token的Llama 3 70B时,每个batch将需要约304TFLOP,而仅需要加载140GB的模型权重和约72GB的KV缓存权重,这远超内存带宽所需