您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:译生多模型大模型双子座 ( 汉 ) - 发现报告

译生多模型大模型双子座 ( 汉 )

文化传媒2023-12-06-谷歌单***
AI智能总结
查看更多
译生多模型大模型双子座 ( 汉 )

双子座团队,Google1 This报告介绍a新家庭of多模态模型,双子座,那个展览非凡能力跨越image,音频,视频,and文本理解。The双子座家庭组成ofUltra,Pro,and纳米尺寸,合适for应用程序测距从复杂推理任务to在设备上内存约束用例。评价上a广泛的范围of基准显示那个我们的最有能力的双子座Ultra模型预付款thestateofthe艺术在30of32of这些基准—值得注意的是beingthefirst模型to实现人类专家性能上the经过充分研究考试基准MMLU,and改进thestateofthe艺术在每一个一个ofthe20多模态基准我们已检查。我们相信那个the新能力of双子座模型在交叉模态推理and语言理解将启用a宽品种of使用案例and我们讨论我们的方法朝向部署他们负责任的to用户。 1.Introduction 我们当前双子座,a家庭of高度有能力的多模态模型已开发在谷歌。我们训练有素双子座联合跨越image,音频,视频,and文本数据forthe目的of建筑a模型与两者坚强通才能力跨越模式旁边尖端理解and推理性能在每个各自域。 双子座1.0,我们的first版本,come在three尺寸:Ultrafor高度复杂任务,Profor增强性能and可部署性在scale,and纳米for在设备上应用。每个尺寸is特别是fically量身定制to地址不同的计算限制andapplicationrequirement.我们评估the性能of双子座模型上a综合套房of内部and外部基准覆盖a宽范围of语言,编码,推理,and多模态任务。 双子座预付款最先进的在大规模语言建模(Aniletal.,2023棕色etal.,2020Chowdheryetal.,2023Ho夫曼etal.,2022OpenAI,2023a;拉德福德etal.,2019Raeetal.,2021图像理解(Alayracetal.,2022Chenetal.,2022Dosovitskiyetal.,2020OpenAI,2023b;簧片etal.,2022Yuetal.,2022a),音频处理(拉德福德etal.,2023Zhangetal.,2023and视频理解(Alayracetal.,2022Chenetal.,2023It还builds上the工作上序列模型(Sutskeveretal.,2014a长历史of工作在深学习基于上神经网络(LeCunetal.,2015and机器学习分布式系统(Barhametal.,2022布拉德伯里etal.,2018Deanetal.,2012那个启用大规模培训。 我们的最多有能力的模型,双子座Ultra,实现新最先进的结果在30of32基准我们报告on,包括10of12受欢迎文本and推理基准,9of9图像理解基准,6of6视频理解基准,and5of5演讲识别and演讲翻译基准。双子座Ultraisthefirst模型to实现人类专家性能上MMLU(Hendrycksetal.,2021a)—a突出基准测试知识and推理viaa套房of考试—与a分数上面90%.超越文本,双子座Ultramakes值得注意的是预付款上具有挑战性多模态推理任务。For例如,上the最近MMMU基准(月etal.,2023那个comprises问题关于图像上多学科任务需要学院级别主题 1请参阅捐款and Acknowledgments节for full作者list.Please发送对应关系to双子座-1-report@google.com 知识and故意推理,双子座Ultra实现a新最先进的分数of62.4%,表现优异the以前的最好的模型由更多than5百分比点。It提供a制服性能提升for视频question回答and音频理解基准。 定性评价陈列柜令人印象深刻交叉模态推理能力,启用the模型to理解and原因跨越an输入序列of音频,images,and文本本机(请参阅图5andTable13考虑the教育设置描绘在图1asanexample.A教师has绘制a物理问题ofa滑雪者去向下a斜坡,anda学生has工作通过a解决方案toit.使用双子座的多模态推理能力,the模型iscableto理解the凌乱手写,正确理解the问题配方,转换两者the问题and解决方案to数学排版,identifythefic步骤of推理wherethe学生去了错误在解决the问题,and然后给a工作通过正确解决方案tothe问题。This打开向上令人兴奋教育可能性,and我们相信the新多模态and推理能力of双子座模型have戏剧性应用程序跨越许多fi领域。 AE The推理能力of大语言模型显示promise朝向建筑通才代理商那个can铲球更多复杂多步骤问题。The字母码团队已建成字母码2(Leblondetal,2023a新双子座动力代理人,那个结合双子座的推理能力与搜索and工具使用toexcel在解决竞争性编程问题。字母码2等级内the顶部15%of参赛者上theCodeforces竞争性编程平台,a大改进超过其最先进的前身在the顶部50%(Lietal.,2022 在串联,我们提前the边疆ofe-ciency与双子座纳米,a系列of小模型靶向在设备上部署。These模型excel在在设备上任务,suchas总结,阅读理解,文本完成任务,and展览令人印象深刻能力在推理,STEM,编码,多模态,and多语言任务相对to他们的尺寸。 在thefollowingsects,我们first提供an概述ofthe模型architecture,培训以下-结构,and培训数据集。我们然后当前详细评价ofthe双子座模型家庭,覆盖经过充分研究基准and人类偏好评价跨越文本,代码,image,音频and视频—whichinclude两者English性能and多语言能力。我们还讨论我们的方法to负责任部署,2包括我们的过程for影响评估,正在开发模型政策,评估,and缓解措施of伤害之前部署decisions.最后,我们讨论the更广泛的implicationsof双子座,其限制旁边其电位应用程序—铺路the方式fora新时代of研究and创新在AI. 2.模型建筑 双子座模型build上顶部of变压器解码器(Vaswanietal.,2017那个are增强与改进在建筑and模型优化to启用稳定培训在规模and优化推理上Google的张量处理单位。Theyare训练有素to支持32k上下文长度,employment有效注意机制(for例如多查询注意(沙泽尔,2019我们的first版本,双子座1.0,comprisesthree主要尺寸to支持a宽范围of应用程序as讨论在Table1 双子座模型are训练有素to可容纳文本输入交错与a宽品种of音频and视觉输入,suchas自然images,图表,截图,PDF,and视频,andtheycan产生文本and图像输出(请参阅图2The视觉编码of双子座模型is启发由我们的自己的基础工作上火烈鸟(Alayracetal.,2022CoCa(Yuetal.,2022a),andPaLI(Chenetal.,2022与the重要区别那个the模型are多模态从the开始andcan本机输出图像使用离散图像令牌(Rameshetal.,2021Yuetal.,2022b)。 视频理解is已完成由编码the视频asa序列of框架在the大上下文窗口。视频框架or图像canbe交错自然与文本or音频aspartofthe模型输入。The模型can手柄变量输入分辨率在订单to花费更多计算上 2我们计划to更新这个报告与更多详细信息前方ofthe一般可用性ofthe双子座Ultra模型。 任务那个需要fine粒度理解。在addition,双子座can直接摄取音频信号在16kHz从通用演讲稿模型(USM)(张etal.,2023功能。This启用the模型to捕获细微差别那个are通常情况下丢失whenthe音频is天真映射toa文本输入(for例如,看到音频理解演示上the网站)。 培训the双子座家庭of模型需要创新在培训算法,数据集,and基础设施。ForthePro模型,the固有的可扩展性of我们的基础设施and学习算法启用我们to完成预培训在a物质of周,利用a分数oftheUltra的资源。The纳米系列of模型杠杆额外进步在蒸馏and培训算法to产生the同类最佳小语言模型fora宽品种of任务,suchas总结and阅读理解,which功率我们的next代在设备上经验。 3.培训基础设施 我们训练有素双子座模型使用TPUv5eandTPUv4(朱皮etal.,2023取决于上他们的尺寸and配置fi配置。培训双子座Ultrauseda大fieetofTPUv4加速器跨越多个数据中心。This代表a显著fi不能增加在规模超过我们的先前fiagship模型PaLM-2which已提交新基础设施挑战。缩放向上the编号of加速器结果在a成比例减少在themeans时间between失败of硬件在the总体系统。我们最小化therateof计划重新安排and先发制人,但是正品机器失败are司空见惯跨越all硬件加速器在such大scales,到期to外部因素suchas宇宙射线(米哈拉克etal.,2012 TPUv4加速器are已部署在"SuperPods"of4096薯片,每个已连接toa专用光学开关,whichcan动态再figure4x4x4芯片立方体into任意3D圆环拓扑在周围10秒(朱皮etal.,2023For双子座Ultra,我们决定to保留a小编号of立方体persuperpodto允许for热备用and滚压维护。 TPU加速器主要是沟通超过the高速度芯片间互连,但是在双子座Ultrascale,我们联合收割机SuperPods在多个数据中心使用Google的集群内and集群间网络(波蒂耶夫斯基etal.,2022Wetheralletal.,2023yaoHongetal.,2018Google的 网络延迟and带宽aresuúcientto支持the通常used同步培训范式,利用模型并行性内超足类and数据并行性跨越超足类。 The“单”控制器编程模型ofJax(布拉德伯里etal.,2018andPathways(Barhametal.,2022允许a单Python过程to编排the整个培训run,戏剧性的简化the发展工作fiow。TheGSPMD分区器(徐etal.,2021在theXLA编译器分区the培训步骤计算,andtheMegaScaleXLA编译器(XLA,2019通过静态时间表适当的集体所以那个they最大重叠与the计算与非常小变异在步骤时间。 维护a高Goodput3在这个规模wouldhave已被不可能使用the常规方法of周期性检查点of重量to持久性群集存储。For双子座,我们相反made使用of冗余在内存中copiesofthe模型state,and上任何计划外硬件失败,我们迅速恢复直接从an完好无损模型副本。比较to两者PaLMandPaLM-2(Aniletal.,2023这个提供a实质性加速在回收时间,尽管the显著fi较大培训资源beingused.Asa结果,the总体Goodputforthe规模最大培训工作增加从85%to97%. 培训在前所未有的规模总是表面新and有趣系统失败模式-and在这个实例一个ofthe问题那个我们需要to地址was那个of“沉默”Data腐败(SDC)"(Dixitetal.,2021Hochschildetal.,2021Vishwanathanetal.,2015虽然这些are极端罕见,the