您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:随着Meta的Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用 - 发现报告
当前位置:首页/会议纪要/报告详情/

随着Meta的Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用

2023-09-29周靖人阿里巴巴喜***
随着Meta的Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用

阿里云 CTO 周靖人 2023-09-29随着 Meta 的 Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作 用。一个例子是,上个月 Hugging Face 得到了谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通的共同投资。这些大公司共同出手的原因是:他们的员工正在积极使用 Hugging Face 平台。Hugging Face CEO 德兰格表示,「也许五年后,将拥有大约1 亿 AI 构建者。如果所有人都整天使用 Hugging Face,我 们显然会处于有利位置。」几个月以来,国内多家大模型厂商开始走开源路径,其中,阿里云是最积极的云厂商。本周,阿里云开源通义千问 140 亿参数模型 Qwen-14B,以及其对话模型 Qwen-14B-Chat。阿里云 同时公布了其 AI 开发者社区——魔搭的最新数据。目前,魔搭社区已有 230 多万开发者,8500 万 的模型下载量。据阿里云上季度财报,魔搭社区模型的下载量是 4500 万。也就是说,不到两个月,模型的下载量翻番。一个半月内,这已经是阿里云第三次推出免费可商用的开源模型。并且,与更大尺寸模型一同开源 的,还有技术报告。与预训练、对齐等一系列模型训练过程有关的数据、方法都在报告中得以详细呈 现。目前大模型落地的演化方向——怎么解决领域问题 问:从阿里云与客户的接触来看,目前在通用大模型的落地方面,哪些应用方向需求量较大?周靖人:把模型真正运用在实际场景里,还是需要有很多二次开发,甚至今天就要结合领域知识。如何能够解决领域的问题,是今天基础模型比较欠缺的地方。今天在一些特殊领域里,其实有很多专 业知识,有很多的专业 know how,需要不断深挖这些领域,把这些核心能力跟比如开源的通义千问 7B 或者 14B 的模型有效地结合在一起,不断加深领域知识,变成这个领域的一个核心模型。具体还会遇到一些客户场景,客户有一些特殊的数据或者信息,还不便于公开。这时候,可以考虑通 过知识增强的方式,prompt engineering(提示词工程),或者做一些记忆的模块,这一系列对整个 模型的落地起到至关重要的作用。不久的将来,也会跟大家分享阿里云在这方面如何把模型的落地做成一个产品,从而有效帮助我们的 开发者、ISV,甚至企业能够快速把模型的能力应用在实际的业务场景里面。问:应用层的反馈,对阿里云有什么启发?周靖人:今天在模型应用里,可能更多是要做相关的模型拓展。包括今天根据各行各业的知识,或者 今天如何能更有效地做相关的 fine-tune(模型精调)。在工具这一层,我们也收到大家的反馈,不断地去打磨,能够把我们模型的应用做到低门槛,同时更 高效。问:通义千问实现全面开源,面临的最大挑战或困难是什么?周靖人:讲到模型的应用,不能说今天只做一个 foundation model(基础模型),(基础模型)跟 我们实际的应用场景还会有很大距离。怎么能够帮助开发者、企业用好模型,这是今天很重要的一个 环节。我们做开源也是基于这样一个场景,真正实现目标,让 AI 更加普惠。这句话要实现是非常难的,很有 挑战,需要我们跟行业伙伴共同合作。客户侧,多大规模的模型,最有优势?问:Qwen-14B 开源模型与之前的 Qwen-7B 相比,有哪些突破?周靖人:这两个模型处于不同的量级。今天随着模型参数的增加,模型的整体容量,包括它的能力都 有不断地提升。如果直接把 7B 和 14B 这两个模型的级别做比较,14B 模型往往会比 7B 在某些领 域,特别是在长尾的领域表现出更强的认知能力,甚至推理能力,包括算术等方面。这两款开源模型,基本上在各自领域,都领先于市场上大家耳熟能详的模型。甚至可以跨级别地做一 些比较,千问 14B 的模型比很多更大规模模型的指标都有提升,但它的好处是比这些大的模型更加 compact。也就是说,它在模型微调方面,在模型的应用方面会更有性价比。魔搭作为一个开源的模型社区,希望给不同的开发者、不同的企业更多的选择。这是在 7B 的规模之 上,要开进一步开源 14B 模型的初衷。至于怎么选择,很多时候要结合业务场景。不同的场景可以根 据需求选择不一样规模的模型来应用在自己的开发环境里。问:从模型应用层看,多大规模的模型最有市场,为什么?周靖人:不能一概而论,这也是我们会提供不同尺寸开源模型的原因。不同企业或者不同场景,涉及 到的数据量或者对模型的要求不一样。甚至也跟我们模型服务的成本相关,今天越大规模的模型,固 然在推理,在认知能力上更好,但是它的服务成本也会相应提升,在上面去做二次开发,做 fine-tune(模型精调),结合自己的知识增强等等,成本也会不断提升。每一个企业、开发者实际上要做一个选择,一方面是极致的性能,另一方面是一个极致的成本。他们 会根据实际场景问题的复杂度,包括今天调用的频次、相关资源配比的情况,做出符合业务场景的选 择。阿里云认为只有把选择权交给开发者,交给企业,才能更加有效地让我们的 AI 能力落地在各个业务场 景里。 开源还是闭源?问:通义千问开源版本和 API 调用两种模式如何平衡,是否是小参数的就开源?什么样的客户选开 源,什么样的客户选 API 调用?未来开源、闭源模型会形成什么样的格局?什么样的模型更适合开源?什么样的模型适合闭源?周靖人:我们的开源版本,无论是 7B 还是 14B,都会在魔搭社区和 Hugging Face 等同步的开源。另外一方面,也会同步以 API 的形式,在阿里云灵积平台上,提供各种 API 服务。我觉得还是要回到初衷,如何让 AI 更普惠。应该问,以什么样的方式去支持开发者、企业,能够更加 有效地让他们把模型的能力跟自己的业务场景有效结合在一起,去解决实际问题,所以其实不在乎今 天到底是开源、闭源。今天从基础模型到应用场景,还有很长的路。我们希望在做开源的时候,能激发大家在业务创新的各 方面突破,(让大家)有更多的自由空间,结合自己的应用场景做更加突破性的创新。只有有更多的 创新后,才能让 AI 更好地落地。问:开源大模型,对闭源大模型相比,有什么样的补充?阿里云平台上,两种不同模型的落地,未来 将是一个什么样的比例?哪些客户会更倾向于开源大模型?周靖人:今天闭源、开源都是一种手段,更多的是今天怎么能够让这些模型,快速应用在各种各样的 场景里面。即使在闭源里面做产品化,也是为了让今天 AI 的使用门槛更低,让 AI 的能力更加普惠,这是我们的初衷。但是不同的场景有不一样的需求,一定不是 one size fits all,不是只有一个模型就可以服务所有,也 不是只有一种方式。今天阿里云在支持整个魔搭社区的时候,不是只有通义的模型,还有很多开源社 区的模型,还有很多合作伙伴的模型。他们的模型在很多方面有很多优势,我们希望大家共同来建设 社区,能够真正意义上把模型的能力带到实际场景中。阿里云在这个过程中间,希望为大家提供基础的支持,不管是算力的支持还是模型服务的支持,这也 是为什么阿里云积极参与到模型开源的路径上来。问:阿里云更有兴趣培育开源大模型,还是对大模型之上做应用兴趣更大?周靖人:我们更有兴趣让 AI 蓬勃发展。今天要让整个 AI 的生态蓬勃发展,只做开源也不行,但不做 开源更不行。商业化的创新 问:商业化最后是不是还是通过应用挣钱?MaaS 的商业模式如何跑通?周靖人:今天涉及到模型有价值的服务,不管是通用的服务,还是定制化的服务,甚至一个通用的模 型到一个具体的业务场景里,还有一定的技术过程,包括:怎么去收集本地数据、怎么拿一些反馈、怎么能够做一些知识增强,这些中间有很多商业想象的空间。但我们认为,今天在模型这部分,应该先注重生态,再注重商业化,而不是一开始就过度围绕商业 化。把 AI 的社区、开发者的生态,茁壮培养起来,是我们当前所需要共同努力的首要问题。开源技术报告,最大程度开放 问:对于开发者,有什么激励吗?周靖人:像这次模型的开源,不单单是做模型的开源,同时,还是国内第一个来提供 technical report。这个论文一方面阐述了模型整个研发的过程;另一方面,也最客观地从全方位的维度来衡量 一个模型,各种各样的指标都是公开透明的。这些都是帮助开发者有效衡量:今天从哪个模型开始。另一方面,有不少开发者也跟我们提要求,在跟他们积极互动的过程中,我们发现有这样一个生态 后,很多开发者可以帮助其他开发者。另外,今天像通义千问模型,跟阿里云的相关 AI 产品、技术体系是有效联合在一起的。不管是要使用 一个模型的服务,还是做 fine tune,做一些知识增强,阿里云都会有一系列产品和技术,帮助开发者 进行模型应用。云计算未来的产品形式 问:你觉得未来的云计算会有什么样的新形式?开源模型会不会成为云计算的标配?周靖人:云计算在这样一个 AI 时代里,肯定在不断变化,不断创新,包括模型的开发、模型的服务,一系列的技术体系在升级。我觉得开源模型会成为我们生态的一部分,但不一定会成为全部。就像今天在大数据里面有很多开源的产品,在数据库里面也有很多开源的产品。但是今天在整个云计 算里,有的人会用开源的产品,可能用户自己的技术实力强,会做一些定制的开发;但更多的人会使 用的是今天像 PaaS 这样一个产品,也就是说,会基于云计算上面的一系列产品,来进行服务。模型方面,我认为也会有类似的情况。下一步:被集成,但是要往前多走一步 问:微软的大模型已集成在系统甚至 Bing 里下放给用户,在接近于完成培养用户习惯的阶段,并且 行成了用户付费的闭环。阿里云如何看待这一问题? 周靖人:并不是说今天我们做大模型,我们就要把端到端的所有的链路都要由阿里云来提供。站在云 的视角,我们希望更多地被集成。也就是说,把模型能力提供给各行各业的服务商、软件商,让他们 能够把整体产品技术的体系升级,服务好他的客户。但我们这个过程中间是需要作为云平台,要提前 多走一步,希望把技术能力提供给我们的合作伙伴。问:如何建设大模型的开源生态?周靖人:今天模型的生态一定是要开放公开,有更多人来参与,但也要保持一个求真务实的状态。今 天比较客观地评价一个模型的能力,也能让开发者参与起来。魔搭社区自始至终秉承着公开开放的理念,不管是模型开发者、创业者,还是头部企业,都能通过魔 搭社区去触达更多的开发者,把他们的能力分享给社区,社区反过来给一些反馈。