您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰君安证券]:国君:产业调研-百川智能为何选择将大模型开源?-20231014 - 发现报告

国君:产业调研-百川智能为何选择将大模型开源?-20231014

2023-10-13 国泰君安证券 杨框子
报告封面

百川大模型性能领先、生态友好,引起开源社区极大反响。百川智能虽然成立较晚,但在大模型的各个评价维度,都居于领先地位。其大模型进展迅速离不开其在搜索引擎业务中的数据积累,能够把模型做到又快又好,加之其在整个底座结构上更加接近LLAMA的结构,所以开源设计上的支持会更加直接,现在基本上所有的互联网大厂都在用百川内部的模型。另外,百川2不仅开源了模型,还把中间的CheckPoint全部公开,极大助力了大模型基本原理的学术研究 。 大模型技术不仅会重塑现有的行业,也会创造全新的价值。海外以OpenAI为代表在做两个事情:一方面,通过它的API和私有化部署,对整体生产率进行提升,使得生活更加便捷。像微软发布的office的整个Copilot全家桶,其核心工作就是这方面。国内WPS也在做类似的事情;另外一方面是AI原生的应用,其称之为智能助理。在海外以ChatGPT为代表,它增长非常迅速,去年它营收只有2000万美金,且都来自B端,ChatGPT推出之后,它的营收超过20亿美金 ,所以C端才是大模型的巨大爆发力所在。 大模型时代跟之前信息时代相比显然存在诸多差异点。在信息时代最核心的是搜索引擎,搜索之所以能够形成本质上是因为芯片算力的成本不断下降,今天的智能时代跟信息时代的不同之处在于它本身的底座是用大模型来驱动的,然后形成的c端的一个应用典型的就是ChatGPT。 在过去,AI的核心是一个工具,一个连接信息、人和商品的工具,最大的几家公司例如BAT都是做这方面的。到了大模型时代或者AGI时代,我们可以把工具转变成一个伙伴,它能够陪伴以及向我们提供各种专业的知识与服务。这是大模型时代跟以前最大的一个区别,就是从原来的造工具变成造“人”,会产生大量的专家,比如一个优秀的老师、经验丰富的医生或者律师,所以本质上在做创造更多的伙伴的工作。 百川智能作为一家非常新的公司,在大模型的进展却十分迅速。2023年4月10号宣布成立以后,在6月15日就发布了国内第一款开源模型,该模型在一系列榜单超过了国内外所有的开源模型。另外,百川把整个模型变成免费可商用的开源模型,在8月8号又发布了530亿参数的一个闭源模型,在8月31号成功首批通过了生成式人工智能备案,也是2023年全国首批八家拿到备案中唯一一家2023年成立的创业公司。 在9月6号,进一步发布了百川二代模型,相对百川一代效果上有20%的提升,在当时也超过了LLama2以及其他模型的效果。百川在大模型上的飞速进步离不开其之前做搜索引擎的积累,从数据使用量、数据处理到训练语料上,百川都有天然积累,所以能够非常快地把整个模型做到又快又好。 因为本身模型的效果好,百川开源之后得到了整个开源社区的极大反响。开源一个月,首周就突破了百万的下载量,在23年8月份百川一个月的下载量将近350万,这也是国内外开源模型中下载量最大的一个模型,因为它在中文和英文上是双料冠军。另外,由于百川模型效果好,整个开源社区也不停地对其进行支持。同时因为百川在整个底座结构上更加接近LLAMA的结构,所以本身开源设计上的支持会更加的直接。 百川大模型旨在做到热插拔(用LLAMA的把它用百川一换上,直接就能够起到 同样的效果),所以整个开源设计上的支持会更加的友好。另外,很多云厂商都对百川智能有很多模型上的支持。现在基本上所有的互联网大厂都在用百川内部的模型。 百川2的发布开启了新的阶段。百川2在23年9月6号发布,距离先前发布的模型时间间隔短,百川2不仅仅开源了最终的模型,还把所有的中间的checkpoint全部开源出来,这对整个中国的学术研究会起到非常大的推进作用。 百川1是一个文科能力非常好的模型,到百川2的时候做到了文理双修的状态,百川2代是跟1代的最大的区别,就是除了基础能力的提升之外,在理科的能力上有了巨大提升,尤其像数学代码的能力有了巨大提升。所以在各类指标榜单上,百川2的效果也是行业里面最好的。 Baichuan在多语言能力上在开源模型中最好。百川2代里集成了大量的多语言能力,因为历史上收购有大量的像机器翻译的这种语料,所以在整体上的多语言能力上有了进一步提升,该能力也是目前所有开源模型里面效果最好的。 另外,百川模型的协议更加友好。像LLAMA虽然进行了开源,但它对中文区的使用是有限制的,它在使用中必须是以英文场景为主,而不是像百川可用于中文场景。另外从政策法规来看,我国要求使用合法来源的基础数据,那么LLAMA这种海外的模型它并不具备。百川在整个开源协议上,能够做到免费商用这种有诚意的开源支持。 在训练上,百川做到了高效稳定、可预测,价值观对齐也是百川的重要着力点 。比如在整个训练的分布式框架上,要把一个模型非常稳定的训练下来也并不容易,但是百川一方面把它非常稳定的训练下来,同时像千卡的A800集群上也做到了180TFLOPS的性能,超过现在的行业平均水平。 另外,通过百川自身探索,能够科学预测自己的模型,例如从小模型去预测大模型的效果,形成了百川自己的scalinglaw,这一块百川可能在国内也是非常领先的。同时,百川在价值观对齐上也正在做努力,主流的社会价值观是大模型的安全基石,因为这本身跟搜索引擎以前在做价值观对齐上是非常接近的,基于百川的积累,其在2023年8月8号成为第一批拿到牌照的公司。 百川2训练的整个过程用technicalreport方式对外进行了发布。百川也是在学术界里首次把整个训练的checkpoint全部公开出来的公司,更加助力于整个学术上的研究,基于公开的这些checkpoint,其他人可以更好地在上面来做整个大模型基础原理的研究。目前百川所有的成绩得到了广泛的称赞,在国内外都产生了巨大的影响力。