您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:从ChatGPT看AIGC的发展专家解析纪要–20230206 - 发现报告
当前位置:首页/会议纪要/报告详情/

从ChatGPT看AIGC的发展专家解析纪要–20230206

2023-02-06未知机构李***
从ChatGPT看AIGC的发展专家解析纪要–20230206

● 专家所在团队介绍张家兴博士,现任IDEA研究院(粤港澳大湾区数字经济研究院)讲席科学家,认知计算与自然语言研究中心负责人。IDEA团队致力于各种各样的预训练模型的开源,包括第一个中文版的stable diffusion。团队定位类似OpenAI,正在做中文的ChatGPT。在技术层面上,AIGC领域今年发生的大事主要是stable diffusion和ChatGPT的推出 ● Stable Diffusion的成功之处用 AI 去生成图这件事已经被提出一段时间,最开始能做这个事情的技术叫GAN,即generative adversary network(生成对抗网络)。GAN直到2021年都是还主流,但它的缺点是难以用自然语言去指导生成,所以需要预先用一些结构化的信息去描述。比如已经把所有的物体分成了 1000 类,这 1000 类全是事先设定好的,指定哪一类都能生成出来,这就意味着要把预先就要做很多结构化的工作。当下stable diffusion的特点叫做文生图,用文字去生成图片。文生图一个最大的好处就在于是完全无限制的。用生成兔子来举例,白兔、灰兔、花兔,这都是各自的一类,它是没有限制、完全开放自由的。当下文生图或说 stable diffusion成功的因为在于大家终于可以用自然语言去描述自己想要什么。之前的技术不成功并不全部因为图像质量太差,主要是它没有这种自由度和空间,给产品带来了很多限制。● ChatGPT的创立和发展ChatGPT技术的源头是2017年底谷歌的一篇叫做attention is all you need的论文。其中提出的transformer结构开创了一个时代。曾经大家一直期望用很多的数据去训练一个很大的模型,之前没能成功当然有算力的问题,以前的计算速度没有那么快。但是其实算没有增长得那么快,其原因主要在于并不是所有的模型都能做大,很多模型面临着无法训练的情况。而transformer模型参数可以扩展得特别大,ChatGPT结构可以训练到5000亿,是人类的一个重大发现。人工智能模型构建的第一阶段是用很大的算力和数据去构建一个基础模型,叫做预训练模型。预训练模型具有一定的通用能力,但是具体任务还没有做好。第二阶段是在预训练模型基础上再去针对性的训练。这个过程非常消耗算力,但是它因为具有通用性,所以只要少量的团队来做就可以,其他公司在这个基础上再做具体的创新和优化。类比芯片领域, CPU 的公司在世界上很少,服务器的CPU基本上就是英特尔和AMP。现在模型领域也呈现出这样的趋势,有些公司做预训练模型,有些公司在下游做创新。做这类预训练模型的主要就是OpenAI和Stability这样的公司。有的是开源,有的是闭源。比如Stability是开源的,在下游应用它的公司不需要多少成本就可以使用。任何一个产业比如互联网产业,汽车产业的成熟,都必然会产生产业分层。国内目前就存在产业不分层的问题,这是一个产业不成熟的标志。ChatGPT引发的冲击使大家思考国内是否也要推出一个类似OpenAI的公司,但目前国内没有任何一个公司的基因是合适的,尤其是已经上市的公司,所以必定涉及到能否成功转型的问题。目前OpenAI拥有10000张卡,购买要10亿人民币;Stability有4000张卡,而国内所有公司总共超不过10000张卡。这是一个很大的差距。OpenAI把模型当做产品来做,通过不断反馈持续性进行改进,更新迭代。训练是非常工程化的事情,做模型就是做产品。若模型结构有问题即要推翻重来。从2020年发布GPT-3后有很多跟风的团队,但算力不够,所以模型最后做不下去。不能把研发当成一次性的项目,要当做产品来做,这是产品的逻辑。● ChatGPT的应用:作为聊天工具应用有限,无法嵌入其他产品。ChatGPT训练成本和推理成本很高,而一个通用的API应用有限,专门针对场景的小模型可能会做得更好。比如用50亿模型在因果推理能力方面甚至强于1750亿的ChatGPT。 ● ChatGPT的玩家:国内目前还没有公司能够做出来ChatGPT。在GPT-3推出后,互联网大厂百度和阿里推出过类似模型,如百度的learning,阿里的 M6。华为推出了盘古,但腾讯和字节做得不多。【问答环节】Q:现在几个大厂像微软,谷歌,包括国内像百度,都声称要用AI技术来提升他们搜索的体验。ChatGPT对搜索引擎方面有什么提升?未来的情况和展望如何?A:AI对搜索的提升问题已经提出了好多年,但没有见到太大的突破。搜索引擎是非常古老的技术,解决的是人和信息之间的链接。这类任务已经被探索得很成熟了。ChatGPT对问答方面的应用主要在于提供信息综合能力和判断。但这样的问题可能一般在社区提问,这不是搜索引擎的诉求和定位。对于ChatGPT能否重塑搜索引擎这种问题的答案应该是否定的。搜索引擎是实时抓取网络上相关的事情去建索引,从索引中找到相关的网页,机械地进行排序。前端的事情就是整个实时的爬取和建立索引。若用ChatGPT就要实时去训练GPT模型。而这件事情是否可行,它的成本有多大都很难回答。单论爬取这件事情,世界上甚至很难出现第二个可以把整个爬虫系统建立起来的公司。当下搜索引擎的公司越来越少,在国内基本上只剩下两家。所以用ChatGPT来进行搜索引擎的弯道超车是一种错配。Q:OPENAI的后续迭代会进化出什么样的产品?A:ChatGPT是11月放出来的,已经迭代到第三版,大量的提问会进行RLHF (reinforcement learning from human feedback) 训练,目前有1000个人员负责训练它。在模型结构不改变的情况下进行升级,类似于互联网产品运营。ChatGPT类似于一种平台型AI产品,用得越多会训练得越好,适应更多人的需求,实现规模效应。GPT-4的呼声太高让OPENAI重新管理预期。CHatGPT在两年前就开始发表论文,利用人类反馈来完善。GPT-4可能也会采用ChatGPT的训练方法,以文本进行输入和输出的多模态可能会让人眼前一亮。Q:GPT-3.0推出时,国内公司如腾讯和阿里的模型为什么没有继续进化?A:原因就在于没有足够的资源和多余的机器去训练,腾讯和阿里也一样。比如互联网大厂能够训练出模型是因为春节假期时其他工程师的机器得以空出来,利用这段时间来训练。互联网大厂的机器并不宽裕,基本上可丁可卯的,他们的主营业务同样耗费很多算力。国外的这方面业务都还没有多大的收益,所以从收益来角度来衡量,无论估值和利润都不会让他们牺牲自己的其他业务来做GPT。Q:ChatGPT未来会开源吗?A:应该不会开源的。OpenAI的产品不开源的。国外一些模仿GPT-3的模型开源的效果并不好,因为没有后续的持续改进体系,国内项目开源都是一个项目,拿到一次性收益后不会再去升级。Q:商业化的问题GPT的模型很大、成本很高,是否做大模型最基础的公司和团队很难有商业化机会?A:很多做AI的公司都是挂羊头卖狗肉,即主要盈利的是B-B的项目。OpenAI和Stability给投资人讲的是B-B的合作,和美国头条的合作,和必应的的合作都是定制化的,从 OPENAI 角度来说,是直接在ChatGPT基础上做个定制化还是考虑用户实际的落地场景、推理速度和成本用的更小规模去做属于技术上的考虑。AI背后的商业模式很传统,但它的定制化确实在产品的各方面体验有了巨大提升。 Q:国内AI四小龙这样的公司有做类似业务吗?A:他们做的预训练模型偏CV(Computer Vision)方向,叫做视觉大模型,和ChatGPT这类自然语言模型不一样。目前没有明确信息显示他们将会做ChatGPT。在OpenAI尚未证明营收情况时,对于重视短期营收的公司是否会选择投资这项业务可能要看自己的价值判断。Q:这些公司是否会作为这项产业链中的一环?比如在算力方面会不会有自己的位置?A:若像OpenAI一样做模型肯定会成为产业中的一个重要生态,有很多机会。但在提供算力方面,他们和国内云厂家竞争是不具备天然优势的。虽然当下国内的生态位空缺,但在国外市场占据的情况下并没有很好的营收,所以从二级市场角度来看其发展前景怎样还不明确。Q:因为 CV 方向和 NLP 不一样, CV是否会相对简单一点?都说 NLP 属于 AI 领域,那么在 CV 方向上是不是需要去训练路线?还是掌握几个方向就可以?A:CV一直未证明预训练模型起了多大的价值。图像世界的丰富程度远大于自然语言。自然语言已经抽象出一个高度符号化的体系,它描述事物比图像需要的信息要小得多。大量的图像信息是冗余的,所以做图像云训练模型意味着需要更大的算力和模型规模。CV模型还未起作用可能就是因为算力还没有达到一定程度。而NLP(Natural Language Processing)因为信息高度浓缩,能做出很多惊艳的功能。现在盲目地去借鉴NLP跑transformer这样的模型并不合适,因为transformer可能并不适合CV这类任务。CV中的预训练模型在OCR(Optical Character Recognition)方面有些用处,但不值得花大力气投入,所以整个CV业界目前也有什么成果。Q:ChatGPT商业化应用场景有哪些?A:智能客服、智能音箱、陪伴型机器人等,可以极大降低需要定制化服务的成本。另外还有游戏中的NPC——即靠ChatGPT来进行实时互动。在其他未探索的领域也仍有广阔空间。