您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:民生计算机 ChatGPT新龙头 – 三六零–20230208 - 发现报告
当前位置:首页/会议纪要/报告详情/

民生计算机 ChatGPT新龙头 – 三六零–20230208

2023-02-08未知机构键***
民生计算机  ChatGPT新龙头 – 三六零–20230208

主持人:各位投资者朋友大家晚上好,感谢大家利用晚上的时间来参加我们举办的ChatGPT新龙头-三六零电话会议。ChatGPT持续发酵,市场无论是国内外,还是ChatGPT供给侧到应用场景,不断演绎,引起了全社会的热潮。大家会关注谁是中国最有可能推出ChatGPT的公司,百度今天正式在官网发布了后续的产品计划。今天特别荣幸邀请到了360。为什么我们觉得互联网巨头以360、百度等为代表的公司会比较有潜力,核心在于ChatGPT本身代表AI三个技术门槛,算力、数据和算法模型。其实算法模型反而是这里面门槛最低的,如果大家研究的深都知道,这是2017年谷歌(英)论文,在产业界开源使用。更大的门槛是来自于算力和数据资源,毫无疑问,互联网巨头在这两方面拥有独特的优势和门槛。再加上360本身在国内搜索引擎比较高的市占率,又有非常好的场景,落地场景入口,成为整个市场非常关注的焦点,公司经历了长期的厚积薄发,今天我们特别荣幸邀请公司董秘赵总和IR陈总共同出席电话会。计算机首席以及通信首席马天诣一起主持,比较重要的机会,下面将时间交给赵总,跟大家分享一下360这方面的布局和未来的战略规划。赵总:谢谢大家。可能算法工程师不会同意刚才主持人的说法,他们认为算法是最重要的。我大概介绍一下360现在的形势。正如刚才主持人所说的,现在的AI技术是特别热的热点。为什么会这样?OpenAI实验室成立的时间已经非常久了,以前叫做GPT,ChatGPT现在已经推出到3.0的版本。最近火也是因为大家看到ChatGPT3.0终于开始说一些人话,大家突然看到了,美国人已经把通用范式的AI从0到1的这一步跑出来了。在这个前提下,具备通用范式的AI技术对于整个软件领域,尤其是对于我们的搜索引擎是一个具有非常颠覆性的影响,甚至于国外有的专家,包括微软(英)他们都认为,这个可能会对搜索引擎有一次重新洗牌式的冲击、打击。我不知道大家用不用知乎这种所谓的知识类软件,现在很多搜索引擎流量被知乎、B站知识聚集类的应用所分走了,因为搜索引擎现在罗列出来的只是一些非常简单粗暴的链接,更何况以百度为代表的,当然我们可能也有,会有一些性价排名。在最显眼的地方,或者在头一页上,大家能够看到的链接反而是含金量不高的链接。尤其是现在网络上的知识鱼龙混杂,良莠不齐,可能你点开的排名高的链接给出的答案是不正确的,或者是有偏颇的。以ChatGPT为代表的人工智能清洗之后,它会通过自己的自然语言算法,根据它在网上,我们反哺给他的信息,生成一篇,说通俗的话,可以生成一篇类似于作者精心准备的知乎一样的文章,会有非常详尽的、具体的解释,答案里面每一句以论文参考文献的形式,在旁边会有引注,这个知识点来自于哪一条链接。这个会对整个搜索引擎底层逻辑造成重大的影响。所以其实大家看到现在首先发力或者主要发力于ChatGPT产品的是谷歌、百度,这种大型的搜索引擎巨头。这个技术对于360而言,其实我们从2019、2020年开始,大家就看到了可能会有的技术变革。360在当时就已经成立了人工智能研究院,也投入了相当的人力、算力,去跟人工AI场景。但是在美国人,说真的,我还是比较佩服美国人的。当美国人怕通用范式跑出来之前,其实大家对于能用通用AI来做专业的事情,大家心里是没有根的。大家更多做垂直领域或者更专业的AI,用更专业的数据模型去训练人工智能,去做一些专业领域的事情。比如说我们,大家可能也看到我们用安全AI查找软件漏洞,去扫描漏洞。当然我在今天互动中也回答了,效果是非常好的,包括也做到了全球第一的查找水平,也受到了网信办的点名表扬。再举个例子,科大讯飞有他的AI去跑医疗、教育,这些都是效果不错的。在美国人把通用范式从0到1做出来以后,其实对于整个AI市场是非常大的冲洗。大家会看到通用AI范式能够做到专业领域的事情,就不会再有很多人去做专业的数据模型,大家都会把力量投入到通用数据模型中来,用通用的数据模型去达到自己专业的事情,这是现在整个市场面临的现状。刚才主持人也说了咱们的AI有三大块,预训练大模型、投喂数据以及所拥有的算力这三大方面。咱们先说训练大模型,那时候还不叫ChatGPT,那会儿叫GPT2.0的时候,它还是开源软件。 现在GPT3.0已经不是开源软件了。在开源的情况下,其实大家对于算法都有一些自己的理解。包括研究界也有很多的论文,大家各有各的技术。显然现在GPT3.0更领先,马上要出到3.5。至于我们和百度谁强谁弱,我也不好评判,只能说大家各自都有自己的优点。在整个算法下面还有一个细节,就是(英)小技巧,数据清洗和人工标注,这是每一家自己独到的地方,同样一个卤货,周黑鸭吃起来就跟别人不一样,这就是自己的技巧。这个技巧在百度推出他的产品之前,我也不知道他是什么样的,我们还是有自己的独到之处。第二点是我们喂给训练模型的数据,天然注定为什么搜索疫情是水到渠成的事情,别的网络公司或者别的科技公司做AI就没有这么顺。因为搜索引擎天然拥有大量的数据来源,包括之前我们在做专有模型时,为什么ToB端的数字安全做的非常好,基于安全卫士累计下来的大量安全数据模型。没有大量的数据模型去投喂,经过一轮一轮的迭代,反馈出来的结果会越来越精准。就像AlphaGo一直在吃,当他吃到1万张、10万张、100万张,显然是不一样的。从连小孩都下不过,到能战胜李世石。这个反而是最重要的一方面,投喂数据的多少,投喂数据迭代次数的多少,这是真正决定AI强弱最关键的因素之一。第三是算力,算力说白了就是钱,就是你能买得起多少台A100,能组建多少个算力集群,大概能用多长时间跑数据,能进行多少人的迭代,这就是资金支持。我们比谷歌、百度的资金储备不足,A股市场不光只有我们一家做搜索的上市公司,可能200多亿的资金,我看也比别人要多很多。科大讯飞目前还是在做专业的AI训练,他们的这种动作看来,所需要的算力,倒退我们自己的钱,觉得还是绰绰有余的。我大概讲以上三点,因为AI技术是非常复杂,并且非常大的概念,我觉得咱们还是有的放矢比较好,在我讲的框架之下是否有具体问题供咱们讨论。主持人:好的,谢谢赵总,解释的非常清楚。大家好,我是民生通信的马天诣。接着刚才吕所提的问题,包括刚才赵总提的情况,基于三方面先抛砖引玉请教三个小问题,AI层、场景侧和安全侧。第一个问题,刚才您提到,我们不评价和百度比怎么样。就像您说的,A股通用AI公司,和专业算法的AI公司比,咱们大概的投入量级,或者我们和他的优势能稍微展开说一些吗?第二个问题场景侧,现在我们大家看到基于交互的场景,您认为还有哪些场景是我们以前,像您互动一直提到的,我们测试过,但现在市场还没关注到的场景?第三个问题安全侧,基于AI,因为市场还没有关注到可能这里面有很多的安全隐患,您能展开讲讲安全问题的场景,给大家做解读吗?谢谢赵总。赵总:好的,谢谢主持人。第一个问题,我觉得优势还是比较明显的,由于某些不能说的原因,互联网分两块,简中互联网和其他互联网,这是没有办法的事情。不得不说在某些质量上,英文互联网是高于简中互联网的。具体到现在谈的狭义AI技术,特别是ChatGPT,首先是基于自然语言的,第二是基于使用者需要的内容进行呈现的。在这两个基础之上,其实对于简体中文互联网的数据需求,会比其他互联网的数据需求来得大一些。或者我们叫做刻化训练,刻划训练需要调的更好一些。国内市场A股上市的搜索引擎,我能看到的只有我们一家。百度是在香港上市的,搜狗已经被腾讯收购了。A股上市的搜索引擎公司只有我们一个。简体中文互联网或者国内市场而言,我们的搜索引擎在PC端日搜索是8亿多次,移动端的搜索次数是1.5亿次。也像我说的一样,我们市场份额占比大概是35%。百度是比不了的,因为剩下基本都是人家的。 但我们也拥有了绝对的数据量,在A股市场看不到除了我们之外的第二名在哪里。这是我们在数据上的优势。第二个问题,在资金上的优势。一台八连80GB的A100大概80万人民币左右,跑一个月平均下来大概是4万多的成本。做一个集群,秒秒中可能1、2个亿就出去了。当然,科大讯飞这种头部不说,人家也是做AI出身的。不点名,现在市场上的某些公司和算力三连代码,其实我也看不太懂。第三个问题,算法,包括刚才说的数据清洗(英)。算法确实,GPT2.0是开源的,开源也要吃透,也需要人去研究。尤其具体到数据清洗方面,数据清洗说白了没有什么太难的,就是人工标记。需要大量的人员对于第一次吐出来的数据进行人工标记,哪些是好的,哪些是不好的,然后才能进行第二轮的迭代。这个东西说白了就是烧工资,看年报也很简单,就看员工研发费用就好了。之前也有人提出一年这么多,30多亿的研发费用,50多亿的研发费用,花在哪里,不能说都花在这里,有相当部分花在这里。其实我觉得从数据侧或者基本面,其实大概就能看出来一个公司真正意义上的AI,财务报表支不支持购买大量的算力集群,支不支持有大量的人员做表前。第二是有没有相应的支出去存大量的数据,我记得之前也说过一年花在存储上的支出大概7亿人民币左右。他说他有数据,得有地儿放。数据和人员支出在财报上都看不见,他说他有数据、算法、算力,我觉得应该是没有的。这不是我们说从2020年开始有,而是相应的财报支出以及寓言都能够支持这一点。包括我们在下午互动上说预计推出demo产品,这个demo产品一直都有,这个产品主要是当做内部工具来用。内部工具有很多是需要用到AI的,比如说批量生成图片,比如说对我们自己的,刚才您的第三个问题,就是安全类的使用,包括用AI对于现有搜索引擎返回内容的修正,这其实都是我们的内生工具需要用到AI的地方。搜索引擎市场占比能跟到不掉队,说明我们展示出来的。基于现在搜索引擎展示页面,比百度而言,不说好与不好,反正不差,反正没有被百度落下。百度也在做他的AI系统,用他的AI能力去反哺他的搜索展示结果,显然相应的,我们也会有我们的东西来反馈我们的搜索结果。如果从搜索展示结果有差异的话,我们早就被市场抛下了。我也是厚颜的承认了,我们是A股市场仅存的AI公司。这是回答主持人的第一个问题,我们的优势在哪里。第二个问题是什么?主持人:场景。赵总:我要说的不对,陈总补充。可能我这个人比较悲观,我觉得现在没有一个真正能够实现盈亏平衡的场景存在,这是我对于AI,尤其对于现在ChatGPT3.0的看法。但是我并不是说现在没有,未来就没有。其实这个道理解释清楚也很简单,ChatGPT3.0为什么现在开始收费。从最开始免费给大家用,到基本上90%提问不会回馈,到现在需要20美元的注册费用去使用,就是因为它太贵了。它所回答的答案是按token收费的,一个英文单词基本就是1个token。我有一个非常复杂的问题,它反馈的结果是“This is a dog”,this、is、a、doa这就是4个token。它大概是每1000个token,0.7美分,这个价格比传统搜索结果差出3个数量级的价格差距。用现在ChatGPT3.0所展示出结果,到目前为止是盈亏不平衡的事情。ChatGPT3.0之前免费给大家提供API,供大家使用,他是希望落后一些的数据输入,等于让人民大众去帮助他训练模型。但是当训练量到了以后就需要收费来hold住他的成本。 国内肯定更是这样。因为这个东西也是规模效应,我认为百度每1000个token肯定是要比OpenAI实验室要高的。我们可能也是这个样子。但是为什么我说这个事情很快就会有大规模的商业应用呢?因为在之前几年硬件一直是以摩尔定律来增长的,18个月3米3,尤其是GPU。AI算力是由CPU,大家如果玩游戏的话,一直说老黄的刀法精准,挤牙膏。其实咱们在GPU上面还是有很大潜力的。硬件的发展是一直没有停止的,但这是第一次以来我们真正应用软件跑到硬件发展的前面。一直以来其实软件发展是落后于硬件的。当前AI的每个token的价格很贵,当GPU算力增加之后,当GPU单芯片的性能增加以后,价格就会自然而然下来。比如现在显卡出到4050,我记得3090是一年前之前的事情,现在是4090。当出到5090的时候,可能现在不是N100的计算机器人,那时候可能就是N1000、N100