会议要点: 公司基本情况 西湖心辰于2021年成立,创始人是蓝振忠老师,之前在CMU读博士,曾经就职于谷歌,目前兼任西湖大学博导,在NLP领域拥有资深的研究经验。公司目前产品包括AI绘画品牌“造梦日记”,AI写作品牌“Friday”,AI心理咨询品牌等,目前有200万左右海内外用户,服务了包括星巴克、知乎、酷家乐、汤姆猫等上百家知名的B端公司。 公司在生成式AI领域的发展 公司在2022年初开始AI大模型研发,于2023年7月发布自研的通用大模型——西湖大模型,致力于构建情商、智商俱佳的通用大模型,打造陪伴10亿人的AI。公司连续获得汤姆猫过亿元的投资,未来计划共同推出产品。 情感大模型赛道 情感大模型赛道共同受到海内外市场认可,海外大模型InflectionAI受到微软及英伟达的领投,专注于聊天的Character AI的估值已达到数十亿美金。 蓝振忠在大模型领域的经历 蓝振忠老师2018年在谷歌时期使用数千张A100级的算力成功开发了谷歌大模型轻量化版本,并应用在过亿级别产品上,在谷歌期间不少同事已成为海外OpenAI、Google、Meta等大型互联网公司大模型研发干将,对于全球领先技术路线相对了解。 交流环节问答: 1、一二级市场做通用大模型的公司有很多,包括MiniMax等创业公司也是依靠Glow模型,在情感赛道起家,西湖心辰在情感陪伴赛道较为领先,公司产品是如何训练的,壁垒是什么? 公司在这个赛道较早进行探索,有多个优势。 算法层面:1.大模型训练过程更加针对人的对话数据。包括OpenAI以及其他国内大模型使用了大量互联网公开数据进行训练,其中包含了小说、文章中的对话数据。如何有效地使用这些对话数据进行模型训练,有许多的know-how。我们在数据清洗、标注以及强化学习方面有很多积累,让模型更好地理解“情商”元素。 2.我们的模型具备长期记忆、个性化和情感感知能力。长期记忆让AI 能够记住对话历史。个性化让AI有自己特定的人设、性格及背景。情感感知让AI能感受客户当前的情绪。这几项能力公司一直在研究,在技术能力上有很多次迭代,相比于竞争对手有更多积累。 3.在训练推理加速方面有很多经验,蓝老师在模型轻量化方面很有积累。 数据层面:除了公开数据,我们也收集了大量高质量的对话数据,加入到模型的训练之中。公司最早推出的应用是AI心理咨询,积累了全国最多的高质量标注数据。 算力层面:有2000多张A100级别算力,目前仍在积极扩张,尽快达到5000张级别的水平。对于创业公司而言,公司在算力上还是有一定壁垒的。 此外,我们通过和一些大型客户合作,在不断迭代模型,汤姆猫是很好的例子,全球有4亿月活,是天然的陪伴孩子的场景,汤姆猫对公司两次进行战略投资,汤姆猫要对模型进行一定程度的公测,年底前市场上会有高质量的产品。 2、与通用大模型相比,哪些场景是比较适合公司这种偏重情商的大模型?典型用户画像是什么样的? 需要高情商的大模型的场景,大家希望AI是比较像人的,大语言模型有两类,一种是AI做助理的工作,另一种情感类,AI更像人,为人类提供情感价值,更好地与人类进行沟通,建立一定信任关系。在娱乐领域,很多企业做数字人,视觉方面已经做的不错了,但对话的体验还是较差,比如明星的数字人肯定需要很像明星的口吻。游戏领域,很多公司在研究智能NPC,不只是死板的问答。社交领域,虚拟伴侣领域的应用。教育领域的AI虚拟老师,不止是将学生教会,还要有与学生的共情能力。医疗领域的AI医生、AI护士,有对病人的陪伴作用。金融领域的智能投顾,与客户像与人一样进行沟通。客服领域,虽然已经有很多落地,但仍有很多用户认为客服机器人太过机械,需要更像人。高情商覆盖面较广,凡是需要AI更像人一样的场景,就适合使用情感大模型。 3、数据方面,公司有深刻的积累,通用大模型与情感大模型在技术方面的区别是什么,对通用大模型进行微调,以实现情感大模型的效果是可行的吗? 一定程度上可行,ChatGPT有一定角色扮演能力,但不够稳定,比如经常会回复“我是个AI模型,不能……”。本质的原因是,通过微调能够提升的程度有限,而且GPT4目前还不支持微调,因为提供没有这样的接口。整体而言,通用大模型做情感相关的事情是可以的,但做的还不够好。 4、公司与汤姆猫等B端厂商的合作方式及收费模式是什么样的? 有两种收费模式,一种是直接的API调用,这种是比较轻的;另一种是 模型定制,是比较深的合作,我们与汤姆猫的合作方式就是这种,我们帮助汤姆猫进行模型训练,汤姆猫提供数据并进行相应的标注。汤姆猫的模型调用次数很大,我们会按照调用次数收费。我们也会探索分成模式。 5、西湖大模型的参数规模有多少? 西湖大模型其实是一个模型组,从100亿到千亿以上不等。为汤姆猫定制的是几百亿参数级别的。 6、公司在算力供应上的规划? 公司有2000多张A100级别的算力,是租的,未来目标是5000张以上级别,具体要考虑公司的融资及发展情况,同样也在考虑与商业伙伴共建算力中心。 7、网信办新的监管办法会促进AI大模型的应用落地加速吗? 整体而言,文件更加开放鼓励。文件提到要提升生成内容的准确性以及可靠性,也提到鼓励大模型公司去做海外市场。对公司而言,是更加开放,公司也会去探索海外市场。 8、汤姆猫在海外也接了ChatGPT,客户是否比较了公司产品与ChatGPT的体验? 汤姆猫认为公司的模型更符合客户的场景,ChatGPT的回答比较长篇大论及追求科学性,但孩子需要更简短、有趣的回答。ChatGPT很难达到汤姆猫想要的效果,公司的模型更符合汤姆猫的需求。 9、公司的模型与汤姆猫合作外,还有哪些客户有比较紧密的合作? 深度的模型合作,有陪伴类的,也有数字人的,之后会宣布。目前在合作伙伴方面在寻找用户规模比较大的B端。 10、有文章解读GPT4的原理,算法的揭示会不会促进国内算法的追赶?有没有可能追上GPT3.5或GPT4的水平? 确实方法论上,路径清晰了一半。GPT3.5是可以追赶的,我判断国内年底前能够达到GPT3.5水平。目前很多大模型会用GPT进行标注及指导,所以追赶会比较容易,大家也会利用更高级的GPT4去追赶。追赶GPT4最终国内谁会胜出还需观察。 11、公司的升级迭代是怎么样的? 公司的模型分为智商和情商两个维度,智商更加偏向推理能力,与国内其他大模型水平差不多,很多测评中公司的大模型也在第一梯队,与智谱、MiniMax同一水平。情商方面是我们的特色,现在没有相应的测评,我们在 自身的场景应用去评估它,我们计划一年内做到国际上的第一梯队水平,甚至可能会超越CharacterAI、Inflection的水平。 12、汤姆猫的场景对于小孩子而言,情感陪伴比较重要,那像金融客服的应用场景,智商与情商哪个比较重要?公司是如何平衡的? 两者都需要,像金融等垂直行业落地,在智商方面也是有挑战的,对准确性的要求会很高,其他的通用大模型也比较难去落地。我们会突出我们的情商能力,也会兼顾智商,不排除做智商方面时直接调用一个金融的垂类模型。情商方面是与客户更好沟通的交互界面,与客户是最近的,在金融客服里,模型更像是一个AI的理财师,用户有任何想法会直接沟通,能够交流的更加默契,但里面涉及专业解答的,也可以直接调用金融领域一个专业的模型,未必我们也要把智商方面做的非常好。 13、对于更偏重算法的技术创业类公司,机会点及壁垒在哪里? 目前来看,开源与闭源还是有差距的。LLaMA这类开源的模型与GPT相比也是有差距,开源的模型规模也不够大。比如文生图方面,Midjourney的模型比开源模型还是有明显的优势。 目前市场上模型同质化比较严重,特别是智力方面,海内外有很多公司在做,壁垒不明显。而我们做的比较有差异化,如果认为我们足够好的话,会有比较大的市场空间。 14、国内和海外的客户规模及需求差异? 目前,我们的用户还是国内的较多,无论C端还是B端。但还要看客户,比如汤姆猫,它的4亿多的月活更多是在海外,服务它的应用更多也是以海外为主的对话。需求层面,海内外是差不多的,有差别的是语言以及文化。我们的战略目前是与大的B端客户合作,以后可能会进行C端业务的拓展。 15、国内的客户规模是多少? C端用户是海内外200万作用,B端用户是100个左右。 16、新的监管下,行业对接入海外OpenAI怎样考虑的?面对海外的产品,国内公司是否会有价格压力? 汤姆猫起初接入ChatGPT时,监管不是十分明确,现在国内的用户只能接入国内的模型,所以会用我们的,海外的客户可以接OpenAI,也可以用我们的。在客户的测试中,对我们还是挺满意的。因为模型是与汤姆猫共创的,所以我们的模型更适合他们的场景。价格上我们是比ChatGPT更低的。 17、客户端是否能够用开源模型顶替掉公司产品? 我们的客户都曾经试过用开源模型,确实达不到他们的效果,觉得我们的模型更好。当然市场是动态变化的,最终选用什么样的模型要看具体的商业场景。 18、公司自研时间用了多久?训练中的挑战与难点有哪些?与CharacterAI比较,公司有哪些差距? 公司在21年7月成立,在22年初开始做模型。一开始是在心理咨询领域探索,做了“小天”这样的产品。22年初意识到核心的是模型,所以开始研发模型。成本的话,因为之前只有几百张A100,融资的规模也有限,所以整体成本不大。公司21年融了种子轮的资金,22年没有融资,2023年目前融了3轮。因为创始人蓝老师知道很多的Knowhow,所以研发的进程比较高效。 CharacterAI平均用户交互时长是每天28分钟,我们的时长每天超过20分钟,还是有些差距。如果快的话,半年内能够追赶上Character AI。我们对CharacterAI比较了解,CharacterAI创始人在谷歌时与我们创始人蓝老师共同合作过两篇论文以及专利,彼此之间也会相互交流,对他们的技术路线比较了解。 19、有媒体报导CharacterAI用户量增长放缓,公司如何看待? CharacterAI的PC端用户量增长是有放缓,但他们开发了移动端后,一些PC端的用户转去了移动端。整体数据没有放缓的现象。 20、情感类模型的合规有哪些挑战? 情感类的监管与通用类的差别不大,大家都不会去聊政治敏感话题,都会做好各方面合规。我们与汤姆猫的产品是孩子与猫之间的对话,基本不会涉及敏感话题。 21、心理咨询领域,公司模型训练的数据有哪些? 有两种,一种是公众的聊天语料,从互联网上收集的。另一种是自己的数据,是公司在之前做AI心理咨询积累的数据,当然数据是保护隐私的。 22、2000张A100卡能否同时满足训练及推理?汤姆猫的推理是否需要我们的算力?推理环节对卡的要求是怎样的? 我们目前2000张是能满足自己的训练及推理,以后会需要更多的算力,推理可以用更低级别的算力,未来国产芯片可能会替代海外芯片满足推理的需求。汤姆猫会使用我们的算力,也在自建算力,也有与外部的合作。汤姆猫近期有增发的公告,较大的资金会投入在算力上。 23、海外大公司买大量的算力,是争先恐后的心态,还是真的看到了更大的市场需求? 我认为是有足够的需求,我们认为大模型目前还在早期,未来模型会更大能力更强,OpenAI也在扩大模型,共识是模型越大越好,至少现在还没有看到边界,我觉得各大公司不断投入是不愿意落后的。未来模型会融合声音、图片、视频等模态,对模型体量的要求也会很大,训练数据和计算量有强大的需求,海外大厂需要自研到更高的程度,大家看到了对芯片强劲的需求。 24、训练情感类高质量的语料是公众语料还是私有语料? 有公开的也有私有的,自己的独特性数据有帮助,如何运用这些语料也有很多的Know-how,公司在这方面有很强的积累。