您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:Soul App张璐-20240322 - 发现报告

Soul App张璐-20240322

2024-03-23-未知机构@***
Soul App张璐-20240322

01ChatGPT火了以后,第一个判断是不做基础通用大模型 Q:过去一年你肯定看到了大模型技术的突飞猛进,Soul这一年在忙什么? 张璐:大模型技术的突破确实给我们带来了很大的震撼,过去一段时间我们所有的动作都围绕一个问题「大模型怎么在社交应用层落地」。 其实,AIGC这件事我们从19年就开始做了,做了很多技术上的探索,「AI苟蛋」在Open AI发布ChatGPT之前就在内测,3D虚拟引擎「NAWA引擎」也是在行业中比较早就推出了。 但确实大模型出来以后颠覆了很多,之前我们用stable diffusion做的东西,后来我们重新去构建新的MoE(Mixture of Experts,将多个专家模型组合起来,形成一个整体模型)。 对话Soul App张璐 01ChatGPT火了以后,第一个判断是不做基础通用大模型 Q:过去一年你肯定看到了大模型技术的突飞猛进,Soul这一年在忙什么? 张璐:大模型技术的突破确实给我们带来了很大的震撼,过去一段时间我们所有的动作都围绕一个问题「大模型怎么在社交应用层落地」。 其实,AIGC这件事我们从19年就开始做了,做了很多技术上的探索,「AI苟蛋」在Open AI发布ChatGPT之前就在内测,3D虚拟引擎「NAWA引擎」也是在行业中比较早就推出了。 但确实大模型出来以后颠覆了很多,之前我们用stable diffusion做的东西,后来我们重新去构建新的MoE(Mixture of Experts,将多个专家模型组合起来,形成一个整体模型)。包括我们从去年开始就在海外筹备建research中心,跟最前沿的技术保持联系,招募人才。高人才密度的团队是能做出好的东西的。 Q:不过技术天天突飞猛进,跟上技术发展的成本也不低,现在可做的东西看起来很多,但做得很好的很少。Soul这个时候怎么思考的,做什么和不做什么? 张璐:内部其实还是很快明确了一个清晰的边界。 我们做的第一个决策,就是不做单纯搞AGI技术的公司,不去做通用大模型。我觉得科技最终会平权,我们不能失焦,放弃自己的专长,去做那些看起来很热的事。 我们定义了自己的模型,做MoE,我们的优势是数据和场景,我们有非常多的垂类场景高关联、高质量数据,有非常多的用例,也是一个有流量的入口。 技术和产品的结合可以有好的产出,不管是对用户规模、粘性,还是对收入都是有帮助的。同时我们场景用例产生的数据可以快速反馈给技术。技术最终会平权,怎样把用例跑通,建立用户经验上的壁垒,是我们认为现在最重要的事。 我的精力第一个要放在以AI新技术促进Soul的主站增长上,包括拓展用户规模、粘性以及商业化的机会,肯定是要做的。第二个,用户流量入口很值得去探索。现在,ChatGPT的APP端DAU(日活用户数)应该也只有千万量级,还远远没有像当年浏览器那么的普适。 所以拥有流量入口也是一个关键,而Soul具备这个潜在条件,并且有机会在未来AI时代成为以对话为主要交互形式的流量入口。特别是我们拥有距离年轻人最近的流量入口。目前在我们的月活用户中,近八成是Z世代,在年轻人中渗透非常高,这些年轻人伴随着移动互联网发展成长,是最容易成为AI原住民的群体。 Q:目前哪些自己的AI产品或者功能给你们加用户粘性、加时长,或者有明显拉新效果好的东西吗?张璐:我们其实落地了不少AI应用场景,包括了AI优化社交和内容链路,人与AI互动、虚拟人等等。目前看,从交互本身出发的新场景或功能大多都会有不错的效果。 比如我们站内在沟通场景中内测了AI辅助聊天的功能,已经很明显地增加了人和人之间聊天的轮次,这对我们有很重要的价值。 再比如我们的音乐互动玩法,去年以来,AI孙燕姿的走红让大家看到了AIGC在声音克隆、生成上的能力,很多音乐平台也都在推AI唱歌的功能和玩法。但如何释放AIGC在音乐、语音上的能力,除了在真实度、表现力上下功夫外,从我们的角度出发还是要挖掘社交属性,增加互动的趣味性,因此我们让用户邀请好友,一起完成「AI合唱」,在邀请、合唱、分享的过程中,完成社交,深化关系。我们的用户特别喜欢这个功能,拉新和留存数据表现都很好。 我其实不是很支持做看起来热闹的工具,工具属性的东西会拉来一些新用户,但是他要留存下来才行。如果用户「用完即走」是不行的。 Q:你觉得用户有可能为这些付费吗? 张璐:现在用户基本都是免费用。确实成本会比较高,特别是AI辅助聊天我们会提供多个对话灵感提示,一次3个,可以换3次,就是9个。 这个对用户粘性和留存上涨有效果,用户会为好的体验买单,比如一位用户聊天时原来的回复率是0%,然后用了AI辅助提示以后是100%,那他肯定会买。 所以现在的核心还是要搞清楚一些东西,比如用户使用AI的核心需求是什么?他们怎么去使用?我觉得用户获得AI提供的价值,这是是比较普适的需求。只是现在因为技术和产品的问题,有些人会用,有些人不会用。不用的其实是他不知道怎么玩,不知道怎么去提示这个AI。所以在设计、优化产品的过程中可能需要尽可能考虑更多人的需求,以及怎么让他能够快速上手。 然后怎么才能把这种AI的效果就是提到最好,怎么让他这个聊天能够一直继续下去。关注轮次还有留存,其实就是看多少人能玩进去,以后怎么才能让他需求更泛化。 Q:泛化具体是指? 张璐:一开始大家就是有想表达的东西、想找个地方说说话,有人能即时回应,后面用户停留在这个平台后,肯定会有更多的需求被发现挖掘,要看这些需求是什么,怎么去承接。比如说大家认识了新朋友,想一起看剧吐槽,想一起玩文字推理游戏,或者一对多AI互动……这些都是很好的方向。未来可能是多个AI服务一个人,充分实现「以我为主」的体验,最大程度实现需求满足和情绪价值反馈。 02 数据、场景和用户, 还是做AI应用的壁垒 Q:你说不花精力在基础的通用大模型上去做Open AI的事,那精力肯定在探索这种新的产品形态、应用形态,你们都做了什么? 张璐:其实我们2016年上线的时候,就在推进Soul灵犀引擎,通过算法挖掘有效特征,重构用户画像,做好人与人、人与内容的实时匹配。我们的自研垂类语言大模型Soul X在2023年推出。 我觉得关键在于考虑两个方面:一是要密切关注技术的发展,包括软件和硬件,有方向的保持「跟上」;二是要抓住时机,产品的推出要符合交互形式和用户体验的普遍标准。如果你选择了错误的时 间点,或者产品设计过于复杂,没有达到普遍认可的交互体验标准,那么你所做的可能就没太大价值。这是一个与时代结合的机遇,需要不断观察和洞察,做好充分的准备。 我们也在进行涉及到一些新产品领域的尝试和准备工作,比如AI对话以及AI游戏的创新方向。这些都是为了做好准备,等到时机合适的时候,快速推出相关产品。 Q:你们的尝试都是基于自己的MoE在做吗?以及这些尝试的开发方向是怎么诞生的? 张璐:对,在对话方面,我们有Soul X大模型,是完全内部自研的技术,在语音合成、视觉生成、3D虚拟人方面,也都有技术团队在做一些东西。对比行业来看,我们现在在MoE上也是比较领先的,基本上是咬住的状态。 我们团队经常聚在一起头脑风暴,我们清楚我们擅长的领域是什么,不断去讨论、验证需求是否存在,然后预估项目的成本和效益,再做出决策。 我们不赛代码,不是每个人都独立完成一个项目。在组织上,我们内部的结构是前台、中台和后台,产运是非常小的团队。比如说我们新上线的一个AI互动产品只配置了1.5个产品经理,其实是非常轻的,效率非常高,也让我们有更多试错的机会。 我们可以在主站多尝试,需求一旦通过就可以先上线实验,这点我们和字节比较像。在主站尝试后,如果发现某个点有潜力,我们就可以单独推出扩大。这些尝试之后会对用户需求有更多的理解,更能了解怎么优化模型,也知道了需要什么样的团队。 Q:那这些热身阶段尝试有什么收获? 张璐:一个是智能推荐方面,以AI辅助社交,真正的提升交互效率和质量。 我们上线后比较早推出的是实现智能推荐的灵犀引擎,虽然一开始,受限于当时AI的整体技术能力,推荐算法对语义的理解还没有达到一个很理想高度,挖掘、分析的数据颗粒度比较粗,但很多用户因为这个智能推荐系统,实现了即时的交流互动,快速找到了聊得来的人,站内点对点的聊天比例和对话轮数增长得非常快。可以说,这是我们平台形成高粘性、高活跃生态的重要因素之一。 我们每个聊天的日活用户,平均每天发出约70条点对点私聊消息,大部分都是生活化、趣味化的内容,这个数据里面还不包含群聊或实时互动场景。 这其实在社交行业里是非常难得的数据,可能比关联了办公、现实关系场景的即时通讯工具还要高,而且从我们站内的最新数据来看,这些关键指标都还在增长。 在AI辅助对话方面,我们的「AI聊天助理」,用AI辅助真人之间的对话。它通过阅读上下文,然后回复建议,你可以选发哪句话,不用打字了,降低沟通成本,辅助聊天。从目前站内情况来看有非常不错的使用数据,因为它特别适合我们这种开放式、多场景互动的社交产品。 在以AI结合游戏机制创新、实现互动体验提升方面,也有一些尝试。比如Agents陪你玩狼人杀,能给到很趣味的交互,AI有不同音色,能角色扮演,很像真人玩家了,很能推理,伪装、悍跳、互踩这些都能做到。具体的功能预计近期就会开启内测,可以期待一下。如果后续叠加上虚拟人效果,肯定会更好。 Soul AI狼人杀界面|图片来源:Soul APP 图片上传失败 从AI推荐关系到AI辅助对话、降低表达门槛,提升互动体验,我们希望成为以AIGC打通整个社交全链路的AI Native社交网络。 Q:所以从你的视角来看,你们对技术能力是能跟得上的,但真正的优势是利用场景和用户优势,做更快速的闭环的探索? 张璐:其实都知道用户的反馈对于模型的改进至关重要,我们的模型有天然场景可以得到了海量用户反馈。 这些都是非常高质量的社交数据。目前的模型训练需要的并不只是海量的数据,而是海量的高关联、高质量的数据,这直接决定了垂类模型的表现、迭代速度和训练成本。很多平台推出自研模型表现不好,就是因为欠缺了重要的数据源,这也是为什么马斯克会禁止其他科技巨头使用X的数据训练大模型,以及为什么谷歌等科技巨头也会寻求与Reddit这些社交平台合作的原因。 Soul主要的优势就在这里,我们已经上线7年多了,在年轻群体中有很高的渗透,也有高活跃、高粘性生态,一对多、多对多等大量公域社交场景下沉淀了海量的高质量社交数据,例如,目前我们有非常多的用户交互数据,一年新内容瞬间发布条数就超过6亿。除了国民级的社交平台,我们所拥有的多元、丰富、高质的社交资产,也是目前社交行业甚至中文互联网领域少有的。而且我们有C端场景,可以持续拥有高质量的用户数据反馈。 但是,如果没有C端场景,就只能进行一些数据标注,非常受限。比如一个人一天可能只能「标注」80条数据,但如果有1000万DAU,那么一天就可以通过用户反馈「标注」8亿条数据。 国内公司很可能挑战就在训练方面的能力和构建数据的能力。但就MoE而言,其实很简单,只要有高质量的数据集和用户反馈,你肯定会做得越来越好。 Q:AI帮人干事和解决情感陪伴分别是不同的难度,社交网络里,是不是就需要一个情商非常高的模型技术作为一个基础才能实现? 张璐:是的,这个模型需要情感化,而不只是提升效率的工具。需要是情感化方向的,能找你的情绪价值点;也需要具备个性化,需要展现出不同的性格特征,有时候应该顺应你,有时候应该拒绝你。这是适合社交场景的底层AI能力,Soul的对话式AI也是这个方向的。 Q:你们聊天机器人是多模态的,目前看就用户在这方面的对哪些模态的反馈整体比较好,文字还是占比最多的吗?声音的需求呢? 张璐:我认为所有这些因素都是相互结合的,只要能够做得更好,产品体验就会更好。 大致的逻辑方向是,产品有一个文字对话的基础得分,做得很好就可以得到六七十分。如果基础得分不好,即使声音做得再好,图片理解方面再出色也不行。确定拿到基础得分后,接下来就是不断迭代,做好多模