您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:大模型专家20240910 - 发现报告

大模型专家20240910

2024-09-10未知机构x***
大模型专家20240910

以下为专家观点:Q&A 字节跳动在AI领域的整体布局和策略是什么?目前采购了大量GPU 卡,这些卡片的具体用途是什么? 字节跳动在AI领域的布局主要集中在算力资源的预先采购和合理分配上。公司通常会根据未来三个月或半年的需求进行扩容,保持60%到70%的资源水位,以应对不断增长的业务需求。近年来,字节跳动采购了大量英伟达GPU卡,包括H800、A100和A800等型号。 大模型专家 以下为专家观点:Q&A 字节跳动在AI领域的整体布局和策略是什么?目前采购了大量GPU 卡,这些卡片的具体用途是什么? 字节跳动在AI领域的布局主要集中在算力资源的预先采购和合理分配上。公司通常会根据未来三个月或半年的需求进行扩容,保持60%到70%的资源水位,以应对不断增长的业务需求。近年来,字节跳动采购了大量英伟达GPU卡,包括H800、A100和A800等型号。截至去年底,字节跳动拥有超过10万张英伟达卡,其中H800主要用于视觉模型训练,A100用于文本和语音模型训练。此外,还有A800部分通过火山引擎云业务对外出租。这些芯片形成了一个算力底座资源池。 除了英伟达GPU卡,字节跳动还拥有推理卡(如4090、3090),这些推理卡主要用于内部业务管控和模型推理。在AI浪潮之前,字节一直是英伟达在全球前三的客户,对于推理卡的需求非常大。今年,公司计划新采购约30万张H20。这些新增算力将主要用于承接模型推理任务,同时也会支持抖音等传统业务的一些特定需求。 整体来看,方向是重度去支持模型方面的推理。 字节跳动当前在AI发展方向上是以推理为主还是以模型训练为主? 目前,字节跳动在AI发展方向上采取双向并行策略,即同时重视推理和模型训练。从绝对算力分布来看,训练占据大头,大约占60%。虽然推理部分相对较小,但随着业务的发展,这一部分也在逐步增加。然而,由于用户群体增长速度有限,目前推理部分的增量相对放缓。因此,公司仍然持续投入大量资源进行模型训练,以确保未来能够满足不断增长的AI应用需求。 如何平衡当前大量购买计算卡与未来商业化之间的关系? 在全球范围内,没有哪家公司能够明确地通过简单的财务核算来证明其在计算卡上的投资是完全持平或盈利的。以字节跳动为例,尽管公司每年投入300亿至400亿元用于购买计算卡,这些硬件成本在五年内摊销,每年约50亿至60亿元。然而,通过这些硬件带来的增收,尤其是超过几百亿元的利润,公司可以认为这种投资是合理且可行的。从会计角度来看,这种分摊方式虽然有一定取巧成分,但在整体业务层面上,字节跳动作为一家商业公司,其主要目标是维持商业成功和用户粘性,而非追求改变世界的技术愿景。因此,只要模型研发不影响主营业务,公司认为这种投入是值得的。 字节跳动如何看待对模型研发的大量投入? 字节跳动并不缺乏资金支持,因此拿出1/10用于战略性产品研发是可以承受的。即便短期内无法上市,也不会对股价产生重大影响。相反,如果不进行这类投资,可能会对公司的长期发展造成更大麻烦。目前,高层对于模型研发投入并没有减弱,仍然保持积极态度,因这对于公司的未来发展具有重要意义。 具体而言,在推理决策方面如何实现“不亏”? 从300B降至80B左右,大幅降低了算力开销。同时,由于芯片价格趋于稳定且采购价格较低,使得整体成本进一步下降。在推理成本降低的情况下,如何实现盈利? 尽管推理成本有所降低,但要实现盈利仍需综合考虑多方面因素。目前,公司在单次推理中产生的tokens费用和消耗的算力资源上,能够达到8%至10%的毛利。然而,这只是理论上的计算,实际评估时仍存在亏损风险。为了更好地实现盈利,需要优化各个环节的成本控制和资源利用。 目前Tokens费用主要用于哪些领域? 首先说to B场景下也就是一些外场的业务。目前主要将tokens费用用于以下几个领域:首先是情感陪伴和闲聊对话,例如虚拟人或虚拟角色陪用户聊天;其次是文案编辑,包括内部整理的大型表单M0、M1场景,如互动娱乐、学习教育等。具体来说,互动娱乐包括角色扮演、交互式小说和文字冒险游戏;学习教育涵盖数学解题、知识库、阅读理解、作业批改等。此外,还有AI工具应用于日常创作、营销文案生成、联网搜索及办公文案,以及行业报告抽取、内容审核、口播文案总结等孤立场景。 内部使用的大模型应用有哪些具体场景? 在内部,公司广泛使用大模型进行内容审核、质检和智能客服。例如,在抖音平台上,大量评论内容由机器生成,而非人工编写。此外,抖音健康、小荷健康等项目中,也有在线知识库和数字医生分诊导诊等应用。电商领域则重点发展货架电商,通过大量客服场景对接来提升服务效率。 大模型在抖音中的具体应用有哪些?为何用户难以察觉其存在? 大模型在抖音中的应用可分为两类:一类是用户可以直观感知到的,如基于模型生成的问答内容;另一类则是非直观感知到的,如客服对话及内容质检。例如,从2024年起,抖音主站所有客服场景将切换为由大模型驱动,大量交互内容也是通过大模型改造而成,使得回复效率更高、更精准。这些改进虽然提升了客户服务质量,但用户难以直接察觉。此外,评论区生成的内容以及视频文案审查也都依赖于大模型。这些后台操作使得用户体验更加智能化、高效化,但并不明显展示给用户。 抖音平台在视觉存在哪些挑战? 目前公司的大模型能力主要集中在文本、图形及语音处理上,而视觉方面相对较弱。尽管文生视频稍有进展,但整体效果仍不够理。在短视频领域,即便上线了微商视频,其经济效益也有限。视觉理解方面稍好一些。因此,公司正在加紧囤积算力并采购国产卡,以满足日益增长的推理需求,并进一步提升视觉理解能力。 字节跳动在推理业务方面有哪些对外开放的服务? 字节跳动的推理业务对外开放主要体现在火山引擎平台上。通过该平台,公司向外部客户提供模型调用服务,例如荣耀、三星、WPS、金蝶、海尔和海信等企业都在使用。这类似于微软的GPT接口销售模式。虽然用户只能看到模型,但实际调用过程中也会消耗公司的算力资源。不过,收费的是模型费用,而非算力费用,这其中包含了研发成本和算力成本。 字节跳动目前文本模型的日均处理量是多少?未来目标是什么? 目前,字节跳动文本模型的日均处理量大约为6,700亿字符,其中对外部分(to B)约为1,700亿到2000亿字符。公司计划到年底将这一数字提升至4,000亿tokens。内部没有具体计划要求,只需正常调度即可,而对外则有明确的商业化目标。 字节跳动如何定价? 每1亿次tokens调用收费大约在80至200元之间,平均价格可以取120元。只要日调用量提升上去,预期收入将非常可观,这体现了规模效应带来的盈利能力。 内部使用这些推理服务后,对效率提升有何具体影响? 内部使用推理服务主要是为了提高效率,而非直接降本。例如,在广告素材流转、搜索精确度以及用户满意度等方面都有显著提升。此外,还减少了售后故障率和退款率,从而对 整体业务产生正向影响。 智能客服系统改进后的效果如何? 以抖音智能客服为例,通过基于模型重构后的智能客服系统,去年累计接待了6.4亿人次咨询。目前问题识别率达到88%,转人工率控制在15%,用户满意度达70%。相比之前60%的识别率和高达80%的转人工率,以及20%-30%的用户满意度,有了显著改善。而在自动回答轮次方面,到第二轮次率超过了30%。全场景基本都通过这种对话解决问题。质检系统方面,通过AI质检技术,可以回溯用户反馈的客服服务内容,检查线上状态是否回答了用户的问题,以及用户的满意度。之前,质检召回或通过率仅有40%至50%,因为都是线上抽检,很多不合规动作无法识别。然而,通过自然语言理解能力和方法的提升,现在AI质检的准确率已达到85%至90%。这些数据表明智能客服系统极大地提高了客户服务质量和效率。 豆包等产品未来如何实现商业化?国内模型应用商业化面临哪些挑战? 豆包等产品未来可能通过多种方式实现商业化。首先,可以通过软文、搜索排序和推荐类内容进行变现;其次,通过企业官方账户入驻收取品牌合作费用;第三,通过硬件与软件结合,如智能眼镜、耳机等硬件产品,实现收入多元化。然而,目前国内愿意为模型付费的用户较少,多数公司仍处于培养用户阶段。且目前来看,其实豆包没有营收计划,且后续通过会员模式盈利可能也比较难。现在大部分公司都采取相似的模式,先做规模,后续再看收入。 字节跳动为何持续购买大量计算卡片?其背后的战略考量是什么? 字节跳动持续购买大量计算卡片主要是为了避免在技术浪潮中掉队,并保持竞争力。这一策略虽然没有明确的短期商业化目标,但对于字节跳动主营业务确实有实际帮助。例如,通过AI数据形成,对广告业务产生积极影响。此外,这些投入也有助于优化底层模型,提高整体业务效率。尽管训练成本高昂,但推理阶段成本相对可控,因此这一投资仍被认为是值得的。 AI技术在广告和内容生成方面有哪些具体应用?其效果如何? Al技术在广告和内容生成方面具有显著应用。例如,在广告素材生成、推流、内容混剪等领域,都能提高效率并优化效果。字节跳动旗下的平台“极创”已经将文生图、数字人等元素引入直播间,对巨量引擎和抖音业务带来很大帮助。这些平台通过模型数据解决和优化底层模型,大幅减少了人工干预,提高了整体运营效率Meta公司在AI领域的投入及其对业务赋能效果如何? Meta在AI领域投入巨大,并声称这些投入对其广告业务有显著赋能作用,例如数据形成推动广告投放精准度提升。然而,从实际收益来看,这些影响相对较小,Meta更多是为了向股东和投资者展示其技术前膽性。因此,Meta虽然声称AI投入带来了正向效应,但实际效果可能并没有宣传中那么显著。这种情况也反映出大型科技公司在面对高额研发成本时,需要找到合理解释以维持市场信心。 在广告素材生成方面,AI技术的应用效果如何? 抖音等短视频平台未来的发展方向是什么?AI技术将如何影响其交互模式? 未来抖音等短视频平台的交互模式可能会发生重大变化。目前用户主要通过拍摄和上传视频进行互动,但随着视觉理解模型的发展,将出现新的交互方式。例如,用户可以与应用 本身对话,通过自然语言描述获取推荐内容。这种基于视觉理解和情绪识别的互动方式,将使推荐更加精准。此外,这种技术还可应用于电商平台,通过与用户对话了解其需求,从而提供定向推荐。 视频理解和文生视频在短视频领域的发展前景如何? 视频理解在短视频领域具有广阔前景。通过基于视频流抽帧进行数据理解,与应用本身进行对话,或者是通过交流得到用户的真实需求,可以实现更精准的视频推荐。而文生视频则可以通过AI生成特定场景的视频内容,提高创作效率。然而,在短视频领域,人们关注的是创作者本身及其形象,因此完全虚拟化的视频可能不会受到欢迎。文生视频更适合用于影视工业化制作,实现普通人的“导演梦想”或规避版权风险、进行二次开发或剪辑等场景。 文生视频商业化面临哪些挑战?如何解决这些问题? 文生视频目前面临最大的问题是商业模式不清晰。尽管通过增强的视频理解能力可以提高用户体验,但如何从中获利仍是一个难题。但从另外一个角度看,增加用户使用时长、使用户愿意在电商平台上下单,本身就是维持、扩大用户基本盘的方法,这样能够带动整体收入增长,所以目前来看这样的方式仍有意义。 当前国内AI发展的总体情况如何?字节跳动在其中处于什么位置? 目前国内AI发展总体上处于快速推进阶段。在模型研发方面,无论是文本、图形、语音还是视觉领域,都取得了显著进展。字节跳动在这几块都走得相对靠前,尤其是在文本处理上,虽然目前不清楚GPT-5能有多少提升,但计划年内全面超越GPT-4。然而,在语音和图像处理方面虽表现不错,但仍需进一步提升。在商业化方面,字节跳动相对较为激进,各类功能验证和商业化测试均走在行业前列。 当前AI技术是否已经达到一个较为成熟的阶段?商业化情况如何? 目前AI技术尚未完全成熟。首先,模型能力仍需提升。当前的模型能力不足以支撑某些高端应用,这需要进一步研发和优化。其次,算力供应也是一个关键问题,这需