您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:AI应用自留地:行业Know-how和本地数据 - 发现报告

AI应用自留地:行业Know-how和本地数据

AI应用自留地:行业Know-how和本地数据

投资建议:我们认为,在AI向B端渗透的浪潮下,私有信息是实现企业级Agent的基础,强调垂直领域Know-how和私有数据,看好具备私有信息整合能力的技术服务商扩圈。推荐标的:赛意信息、鼎捷数智、宇信科技、京北方、新点软件、用友网络、亚信安全,受益标的:泛微网络、致远互联、彩讯股份。 AI时代正在重构应用壁垒,从互联网时代的公开信息竞争转向AI时代的私有信息利用与部署。互联网应用作为信息共享平台,通过形式不同的公开信息为用户提供独特的使用体验,信息的公开性持续吸引用户并培养使用粘性,由此成为互联网应用的壁垒。但传统互联网应用的壁垒被DeepSeek等一流开源大模型彻底打破,互联网应用的公开信息被AI大模型吞噬。互联网时代所积累下来的用户思想沉淀和使用数据都可以直接为大模型所用。从而使得互联网时代各种平台之间依靠不同公开信息生产与积累所建立起来的界限被突破,最终都被整合在AI大模型这一基础座驾之上。AI应用的壁垒转变为信息的私有化,垂直领域的行业Know-how和私有数据是AI应用的两大核心竞争力。 以私有信息为基础的企业级Agent是B端企业应用的终极形态。传统互联网B端应用功能界限明确、协同效率不足,以SaaS为代表的B端企业协同办公平台由众多满足不同功能的细分应用组成,不用应用之间的界限明确,这显然不利于企业内的信息管理、资源共享及效率提升。后续B端应用将深度融合于普适性的AI大模型座驾之上,并将结合企业具体需求更加个性化,发展为智能的企业级AI Agent,这将是B端企业应用的终极形态。而充分利用包括垂直领域Know-how和私有数据两者的私有信息则日益成为部署企业级Agent的关键环节,以垂直领域Know-how定制AI工作流和搭建私有知识库是当前实现企业级Agent的两大基础。 私有信息是AI在B端企业应用的核心竞争力,看好国内AI私有信息服务企业。私有信息服务包括两方面,其一,为企业提供在垂直领域Know-how基础上搭建出的私有应用或帮助企业梳理自身业务流程,搭建定制化AI工作流。其二,通过专业服务帮助企业整合、清洗和标注其分散杂乱的私有数据,构建高质量的知识库资产。 风险提示:技术研发进展不及预期、资本投入不及预期、市场竞争加剧的风险。 1.从互联网到AI,应用的壁垒由信息的公开性转变为私有性 1.1.互联网应用的壁垒是信息的公开性 互联网时代最显著的特征是信息的公开性。纵观互联网发展的各个阶段,信息的公开性始终是其演进的核心动力,公开程度也随着技术的进步而逐渐加深。从20世纪60年代ARPANET的萌芽阶段,互联网以实现科研信息共享为目标,奠定了信息自由流动的技术基础;到90年代万维网的诞生,信息的公开性从学术界扩展至大众,门户网站和搜索引擎使信息获取更加便捷;再到2000年代Web 2.0时代的到来,用户生成内容(UGC)的崛起使得信息的多样性和实时性显著提升,社交媒体和视频平台成为信息共享的重要载体;直至2010年代移动互联网的普及,智能手机和移动应用使信息的传播更加即时和普惠。互联网打破了信息传播的时空限制,使得信息能够以极低的成本和极高的效率在全球范围内自由流动,用户可以通过互联网轻松获取来自全球的多样化信息。这不仅推动了技术的进步和商业模式的创新,也深刻改变了社会的信息传播方式和用户行为,成为互联网生态不可或缺的基石。 互联网应用作为信息共享平台,通过形式不同的公开信息为用户提供独特的使用体验。互联网应用的核心功能是收集、整合和分发公开信息,以满足用户在不同场景下的需求。在PC互联网时代,搜索引擎作为核心应用为用户提供了底层运行环境,以此进入各类Web应用和垂直网站获取信息。而在移动互联网时代,不仅各种各样的信息共享平台遍地开花,而且微信、淘宝、抖音等超级应用平台在满足用户社交、购物、娱乐等底层信息获取需求的基础上发展成为了更为丰富的应用生态系统。除此之外,互联网应用提供如图文、视频、音频、直播等多样化的信息形式,以此发展出了不同应用平台独特的表达方式,在为用户提供独特使用体验的基础上增强用户吸引力。 例如,图文形式(如新闻网站、博客)适合深度阅读和知识传递;视频形式(如YouTube、B站)通过视觉和听觉的结合,提供了更直观和沉浸式的体验;音频形式(如播客、音乐平台)则满足了用户在碎片化时间中的信息获取需求;直播形式(如抖音直播、Twitch)通过实时互动增强了用户的参与感和粘性。不同形式的信息不仅丰富了互联网应用的内容生态,还为用户提供了多样化的选择,使其能够根据个人偏好和使用场景获得最佳体验。 表1:国内代表性互联网应用功能多样、信息形式丰富 公开信息平台积累了用户大量的思想沉淀和使用数据。互联网应用的公开性不仅促进了信息的流动,还为用户提供了一个表达和沉淀思想的平台。用户在社交媒体、论坛、博客等平台上分享观点、经验和知识,形成了海量的思想沉淀,这无疑是互联网应用极具价值的无形资产。各大应用也根据平台特征制定策略激励用户创作。除此之外,在使用互联网应用的过程中,用户如浏览记录、点击偏好、互动行为、需求特征等行为数据也被记录下来。互联网应用通过分析、挖掘和应用这些数据,构建出详细的用户画像、为用户提供个性化的服务,以此创造商业价值。 图1:各大应用平台制定内容生态发展策略激励用户内容创作 信息的公开性持续吸引用户并培养使用粘性,由此成为互联网应用的壁垒。 在互联网渗透率触顶且用户一天内总时长固定的前提下,不同互联网应用竞争力的的根本差异在于能否吸引用户长时间地使用。信息的公开性不仅让用户可以在平台上能够获取有价值的内容、参与互动并建立社交关系,而且显著增强了用户的使用粘性,形成用户增长的良性循环,从而在不断改善用户使用体验的同时使得用户对平台产生信任感和依赖感。在此基础上,互联网应用能够形成强大的网络效应,扩大其在用户中的影响力,从而进一步巩固其市场地位。因此,信息的公开性不仅是互联网应用的基础特征,更是其壁垒的核心来源。 图3:互联网应用以公开信息吸引用户,平均月活持续增长 图2:互联网应用用户增长形成了良性循环 1.2.互联网应用的壁垒被DeepSeek等一流开源AI大模型打破 互联网应用的公开信息被AI大模型吞噬。从大模型的产生来看,为使其获得广泛的知识和灵活的逻辑推理能力,在训练过程中需要投入海量跨应用的数据。训练量随着大模型的更新一次又一次地突破记录,例如训练样本token量从GPT-3的3000亿极速增长至GPT-4的130000万亿。可想而知,只要信息是可以公开获取的,互联网时代所积累下来的用户思想沉淀和使用数据都可以直接为大模型所用。从而使得互联网时代各种平台之间依靠不同公开信息生产与积累所建立起来的界限被突破,最终都被整合在AI大模型这一基础座驾之上。 图4:AI大模型训练样本token数持续增长,吞噬公开信息 不同应用之间独特的用户体验被AI大模型抹平。在互联网时代,用户通过“提出需求-根据需求在相应的应用上检索-解决需求”的方式行动,在这个过程中不同的应用平台建立了不同的交互方式,使得用户获得了独特的使用体验。而在AI时代,公开信息都被AI大模型所吞噬,用户可以直接面对Agent通过最简单的“提出需求-解决需求”的方式行动。因此,互联网应用由不同形式的公开信息所带来的独特用户体验也同样被AI大模型所抹平。 图5:AI大模型的出现改变了用户的交互方式 DeepSeek-R1等模型以开源、高性价比的优势彻底打破互联网应用的壁垒。 尽管AI大模型拥有足以吞噬互联网应用的能力,但以ChatGPT为代表的高性能模型却是闭源的,这无疑制约了AI的广泛使用。直至DeepSeek-R1模型横空出世,彻底打破了互联网应用的壁垒。DeepSeek-R1采用标准化的MIT License,完全开源,不限制商用,这意味着任何企业或个人都可以部署该模型。除此之外,DeepSeek-R1在数学、编程、推理能力方面接近OpenAI的o1模型,但通过优化的算法和架构设计,大幅降低了训练和推理的成本。 并且可以将参数量达672B的原始版本通过蒸馏将推理能力进一步迁移至1.5B、7B、8B、14B、32B、70B等更小参数的模型,以降低实际应用场景中对算力的需求。DeepSeek-R1开源和高性价比的属性不仅降低了技术的应用门槛,还提供了高度的灵活性和可定制性,加速了AI应用的落地与普及。 图6:DeepSeek的性能接近OpenAI的o1模型,但成图7:DeepSeek-R1通过蒸馏迁移至更小的模型上,加本极低速AI应用落地 1.3.AI应用的壁垒转变为信息的私有性 AI应用的壁垒是信息的私有化。在公开信息的价值正在被AI大模型的通用能力所不断稀释的情况下,私有信息则因其独特性、稀缺性和难以复制性,在当前阶段无法直接成为通用大模型训练的原料,而成为AI应用构建竞争优势的关键。在将来,私有信息不仅是AI模型训练和优化的核心资源,更是企业在AI时代构建护城河、实现差异化竞争的重要基础。具体而言,信息的私有化壁垒主要体现在垂直领域的行业Know-how和私有数据两个方面。 图8:AI应用吞噬公开信息后壁垒转变为私有信息 垂直领域的行业Know-how是AI应用的核心竞争力之一。与互联网平台上的公开数据不同,垂直领域行业Know-how依赖于在行业中长期积累的经验、案例和规则,能够深度理解特定行业的专业知识、业务流程和决策逻辑。垂直领域行业Know-how往往无法通过公开数据获取,也就避免了大模型对其的吞噬。正是因此,在互联网时代基于行业Know-how构建的应用凭借其对专业知识和行业场景的深刻理解,将在AI时代形成难以替代的壁垒。这些垂直领域的应用不仅不会被AI大模型所取代,反而会利用AI大模型增强自身,进一步发挥其独一无二的功能,在特定场景中持续创造价值。 私有数据是AI应用的另一大核心竞争力。在AI应用的实际使用中,仅有普遍智能是远远不够的。通过输入专业知识库增强大模型的专业能力甚至投喂私有数据对通用大模型的进一步训练,最终将其变成通用智能基础之上具有不同专业背景的“专家”,才能更好地胜任具体任务。但是与公开数据不同,私有数据通常由企业或机构独家拥有,具有高度的独特性和稀缺性。 这些数据包括用户的个人行为数据、企业的运营数据、机构的内部文档等,往往包含了更深层次的洞察和价值。例如,在医疗领域,AI模型需要掌握大量的医学文献、临床数据和诊疗经验,但这些数据通常由医疗机构、研究机构或行业专家独家掌握;在制造业领域,AI模型需要熟悉生产流程、设备参数和供应链管理,但这些数据通常嵌入在企业的内部文档和专家经验中。所以对于我们已经到来的AI时代来说,尽管利用公开数据训练出智能高效的通用模型非常重要,但这些公开模型层无法获取到的私有训练数据是商业化过程中的核心竞争力,在未来也必将围绕私有数据诞生AI时代独特的商业模式。 2.以私有信息为基础的企业级Agent是B端企业应用的终极形态 2.1.AI时代B端企业应用将发展为企业级Agent 传统互联网B端应用功能界限明确、协同效率不足。互联网时代以SaaS(软件即服务)为代表的B端企业协同办公平台由众多满足不同功能的细分应用组成,尽管这些平台几乎可以满足所有行业的基本需求,并通过云端部署和订阅模式,为企业提供了低成本、快速上线的标准化服务,然而在具体场景中各细分应用却依据不同部门或业务分别组建为相对独立的工作流,而并未真正打通不同应用之间的内在联系。例如,业务应用模块的CRM(客户关系管理)通过深入的客户分析以更好地满足客户需求、HRM(人力资源管理)通过组织协调管理企业内的人力资源,而基础办公模块中的工作群聊、在线文档等也只针对特定的需求。不用应用之间的界限明确,这显然不利于企业内的信息管理、资源共享及效率提升。 图9:SaaS平台内各个细分应用界限分明,难以进行有效的资源共享 传统B端应用将深度融合于普适性的AI大模型座驾之上。在B端,大模型凭借其强大的信息处理能力和灵活的交互方式发