您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:AIGC教育行业全景报告_ - 发现报告

AIGC教育行业全景报告_

AI智能总结
查看更多
AIGC教育行业全景报告_

分析师:丁乔dingqiao@qbitai.com量子位智库QbitAIInsights 2023年,是生成式AI能力涌现的一年,通用大模型是其中的主旋律。经过一年的发展,通用大模型格局已初步形成,生成式AI也从能力展示走向应用落地。 序言 进入2024年,对生成式AI的讨论和实践也都转向如何赋能产业。相比于通用大模型,进入产业内的大模型需要的是对行业的Know-How,以及强大的工程能力,落点在于大模型对于行业所产生的实际价值。 在众多可被生成式AI赋能的行业中,量子位智库认为教育行业因其内在需求与大模型所擅长的能力高度适配,成为模型层公司、教育科技公司、智能硬件公司等一众玩家的AIGC落地方向。 诚然,教育是一个严肃领域,并且对学生的价值观形成起到引导作用。因此,对于AI生成内容的准确性、安全性等有非常严格的标准,这也为AIGC落地在教育行业增加了工程上的难度。 尽管生成式AI落地教育面临严格的审核,但正如我们看到的——在海外,亚利桑那州立大学宣布与OpenAI达成技术合作,从2024年2月份开始,为所有学生提供ChatGPT企业版访问权限;在国内,网易有道、学而思、华东师范大学等企业及高校纷纷推出教育大模型。不论在学术界还是企业界,都对生成式AI与教育的结合充满信心。 在《AIGC教育行业全景报告中》,量子位智库从AIGC落地教育的现状、AIGC引发教育的变革以及AIGC教育未来趋势三方面入手,描绘AIGC教育行业全景。 我们期待,能够与众多投入、关注AIGC教育的伙伴一起,共同见证并打造AIGC教育的蓬勃未来。 AIGC落地教育,完成初步市场验证01 02AIGC变革「教」与「学」 04AIGC教育「四大」趋势 AIGC教育代表案例05 生成式AI快速落地教育,技术推动教育理念实施 生成式AI将我们带入AI2.0时代,通过海量数据的学习,AI开始出现涌现能力,所生成的答案以一种更符合人类沟通的方式呈现,并且能够一定程度上激发人的思辨意识。教育科技领域,最直观的变化在于产品「AGI」化。从学习机到APP、到智慧教学,教育科技领域都一定程度上接入GPT类产品。教育科技领域全面拥抱生成式AI,一定程度上实现了营收的反弹。今年5-6月期间,搭载讯飞星火认知大模型的AI学习机,GMV分别同比增长136%和217%,AI学习机也成为今年双十一期间,京东和天猫双平台销售额冠军。 除了助推教育硬件销量激增,生成式AI更重要的能力在于使教育界不变的理念——「因材施教」,有了规模落地的可能。AI智能体与教育的结合,也将推动教育普惠的实现。 教育大模型成为产业基座,「AI原生」思想渗入产业各环节 产业图谱 生成式AI从LLM到AI智能体的演进,离不开产业链各环节的变革。个人专属AI智能体要求底层基础设施做出改变,从云端AI到云边端混合,再到最终在终端AI即可实现人机交互。训练数据直接影响了模型的质量以及应用层产品的性能。因此,实现最终AIGC教育应用层的颠覆,需要整个产业链的配合打通。 应用现状:面向K-12群体的AI学习机全面推向市场 产品侧 产品描述 国内做AIGC教育,大企业多数选择在学习机搭载大模型,通过为用户提供增量价值来提高产品销量。 学习机赛道目前竞争激烈,生成式AI的出现,有望为学习机构建新的竞争壁垒。 用户侧 受众需求 学习机受众为K-12人群。此类人群的付费意愿来自家长。在小学阶段,家长重视孩子的兴趣养成;而在中学阶段,家长看重产品是否能够提高孩子学习成绩。 应用现状:语言类学习APP产品体验升级,市场反馈优于预期 产品侧 产品描述 从软件切入AIGC教育赛道的企业,通过接入通用大模型,加以自身积累的教育数据进行微调训练,以APP类产品为主。此类产品因其对话体验升级,目前是大模型应用于教育的产品中市场反馈最积极的品类。 据悉,网易有道Hi Echo上线后用户数已接近百万。 用户侧 受众需求 目前主要以大学生和上班族为主。这类人群中,大学生还会有提高成绩的需求,而上班族并没有成绩提升的需求,学习语言更多是出于工作需求或兴趣。对于这两类人群来讲,用户留存率是关键。基于此,在产品设计上会更注重用户体验以及营销策略。 用户体验上,网易有道最新发布的创新应用中,Hi Echo的虚拟人老师增加到三位。 营销策略上,多邻国的社交优先策略,将营销ROI做到极致。 02 AIGC变革「教」与「学」 生成式AI成为教育变革新动力,落地指向AI智能体 教育与技术的结合由来已久。随着上世纪90年代互联网的兴起,开启了在线教育时代。进入21世纪,通过智能系统的引入,自适应学习成为海外教育的热点。2010年以后,随着人工智能技术的发展,知识图谱等技术又被用在教育领域。 每一个阶段,教育都会与当下的技术相结合,解决教育中面临的问题。在生成式AI时代,技术与教育融合,对教育的两个核心角色教师与学生产生了颠覆式的效果。AI以一种新的形式——Agent,融入到教师和学生的日常中,在提供教、学帮助的基础上,改变二者的学习和工作状态。AI与教育的结合,也让科技类企业在教育市场中的比重越来越大,生成式AI能力成为新的竞争点。 技术、产品及市场三大变化 市场 •科技企业市场份额不断扩大•中高端产品市场份额攀升 产品 •从注重硬件配置到AI驱动,打造差异化产品•AI智能体是主流产品形态 技术 •教育大模型助力两大教育人群:学生和教师 AI智能体助力「个性化学习」普惠,每个学生都有自己专属的AI家教 AI智能体为学生提供个性化教学:主要体现在课后阶段,能够有效实现一对一学习辅导。 生成式AI时代,对于教育者来说最大的机会是自适应教育的普惠。在生成式AI之前,教育领域采用个性化学习是一件成本极高的事情,对于学校和家庭都提出了很高的要求,需要先进的硬件设备、更多的师资力量以及教学场地。在生成式AI出现后,AI智能体发展触手可及,AI智能体可以作为每个学生的私人助教,随时随地陪伴学生学习。 AI智能体化身教师助手,帮助教师完成能力进阶 •在工具使用上,AI智能体降低了教师的学习成本,为其提供几乎零门槛的使用方式。在工作环节,AI智能体帮助老师更高效地生成课件、提供教学设计思路等。 •AI智能体一定程度上释放教师生产力,教师的更多精力能够用于提升学生素养上,教师的职责从授业解惑逐渐向育人转变,焦点从关注学生成绩扩大到关注学生的心理状态。 教师工作权重向育人倾斜 LLM协助教师专业能力提升 AI智能体将教师从繁杂重复的任务中解放 从统一管理到个体关注 帮助教师生成授课教案、随堂练习等。 深化自身知识体系 备课 大语言模型语料库中有大量的信息和知识能够为教师提供丰富的资源。 此外,大语言模型能够帮助教师分析、整合教学中遇到的问题,并且给予改进建议。 AI智能体帮助教师分析学生的状态,并生成个性化指导建议。教师因此能够感知到每位学生的学习情况,针对不同学生予以不同反馈。 帮助教师进行课程规划,提供个性化教学方案。 教学 从关注成绩到关注学生心理健康 帮助教师开展跨学科教学 对学生作业和状态进行评估,并生成学情报告。 AI智能体与学生对话,判断学生的心理状态,并对存在心理问题的学生进行预警,同时将预警信息发送教师。教师能够第一时间提供个性化疏导。 评价 生成式AI协助教师进行跨学科、多元教学方案设计。 AI智能体率先落地教育软件领域,口语对话已接近真实场景 目前,口语教学是生成式AI最好的用例之一。口语对练既能避免LLM为学习带来的弊端,如照搬答案、弱化思考力等,还能够以更便捷、成本更低的方式提升语言技能。此外,启发式的提问互动能够激发学习者的批判性思维,摆脱了以前死板的口语练习,对话过程更加符合真实的交流场景。 虚拟人教师结合LLM,颠覆了口语对练的传统形式。从用户使用情况来看,国内,头部口语对练APP的用户量均在百万左右。国外已经出现了多邻国这样的现象级应用,目前,多邻国在全球的用户数量已超过5亿,月活跃用户超过4000万。 自建大模型成为教育硬件企业标配,学习机是AI智能体的硬件载体 国内AIGC教育市场中,自建大模型已经成为行业玩家的必备能力。大模型与学习机的融合,使后者成为AI智能体在教育领域落地的首个硬件载体。学习机已经有二十年的发展历史,当前已进入AI赋能时代,以学习平板为终端设备,内置多元丰富的学习工具。生成式AI爆发后,学习机厂商开始将LLM作为新功能接入学习机当中,人机互动有了实质提升。生成式AI技术不但能够将对话模式转变为「 苏格拉底」式的开放问答,还能够根据学生的回答进一步提问,有效激发学生的思辨能力。AI能力的注入,也成为学习机销量增长的新引擎。从销量数据看,结合了大模型的学习机,其产品竞争力在不断突显。根据洛图科技线上监测数据显示,2023年第三季度,小度和科大讯飞是销量最高的两个品牌。 挑战一:高质量数据缺乏导致模型泛化性不足 教育类大模型在落地过程中主要面临三类挑战:1)数据质量;2)幻觉问题;3)价值观对齐。低质量文本数据,包括过多的重复内容、低质量文章等,不仅影响模型训练效果,还造成一定算力浪费。教育数据,特别是教学行为数据获取受限、高质量教育标注数据缺乏导致可训练教育人工智能模型有限。因此,数据质量成为教育大模型发展的关键。 大规模教育数据采集 特征工程 包括学生数据、在线学习平台数据、学术数据库等。 包括特征选择、降维、文本向量化等。 •向量数据库 •挑战 向量数据库通过将非结构化的数据转化为向量表示,再与大模型进行交互,能够提高模型的准确度和效率,实现专有、私域行业应用。 模型泛化性不够 教育数据,特别是教学行为数据获取受限、高质量教育标注数据缺乏导致可训练教育人工智能模型有限。 面向不同学段、不同学科、不同环节的教育应用需要训练不同的人工智能模型,导致现有的教育应用仅适用于窄领域、单学科、局部学段。 •挑战 数据预处理 国内的向量数据库生态系统相对薄弱,对于中小企业来说开发门槛高。 包括数据清洗、降噪、去重和标准化等。 挑战二:教育大模型的规模化应用需要解决幻觉问题 教育领域的大模型,最关键的是确保模型回答的准确性以及价值导向。准确性体现在数理问题上,目前教育大模型在数学问题上的准确性偏低,尚无法达到可大规模应用的水平。在一些高阶数学问题的回答上,准确率普遍在50%以下。在教育领域,可以通过基于搜索增强生成(RAG)的问答推理和基于提示词工程的问答推理来解决幻觉问题。 基于提示词工程的问答推理 基于搜索增强生成(RAG)的问答推理 GPT-4在回答大学教科书问题时的表现 这种方法将LLM与经过严格验证的外部知识语料库(如教科书或科研论文)整合在一起,提高问答系统的可解释性与可信度。 对于简单的问题,LLM借助RAG技术,能够通过向量检索查询获得相应信息,从而生成准确答案。然而对于复杂问题,检索的弊端也会显现出来。因此,需要运用提示词工程进一步发挥LLM的语义理解能力。 RAG本质上为LLM提供了一个安全网,确保它的输出不仅依赖于它的训练,而且还依赖于更新、更相关的其他数据。 为了发挥RAG技术的最大效用,选择合适的文本嵌入模型与快速准确的语义检索方法非常重要。 目前常见的提示工程技术主要可分为任务规划型(如思维链)和反思评估型两类。 •文本嵌入技术•语义检索 近似最近邻搜索成为目前向量数据库所使用的主流检索方法。 挑战三:价值观对齐是教育大模型落地的必经之路 对于价值导向,主要是指在大模型的回答上,是否出现偏激、不符合事实的言辞,甚至出现一些错误引导。在价值对齐上,常用的方式是RLHF(人类反馈强化学习),将在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。 此外,由于目标人群为学生,在教育大模型的审核上会更加严格。针对AI生成的内容还会采用人工审核的方式,进一步过滤低质量内容,确保生成内容不存在错