您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京大学]:AI训练赋能劳动者职业发展 - 发现报告

AI训练赋能劳动者职业发展

文化传媒2025-09-04北京大学阿***
AI智能总结
查看更多
AI训练赋能劳动者职业发展

“时雨润无声”:AI训练赋能劳动者职业发展 北京大学数字金融研究中心课题组 课题组成员① 黄益平、王靖一、费越、李振华、王芳、李勇国 技术支持团队 张韶容、钟亮华、樊雪娟、阎峰、耿东东、陈凯勋、叶政君、邵黎明 2025年9月 目录 一、内容提要......................................................................................................1二、研究背景......................................................2三、研究方法......................................................5四、主要研究发现..................................................5(一)AI训练的整体影响..........................................51.对收入的影响...............................................62.对客户满意度的影响.........................................73.对服务标准程度的影响.......................................8(二)分人群的AI训练影响.......................................91.不同性别的AI训练影响差异.................................102.不同年龄段的AI训练影响差异...............................113.不同所在区域的AI训练影响差异.............................13(三)AI训练作用机制的初步分析.................................141.AI身份与性格设计的影响...................................152.AI情绪设定的影响.........................................17五、总结与讨论...................................................18 参考文献:.......................................................20 一、内容提要 近年来,随着以大语言模型为代表的生成式人工智能飞速发展,关于人工智能对于就业的影响成为国内外研究关注的焦点。部分研究通过招聘文本描述的分析判断岗位所受冲击的程度;另外一些研究则利用随机试验,分析在工作过程中使用AI工具对于工作表现的影响。而本研究则试图更进一步地挖掘基于人工智能的培训对于劳动者能力的影响:AI不是作为工具出现在工作过程中,而是出现在训练环节增强劳动者的工作能力,这使得我们可以尝试探索人工智能如何促进劳动者技能升级,以智能手段,应对技术带来的就业冲击。 2024年3月,蚂蚁集团数字蚂力上线了基于大语言模型构建的陪练智能体,这一智能体可以在训练环节中模拟真实客户行为与客服人员交互,提升客服能力。7-10月间,业务团队进行了随机试验:部分新入职客服使用陪练智能体训练(下简称AI训练),部分则保持传统方式,基于此研究团队分析了AI训练对于劳动者后续工作表现的影响,并对其作用机制进行了初步分析。在我们的认知范围内,这应是首个关于AI在训练中如何影响劳动者能力的实证研究。 研究结果显示:AI训练对于劳动者收入、客户反馈、服务标准性上均有显著正面效果,并呈现出人群特征、地理分布上的普惠性,同时初步的分析也展示出AI训练一项核心优势:更加精巧、贴近现实情况的设计,可以带来更为显著的训练增益。相较于传统训练方式,AI训练对于新入职客服,在薪资提升、客户满意度、服务标准性等方面均有显著的积极影响。具体而言,AI训练使得新入职的客服在开始工作的前六个月,单次服务平均薪酬上升了14.02%、日均获得客户差评数下降了29.46%,日均人工质检不合格数量下降了29.70%。 AI训练同时展示出了普惠性质。得益于智能体交互的真实性,AI训练对不同性别、年龄段、所处城市线级及城乡区分的人群均带来了显著的正面效果,且组间差距很小。同时,女性在收入、男性在减少差评率、45岁以上人群在提升服务标准性上,均获得了强于整体平均的更大改善,展现了AI训练的普惠性 质。这也是本轮人工智能浪潮显著特征之一:大语言模型、智能体降低了使用相关技术的门槛,为相对弱势群体提供了改善通道。 AI训练的核心能力之一,在于陪练智能体可以为所扮演的客户赋予不同的身份、性格与多样化多阶段的情绪,使得客服在训练场景中积累更多经验,应对工作场景中的多样化问题。研究发现,当智能体具备非一般的身份、性格,具备负面、对抗性与不少于三阶段情绪时,AI训练的增益被进一步放大,特别是当AI扮演暴躁、愤怒等对抗性情绪的客户时,效果尤佳:这部分经历对抗性情绪的客服,在上岗后五个月的差评数量减少79.79%,质检不合格数量下降49.40%。 为在深入实施“人工智能+”行动中坚持以人民为中心的发展思想,充分发挥我国数据资源丰富、产业体系完备、应用场景广阔等优势,我们建议:(1)应当在确保用户隐私、数据安全前提下,充分发挥既有产业优势与数据沉淀,利用AI提升产品、服务的效率与质量,提升社会整体福利水平。(2)应当直面AI发展对劳动者就业质量的冲击,探索利用AI提升、延展劳动者工作能力的路径,充分利用智能技术提升劳动者能力,对抗技术迭代压力,根本上缓解就业压力。(3)应当重视人在工作、特别是直接与人交流的工作中的独特价值,留意考量人的体验与满意度,在追求运行效率、经济效益的同时,兼顾体验等隐性指标。 二、研究背景 以大语言模型为代表的生成式人工智能的快速发展,正深刻改变就业格局。现有研究大体可以分为三条路径:一是基于岗位暴露度的测算,二是聚焦岗位需求与企业行为的实证研究,三是通过理论模型推演AI对劳动市场的整体冲击。 第一,岗位暴露度测算奠定了研究基础。Felten等(2018)首次提出将AI能力与O*NET数据库中的岗位能力相匹配,以量化不同职业受AI影响的程度,并建立标准化指标体系。后续Felten等(2023)将该方法扩展至大语言模型,发现教育、客服等语言密集型行业暴露度明显上升。Eloundou等(2023)则强调GPT类模型的通用性,指出约八成劳动力可能受到至少10%的影响。张丹丹等 (2025)在此思路上进行了本土化拓展,基于大语言模型技术暴露度测算中国劳动市场的冲击程度。研究发现,在2018年1月~2024年5月,中国劳动力市场上新增职位的大语言模型人工智能技术暴露度呈现降低的趋势;暴露度较高的职业主要是对受教育程度要求较高和薪资较高的白领职业,包括会计、编辑、销售及程序员等。 第二,实证研究揭示了AI与劳动市场的现实互动。Acemoglu等(2022)利用美国招聘数据发现,AI技能需求快速上升,但就业和工资增长尚无显著变化,暗示AI在扩散早期主要改变技能结构而非总量。Babina等(2024)则基于员工简历数据度量企业AI投入,发现高AI投入企业表现出显著的营业额、雇员与市值增长,其增长动力主要来自产品创新而非过程效率提升。这些研究说明,AI对劳动市场的作用具有间接性和滞后性:在短期内,劳动者面临技能错配风险,但在长期,企业扩张和创新可能创造更多就业。 第三,理论模型描绘了AI冲击的可能情景。Korinek与Suh(2024)提出“原子任务”框架,设定自动化通过逐步提高任务可替代的复杂度阈值来重塑就业。在不同自动化速度下,劳动工资可能出现增长、骤降或回升等多种路径,资本回报则大多呈上升趋势。这类模型强调了AI冲击的非线性和不确定性,提醒我们政策与培训干预在缓冲短期冲击、促进长期适应中的重要作用。 总体而言,三类研究构成了由微观到宏观的逻辑链条。岗位暴露度研究提供了识别冲击的工具与指标;实证研究揭示了劳动市场和企业层面的动态反应;理论模型则拓展到宏观结构与长期演化。近期的中国研究将国际方法与本土数据结合,揭示了大语言模型对中国劳动市场的差异化影响。这表明,AI并非单向的“岗位替代者”,而是在不同情境下同时展现“替代—创造”的双重效应。 但以上研究存在一个较大的现实制约:缺乏对于劳动者个体层面真实的AI暴露度的直接度量(而是以工作描述、企业投资等间接方式估测),Brynjolfsson等(2025)通过随机试验获得了劳动者层面的直接度量,并开创性地结合大规模现场部署,直接获取了劳动者的暴露度与生产率变化。他们基于一项涵盖5179名客户支持坐席的实地研究发现,接入生成式AI助手平均提升了劳动者14%的问题解决效率,且这种提升主要集中在新手与低技能员工群体(生产率提升高达35%),而经验丰富的高技能员工几乎未受影响。 我们的研究则更进一步,基于个体层面的AI度量,探索AI训练对于劳动者工作表现的影响。相较于在工作中使用AI工具,AI训练的作用机制更加间接,却更为重要:AI能否、如何改变了人的能力,这一改变的效果、持续时间、作用机制如何。本研究便是利用数字蚂力上线基于大模型的客户智能体的宝贵研究素材,进行了因果识别与影响测算。 我们研究的主要对象是数字蚂力的云客服板块:不同于传统印象中的呼叫中心模式,在固定时间、固定地点招聘客服人员提供客服服务,云客服的工作人员可以自选工作地点与工作时间,灵活的工作模式、相对丰厚的报酬吸引了许多劳动者的青睐,但是如何将这些分散的“新手”训练成可以上岗的合格客服,是一个挑战。在之前,学习材料主要以文字、图片、视频等非互动形式,之后加入了基于关键词匹配的固定剧本模式,都无法将培训与材料背诵脱离开来。 2024年3月28日,基于大模型打造的陪练智能体上线,该智能体可以不依赖繁琐的脚本配置(明确对话机器人每个步骤的对话内容与语义识别关键点,这是之前的训练脚本的主要运行方式),使用自然语义与被训练的客服交流,并理解客服的反馈,推动训练情节。5月17日,智能体进一步升级,具备更加贴近真人的音色,可以模拟特殊身份、性格带来的独特表达方式,模拟冷淡、愤怒、宽容、尊重等数十种不同情绪。 在2024年7月-9月,为了验证AI训练的有效性,数字蚂力团队在部分业务板块进行了随机试验,对于同一批入职的新客服,将其随机分为两组:一部分采用AI训练为主,另一部分采用传统训练为主。实验主要在涉及行业知识与针对性场景强化的训练中进行,对于一些基本的、共性的场景,比如用户隐私、数据安全的训练,则统一进行。下图左图汇报了实验中客服在岗前训练阶段,AI训练占整体时长的分布直方图,我们将AI训练的阈值设为50%,即如果一个客服的岗前训练超过一半以上的时间是由AI完成的,我们便认为他是AI训练的客服(实验组),否则则为控制组,之后我们将重点比较这两类人群之间的差异。如下图右图所示,最终我们包含了512个实验组客服和1497个控制组客服。 三、研究方法 因果森林(CausalForest)是Wager等(2018)在Athey等(2016)的因果树(Causal Tree)的基础上的扩展,具备更强的稳健性,是一种用于评估“某项干预措施对不同人群效果是否不同”的机器学习方法,尤其适用于在存在大量个体差异的现实场景中。与传统平均处理效应(ATE)方法相比,因果森林不仅能估计整体干预效果,还能识别在哪些特定人群中效果更强(即条件平均处理效应CATE),从而揭示政策或措施背后的异质性,这在我们的研究中有特别的价值。 该方法在本研究中尤为适用。我们评估的是AI训练能否提升新客服的工作表现,受试者来自不同地区、背景和技能组,表现差异显著。同时,个体培训前的属性可能同