班级纪律、班级规模与各国学业成绩 理论实证视角下的教育生产 Noam Gruber WP/26/105 国际货币基金组织工作论文描述作者(们)正在进行的研究,并已发表以引起评论和促进辩论。在IMF工作论文中表达的观点是作者(们)的观点,并不一定代表IMF、其执行董事会或IMF管理的观点。 2026Maybe 国际货币基金组织工作论文 能力发展研究所 班级纪律、班级规模与学业成就:跨国家的教育生产理论与实证分析由Noam Gruber*撰写 授权由保罗·卡辛分发 2026年5月 国际货币基金组织工作论文描述作者(们)正在进行的研究,并已发表以引起评论和促进辩论。国际货币基金组织工作论文中表达的观点是作者的观点,并不一定代表国际货币基金组织、其执行董事会或基金管理层的观点。 摘要:制定教育生产函数并利用学生和班级纪律水平的估计,本文旨在确定纪律、班级规模、教学质量与学业成绩之间的关系。数据显示,个人和班级层面的纪律都是PISA数学成绩的强大预测因素,而同学之间纪律的差异性则具有强烈的负面影响。此外,班级规模与更大的班级相关。结构模拟表明,观察到的相关性在纪律是,数据可以通过学校如何分配学生和教师到班级来很好地解释。这项分析允许分解教育生产因素的贡献,并突出了个人和班级纪律在学生成就中的作用。 推荐引用:诺亚姆·格鲁伯。2026年。“各国班级纪律、班级规模与学业成就:教育生产的理论与实证观点。”国际货币基金组织工作论文2026/105,国际货币基金组织,华盛顿特区。 工作论文 班级纪律、班级规模与各国学业成绩 理论实证视角下的教育生产 准备由Noam Gruber制作1 1 简介 与经济价值创造类似,教育过程也可以被表述为一个函数,其中一些教育生产的核心因素可能是学生的能力、努力程度、同伴效应和教学质量。然而,与工业生产因素不同,这样的教育生产因素的界定和测量尚未确立和标准化。 本研究试图将纪律作为一种教育生产因素来衡量和使用,既包括个人层面上的纪律,它是学生努力程度的代理,也涵盖班级层面,它反映了班级学习和学生间的影响,并探讨其在教育生产中的角色。学科在教育体系中解释不同学术成就水平的作用至今尚未充分发掘,这主要是因为缺乏对纪律的标准衡量手段。利用学生自述的课堂气氛调查以及PISA(经合组织的国际学生评估项目)数据中的旷课和迟到一个数据,本文建立了对个人和班级级纪律的衡量方式。这些衡量显示与班级规模及学生PISA的数学成绩有明显的相关性和作用。 理论分析表明,这些相关性源于几个因素:首先,直接效应——由学生层面的纪律代表个体努力的积极效应,以及同伴效应,由班级层面的纪律代表。此外,通过一个选择过程,即更有纪律的学生更有可能被分配到更大的班级,可以创造一个积极的同伴效应和负面的班级规模效应(学生越多,中断越多)。进一步地,将教学资源(例如更好的教师)分配给大班,可以在纪律、班级规模和学生成就之间创造一个额外的正相关层。最后,通过允许更大的班级,高学生纪律使学校系统能够雇佣较少的教师,并在质量上更加挑剔。 由于难以直接衡量教学质量,其影响尤其难以估计。缺乏良好代理指标来衡量教学质量,将其省略在回归估计中可能会偏误与教学质量相关的变量的结果。为了检验这一问题对实证分析的影响,本文采用教育生产结构模型生成合成数据,模拟学生和教师被选入班级的过程。结果表明,在数据中观察到的相关性得以定性复制。省略教学质量会导致一些学科指标的影响上升,但不会改变它们的符号。然而,它确实产生了与数据中观察到的一致的班级规模与学生成绩之间的强相关性。 第二章概述相关文献。第三章提出理论模型。第四章描述本论文中使用的PISA数据。第五章重点关注学科估计,对比第6节课的情况。纪律氛围和学生层级纪律,基于学生的旷课和迟到情况。本节包含教育生产的经济计量分析。第七节展示了使用理论模型生成的合成数据进行模拟,并将其与PISA数据进行比较。第八节得出结论。 第二章 文献综述 之前的论文曾使用诸如PISA等国际调查数据,试图识别“教育生产函数”的关键要素,并解释学生、学校之间成绩差异 教育体系和各国,采用学生、家庭和学校的属性(全面综述见汉纳斯克和沃斯曼(2011年))。这一文献分支一般未使用纪律水平指标。在这篇文献中,通常的情况是,当无法用硬数据解释各国之间的差异时,会提出不可测量的文化差异(例如,参见佩雷拉和阿萨杜拉(2019年)关于马来西亚,以及阿萨杜拉等(2020年)关于越南的讨论)。 尽管学校纪律及其对学生成果的影响长期以来一直被探讨(关于该主题的综述,参见Arum和Velez(2012)),但它主要被与其他影响教育过程的因素分开研究。本质上,测量问题阻碍了对学校纪律在各个年级、学校和国家之间影响的更深入和系统的实证分析,特别是关于班级规模和教学质量等相关教育因素。在相关尝试中,Zamarro等人(2019)构建了学生在回答PISA测试时的努力程度指标,以解释各国分数差异。在Asadullah等人(2021)的研究中,发现学生的努力程度在解释孟加拉国学生分数差异中起着重要作用。 联合起来,“班级规模”文献试图解释班级规模与学生成绩之间看似矛盾的正相关关系。这一庞大的实证文献试图解决选择问题,并正确识别班级规模对教育质量的影响。一些元分析论文,如Krueger(2003)的研究发现,减少班级规模对学生成绩有积极影响。其他例如,ers、例如Hoxby(2000)和Hanushek(2003)发现几乎没有影响。在这篇论文中,有两篇例外的研究,即Angrist和Lavy(1999)的研究,该研究利用以色列的最大班级规模法规进行识别。文学和克鲁格(1999年)的研究,都采用了随机分配的方法,发现缩小班级规模确实对学业成绩有轻微的积极影响。 Lazear(2001)试图用理论模型解释班级规模与学生成绩之间的正相关关系,认为在更高水平的纪律性下,较大的班级确实可能是最佳的,并能带来更好的结果。Lazear(2001)在提出一个将学生成绩与班级纪律、班级规模和教学质量结合在一个理论框架中的模型方面具有开创性,探索了教育生产这些因素之间可能复杂的关联性。 可以认为,关于班级规模影响的大多数研究都是在部分均衡框架下进行的。该文献主要关注克服因优秀学生被分配到更大班级而产生的选择偏差,并且通常假设改变班级规模对整体教学质量没有影响。1 Lazear(2001)通过建立班级规模和教学之间的权衡模型,打破了这一模式。关于教学质量(即教师招聘的筛选性),以及它们如何依赖于课堂纪律。 由于课堂纪律和教学质量都难以量化测量(如Hanushek和Rivkin(2006)所述),它们之间的相关性实证研究较少。Jepsen教学质量,参见Rivkin(2009)的观点,他认为更高的纪律性使得班级规模可以扩大,从而减少所需教师数量,为提高教学质量腾出资源,并使学校在雇佣教师时更具选择性。也可以认为,更高的学生纪律性会吸引更高水平的教师加入特定学校或整个教学行业。2 因此,国家及阶级层面的纪律和教师质量之间的因果关系可能复杂并具有双向性。 3 教育生产函数 方程1展示了一个学生层次的教育生产函数: ssibly from the Greek alphabet, whichdoes not have a direct translation in English to Chinese as it is not part of standard English vocabulary. If \"β\" is par¯A representative student not interrupting his / her classmate(s),P ext, further clarification would be necessary for an accurate translation. If it isa placeholder or code, please provideadditional context or instructions.Q课堂教学质量j在这里被定义为与...垂直P课堂纪律。换句话说,Q是 zX210j 超越启发/强制纪律的教学质量/效果。无法代理教学质量可能导致对其他变量的估计存在偏差如第七节所述,由于潜在的选择可能与之相关。具体而言,班级规模、班级纪律和教学质量可能都相互关联,正如第七节通过模拟所展示的那样。 The mechanisms behind such correlations are of great importance. Let us assume that school management seeks to maximize educational outcomes using the following two-step optimization procedure: 相关机制的重要性不容忽视。让我们假设学校管理层试图通过以下两步优化程序来最大化教育成果:首先,它寻求保持课堂纪律水平高于某些隐含的国家/文化门槛,以便P ≥ P,在哪儿P是国家隐含的课堂纪律阈值。然后,在很大程度上,是这样的。j 国际货币基金组织=j 学科门槛P,学校管理层还将优质教师分配到更大班级。C ¯优质Q然后将与班级规模呈正相关N,班级平均学生纪律P, 随着实证文献很少能够衡量教学质量以及/或课堂纪律,常常发现班级规模与学生的表现呈现出反直觉的相关性。通过实证估计纪律,本文可以探讨学校根据纪律水平对学生进行分班在创造这种相关性中所起的作用。在拥有完美信息的情况下,我们本希望估计以下模型,基于方程1的对数形式:j这,再次,与...不同P E ∝∈Q ∝ N ∝ e=α+β q+β p+β p+γ x+γ z+εi, j0 j1I 2 j x i z j i, j∑请注意,这是的日志形式,因此n 4 ПИСА данные: 2012、2015、2018 и 2022 раундыPp=j PISA测试面向15岁青少年进行。p= (n)¯p. 6每三年(原定于2021年的轮次因COVID-19大流行而推迟至2022年)。7jj 本文使用了2012年、2015年、2018年和2022年四轮调查的数据。在PISA涵盖的三个主要主题——数学、阅读和科学——中,数学被选为研究对象。除了其内在重要性外,数学是一种国际通用语言,因此非常适合跨国比较。jIj j I=1 应注意,各国在数学成绩和读写能力以及科学成就之间存在着高度相关性,这意味着教育系统在教授量化思维能力方面的成功是其在教授其他技能方面的成功的良好指标。 PISA考试于2000年根据经合组织国家平均分为500分,标准差为100分进行校准。所有后续轮次的校准都是基于2000年的轮次,采用项目反应理论(IRT)方法。除了测试题目外,PISA受访者以及学校管理人员还需填写调查问卷,这些问卷提供了许多关于学生家庭背景、学校属性、态度等方面的详细信息。本研究使用了2012年,即第一次调查年份,IMF认为属于发达经济体的国家数据,减去一些特别小的国家(塞浦路斯、冰岛、卢森堡、马耳他和圣马力诺),共计30个国家。9 对于这30个国家,数据显示2012年共有247,985名考生,2015年有223,611名考生,2018年有253,680名考生,2022年有251,385人次参加考试。 除了PISA数据外,本文还使用了世界银行关于人均GDP和14岁及以下人口比例的数据,台湾使用CEIC数据。这些变量作为控制变量,用于补充PISA数据。 5 班级层级和学生层级纪律措施 5.1 课堂纪律氛围 在PISA问卷中,针对课堂纪律水平提出了三个与学生的陈述相关的问题:“学生不听老师的话”,“有噪音和混乱”,“老师必须等待很长时间才能让学生安静下来。”对于这每个陈述,学生必须标记以下回应之一:“每节课”,“大多数课程”,“一些课程”,“从未