When Should You Adjust Standard Errors for Clustering — 深度分析 — Abadie Et Al.

文献信息

标题: When Should You Adjust Standard Errors for Clustering?
作者: Alberto Abadie(MIT), Susan Athey(Stanford), Guido W. Imbens(Stanford), Jeffrey M. Wooldridge(MSU)
类型: 论文笔记 / 计量经济学
出版年份: 2023
出版机构/期刊: The Quarterly Journal of Economics, Volume 138, Issue 1, Pages 1-35
难度评估: 高 - 需要计量经济学和统计学基础

1. 引言(背景和意义)

领域基础知识

聚类标准误差(Clustered Standard Errors):在计量经济学中,当数据存在组内相关性时(如同一地理区域内个体的误差项相关),需要使用聚类标准误差来正确推断.聚类标准误差调整由抽样过程或处理分配机制引起的组内相关性.

两种传统框架:

模型基础框架(Model-based Framework):假设误差项的成分结构(如随机效应模型)
抽样框架(Sampling Framework):两阶段抽样_先随机抽取聚类,再从抽中的聚类中抽取个体

稳健标准误差(Robust Standard Errors):又称异方差稳健标准误差,由Eicker[1963]、Huber[1967]和White[1980]提出.

研究的主要背景

核心问题:在实证研究中,何时应该使用聚类标准误差?聚类水平如何选择?

现实重要性:

Moulton [1986, 1987] 和 Bertrand, Duflo, Mullainathan [2004] 表明聚类调整可能产生巨大差异
自1980年代以来,聚类标准误差在实证经济学中变得普遍

论文中的例子:利用2000年美国人口普查数据,估计上大学对劳动收入的影响,研究发现州级聚类标准误差是稳健标准误差的20倍以上.

作者的问题意识

三个核心问题:

为什么在某些情况下调整标准误差聚类(如按州但不按性别),而在其他情况下不调整?
为什么传统聚类是一种"全有或全无"的调整,而组内相关性可以是强的或极弱的?
在什么情况下,选择是否聚类以及如何聚类会产生差异?

研究意义

澄清误解:揭示关于聚类调整的三个常见误解
新框架:提出包含抽样和分配两个成分的新聚类框架
新估计量:提出因果聚类方差(CCV)和两阶段聚类Bootstrap(TSCB)
实践指导:为实证研究者提供关于何时及如何聚类的可操作建议

2. 内容及结构(论文结构)

章节	内容
1. Introduction	问题背景、主要贡献、三个核心问题
2. A Framework for Clustering	抽样过程、分配过程、有限总体框架
3. The Least Squares Estimator and its Variance	OLS估计量及其方差、大样本分布
4. Fixed Effects Estimator	固定效应估计量
5. Estimation	CCV和TSCB估计方法
6. An Application	大学教育对收入影响的应用
7. Conclusion	结论

3. 正文(逻辑梳理)

背景:标准误差聚类的理论基础

传统观点:

如果误差项在组内相关,聚类标准误差应该大于稳健标准误差
如果聚类调整"重要"(聚类标准误差显著大于稳健标准误差),应使用聚类标准误差

作者提出的新视角:
将注意力从结果的无限超总体/数据生成过程参数转向手头有限总体的平均处理效应.

挑战

传统框架的局限性:

模型基础框架的问题:研究者需要预先设定误差项的成分结构,这在实践中往往难以证明是合理的
抽样框架的不适用性:在许多经济学应用中,研究者实际上观察了所有感兴趣的聚类(如美国所有州),基于少量聚类随机抽样的框架并不适用
三个常见误解:
- 误解1:聚类的需要取决于同组成员之间残差的相关性存在 → 实际上,相关性存在不意味着需要聚类,相关性不存在也不意味着不需要聚类
- 误解2:使用不必要的聚类调整没有危害 → 实际上,这会导致置信区间不必要地保守
- 误解3:研究者只有两个选择(完全聚类或完全不聚类)→ 实际上,稳健和聚类方差估计量的组合可以显著提高精确性

方法(新框架)

框架的三个组成部分:

抽样过程(Sampling Process):
- 第一阶段:以概率qk抽取聚类
- 第二阶段:从抽中的聚类中以概率pk抽取个体
- qk=1表示随机抽样(所有聚类都被抽样)
- qk<1表示聚类抽样(只抽样部分聚类)
分配过程(Assignment Process):
- 第一阶段:为每个聚类m抽取分配概率Ak,m(均值μk,方差σ²k)
- 第二阶段:每个个体以概率Ak,m独立分配处理
- σ²k=0:随机分配(处理在聚类间随机)
- σ²k>0:部分聚类分配
- σ²k=μk(1-μk):完全聚类分配(组内处理完全相同)
有限总体框架:
- 关注手头有限总体的平均处理效应
- 而非无限超总体的参数

关键洞见:

数据的抽样过程和分配机制决定了正确的聚类水平
结果变量的聚类级别未观察到的成分的存在与否与聚类水平的选择无关

结果(关键发现)

方差分解:

总体渐进方差vk包含五个项:

稳健方差项:被稳健方差估计量估计
有限样本校正项:来自随机实验文献(如如果样本是人口的比例较小则消失)
聚类抽样项:仅当qk<1(部分聚类被抽样)且处理效应在聚类间异质时显著
聚类分配项I:取决于组内潜在结果异质性
聚类分配项II:取决于组内潜在结果异质性

稳健标准误差的问题:

当聚类分配存在(σ²k>0)且聚类解释了大量潜在结果异质性时,稳健方差可能严重低估真实方差

聚类标准误差的问题:

聚类方差估计量总是保守的(不会低估)
当样本中聚类数量占总体聚类数量的不可忽略比例时,传统聚类标准误差可能严重膨胀

新估计量(CCV和TSCB):

因果聚类方差(CCV)公式使用每个聚类的处理效应估计来校正传统聚类方差的偏误
两阶段聚类Bootstrap(TSCB):两阶段重抽样

实证应用结果(表1):

估计量	标准误差
稳健标准误差	0.0012
聚类标准误差(州级)	0.0269-0.0312
CCV/TSCB	0.0035-0.0036

聚类标准误差约是稳健标准误差的23倍
CCV/TSCB在两者之间,但更接近稳健标准误差

4. 结论(Conclusion)

核心结论

聚类框架的新理解:新框架将聚类视为抽样和分配两个独立过程的结果
聚类的必要性取决于:
- 抽样过程(是否只抽样了部分聚类)
- 分配过程(处理是否在聚类间变化)
- 处理效应异质性
稳健标准误差的局限性:在存在聚类分配和处理效应异质性时,稳健标准误差可能严重低估真实方差
聚类标准误差的保守性:当样本中聚类数量占总体比例较大时,聚类标准误差可能严重膨胀
新估计量的优越性:CCV和TSCB在各种情况下都能提供更准确的推断

对领域的贡献

理论贡献:提出了一个统一框架,将传统聚类框架作为特例嵌套
方法论贡献:提出了考虑有限总体的因果聚类方差估计量
实践指导:澄清了实证中的常见误解

5. 未来研究方向(Future work)

论文提及的拓展方向

非线性模型的扩展:本文主要讨论OLS和固定效应估计量,对logit、probit等非线性模型的推广
工具变量框架:将框架扩展到工具变量估计
更多Bootstrap变体:探索其他重抽样方法

思考的下一步研究

面板数据模型:对于双向固定效应模型,聚类调整如何进行?
空间相关性:当聚类内相关性不是同质的(如空间依赖性),如何调整?
多级聚类:如州内县内个人的三级结构
异质性处理效应的稳健推断:在高维协变量和异质性处理效应情况下的推断方法
实际软件实现:如何将这些方法轻松集成到现有计量经济学软件中?

6. 学术思考

核心学术问题

无限超总体 vs 有限总体范式转变
- 传统框架关注无限超总体的方差
- 本文转向手头有限总体的方差
- 这种范式转变是否意味着我们需要重新思考几乎所有计量经济学推断?
聚类的"设计"视角
- 本文强调分配机制的重要性
- 处理在聚类间的变化程度决定了聚类的必要性
- 这是否意味着我们应该更多地考虑实验/准实验的设计特征,而非仅依赖统计特性?
聚类的"全有或全无"谬误
- 传统观点认为聚类是一个二元选择
- 实际上,组内相关性可以是连续变化的
- CCV方法提供了一个连续的调整方式
处理效应异质性的中心作用
- 当处理效应在聚类间异质时,聚类变得更重要
- 但研究者通常假设常数处理效应
- 如何在异质性环境下进行可靠的推断?
稳健vs聚类的权衡
- 稳健标准误差可能低估真实方差(过于乐观)
- 聚类标准误差可能高估真实方差(过于保守)
- CCV/TSCB试图找到中间道路
- 这种权衡是否意味着我们应该更谨慎地报告不确定性区间?

7. 下一步用户可能提的问题

实际操作问题:在实际的实证研究中,如何判断应该使用稳健标准误差、聚类标准误差还是CCV?
聚类水平的选择:如果有嵌套结构(如县嵌套于州),应该在哪个水平聚类?或者需要在多个水平聚类?
聚类数量太少的问题:当聚类数量较少(如少于30个)时,传统的聚类标准误差是否仍然可靠?应该如何处理?
与随机实验的关系:本文框架与完全随机实验的标准误差计算有何联系?在随机实验中也应该聚类吗?
非平衡面板数据:在非平衡面板数据中,聚类调整应该如何进行?是否需要考虑每个个体的观测数量差异?
处理效应异质性的检验:如何检验处理效应是否在聚类间异质?这对聚类决策有何影响?
与Wild Cluster Bootstrap的关系:当聚类数量较少时,Wild Cluster Bootstrap是否是更好的选择?它与本文的TSCB有何关系?
软件实现:Stata、R、Python中有哪些现成的命令可以实现CCV或TSCB估计?
异质性处理效应下的推断:当处理效应异质时,如何进行有效的统计推断?是否需要更多的异质性分析?