Skip to content

熵平衡(ebalance)教程

DID / 稳健性

说明如何先做熵平衡生成 _webal,再把该权重直接带入后续回归。

常用 Stata 命令ebalance treat x1 x2 x3, targets(3) basewt(w0) generate(_webal) normconst(1) maxiter(20) tolerance(.015) wttreat -> reghdfe y did controls [pweight=_webal], a(fe) cluster(id)
在 STATAU 中打开此功能
熵平衡ebalance加权回归_webal

这个页面解决什么问题

熵平衡适合这种场景:你不是只想看配平表,而是要先用处理组和控制组的协变量分布生成一列更稳的权重,再把这列 _webal 直接带进 DID 或基准回归里做稳健性分析。它和 PSM-DID 的共同点在于都是“先预处理,再回归”,区别在于熵平衡不是挑最近邻,而是通过重加权让控制组在矩上贴近处理组。

方法原理

第一步是熵平衡:给控制组分配一组权重,使重加权后的控制组在一阶、二阶、三阶矩上尽量接近处理组。第二步是带权回归:把生成的 _webal 作为 pweight 带入后续回归,继续估计 DID 变量或其他核心解释变量的系数。真正需要读的不是“单独一个配平统计量”,而是“配平是否改善”以及“加权后主结论是否仍然成立”。

适用数据与前提

至少需要一个 0/1 的处理组变量、一组数值型匹配协变量,以及后续回归所需的因变量和核心解释变量。如果你准备做类似 reghdfe 的回归,还应同时准备固定效应维度和聚类变量。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
因变量 (Y)后续回归因变量熵平衡之后要进入加权回归的结果变量。
处理组变量(treat)0/1 二元变量用于熵平衡生成控制组权重。
控制变量 / 匹配协变量需要参与熵平衡的数值型变量这里先作为匹配协变量使用。
熵平衡后回归核心解释变量如 DID 交互项或政策变量真正进入加权回归并需要解释的核心变量。
熵平衡后回归控制变量后续回归控制项可以与匹配协变量相同,也可以不同。
熵平衡后回归固定效应变量企业 / 年份 / 地区等维度需要吸收固定效应时勾选。

Stata 等效代码

ebalance [处理组变量] [匹配协变量], targets([统一矩阶数]) [basewt([Base Weight变量])] [generate([权重变量名])] [normconst([归一化常数])] [maxiter([最大迭代次数])] [tolerance([收敛容差])] [wttreat]  ->  reghdfe [因变量] [核心解释变量] [控制变量] [pweight=_webal], a([固定效应]) [cluster()]
Stata 代码位置STATAU 网站对应位置应放入什么
[处理组变量]处理组变量(treat)用于熵平衡的 0/1 处理组变量。
[匹配协变量]控制变量 / 匹配协变量先进入熵平衡的协变量集合。
targets(3)匹配矩阶数统一指定所有匹配协变量的矩阶数。
basewt(varname)Base Weight 变量若你有原始抽样权重,就把该变量传给 basewt();留空则表示不写该选项。
generate(_webal)权重变量名对应 ebalance 生成权重变量的名称;默认就是 _webal。
normconst(1)归一化常数控制重加权后控制组权重总和相对处理组权重总和的倍数。
maxiter(20)最大迭代次数对应 ebalance 求解器允许的最大迭代轮数。
tolerance(.015)收敛容差对应 ebalance 的收敛判断阈值。
wttreat处理组也使用 base weight勾选后等于在 ebalance 中加入 wttreat;前提是你已经指定了 basewt()。
[核心解释变量]熵平衡后回归核心解释变量真正要在回归里解释的变量。
[pweight=_webal]熵平衡后自动生成的权重系统会先生成 `_webal`,再用于后续回归。
可删除代码段提示
  • 如果你只想匹配均值,可把矩阶数改为 1。
  • 若没有 base weight,Base Weight 变量可以留空。

在 STATAU 中操作步骤

  1. 先选择处理组变量和匹配协变量,并设置统一矩阶数。
  2. 再填写熵平衡后回归的核心解释变量、控制变量、固定效应和标准误设定。
  3. 运行后先看协变量平衡是否改善,再看加权回归中的核心系数是否仍然稳健。

结果怎么看

  • 预处理摘要里的“是否收敛”和“最大偏差”只是第一层检查,更关键的是协变量平衡表是否明显改善。
  • 真正用于写论文的核心仍然是后面的加权回归表,尤其是 DID 或政策变量在加权后是否仍显著。
  • 如果匹配协变量和回归控制变量完全一样,解释时要明确这是“同一组变量先配平、再进入回归”的稳健性设计。

常见使用误区

  • 不要把“匹配协变量”和“熵平衡后回归核心解释变量”混成同一栏;两者角色不同。
  • 矩阶数不是越高越好;变量过多或样本支持区间不足时,更高阶矩更容易导致不收敛。
  • 若要做加权固定效应回归,请记得单独勾选固定效应维度,而不是只选处理组和时间变量。

相关页面