外观
熵平衡(ebalance)教程
说明如何先做熵平衡生成 _webal,再把该权重直接带入后续回归。
常用 Stata 命令
ebalance treat x1 x2 x3, targets(3) basewt(w0) generate(_webal) normconst(1) maxiter(20) tolerance(.015) wttreat -> reghdfe y did controls [pweight=_webal], a(fe) cluster(id) 在 STATAU 中打开此功能
熵平衡ebalance加权回归_webal
这个页面解决什么问题
熵平衡适合这种场景:你不是只想看配平表,而是要先用处理组和控制组的协变量分布生成一列更稳的权重,再把这列 _webal 直接带进 DID 或基准回归里做稳健性分析。它和 PSM-DID 的共同点在于都是“先预处理,再回归”,区别在于熵平衡不是挑最近邻,而是通过重加权让控制组在矩上贴近处理组。
方法原理
第一步是熵平衡:给控制组分配一组权重,使重加权后的控制组在一阶、二阶、三阶矩上尽量接近处理组。第二步是带权回归:把生成的 _webal 作为 pweight 带入后续回归,继续估计 DID 变量或其他核心解释变量的系数。真正需要读的不是“单独一个配平统计量”,而是“配平是否改善”以及“加权后主结论是否仍然成立”。
适用数据与前提
至少需要一个 0/1 的处理组变量、一组数值型匹配协变量,以及后续回归所需的因变量和核心解释变量。如果你准备做类似 reghdfe 的回归,还应同时准备固定效应维度和聚类变量。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 因变量 (Y) | 后续回归因变量 | 熵平衡之后要进入加权回归的结果变量。 |
| 处理组变量(treat) | 0/1 二元变量 | 用于熵平衡生成控制组权重。 |
| 控制变量 / 匹配协变量 | 需要参与熵平衡的数值型变量 | 这里先作为匹配协变量使用。 |
| 熵平衡后回归核心解释变量 | 如 DID 交互项或政策变量 | 真正进入加权回归并需要解释的核心变量。 |
| 熵平衡后回归控制变量 | 后续回归控制项 | 可以与匹配协变量相同,也可以不同。 |
| 熵平衡后回归固定效应变量 | 企业 / 年份 / 地区等维度 | 需要吸收固定效应时勾选。 |
Stata 等效代码
ebalance [处理组变量] [匹配协变量], targets([统一矩阶数]) [basewt([Base Weight变量])] [generate([权重变量名])] [normconst([归一化常数])] [maxiter([最大迭代次数])] [tolerance([收敛容差])] [wttreat] -> reghdfe [因变量] [核心解释变量] [控制变量] [pweight=_webal], a([固定效应]) [cluster()]| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
[处理组变量] | 处理组变量(treat) | 用于熵平衡的 0/1 处理组变量。 |
[匹配协变量] | 控制变量 / 匹配协变量 | 先进入熵平衡的协变量集合。 |
targets(3) | 匹配矩阶数 | 统一指定所有匹配协变量的矩阶数。 |
basewt(varname) | Base Weight 变量 | 若你有原始抽样权重,就把该变量传给 basewt();留空则表示不写该选项。 |
generate(_webal) | 权重变量名 | 对应 ebalance 生成权重变量的名称;默认就是 _webal。 |
normconst(1) | 归一化常数 | 控制重加权后控制组权重总和相对处理组权重总和的倍数。 |
maxiter(20) | 最大迭代次数 | 对应 ebalance 求解器允许的最大迭代轮数。 |
tolerance(.015) | 收敛容差 | 对应 ebalance 的收敛判断阈值。 |
wttreat | 处理组也使用 base weight | 勾选后等于在 ebalance 中加入 wttreat;前提是你已经指定了 basewt()。 |
[核心解释变量] | 熵平衡后回归核心解释变量 | 真正要在回归里解释的变量。 |
[pweight=_webal] | 熵平衡后自动生成的权重 | 系统会先生成 `_webal`,再用于后续回归。 |
可删除代码段提示
- 如果你只想匹配均值,可把矩阶数改为 1。
- 若没有 base weight,Base Weight 变量可以留空。
在 STATAU 中操作步骤
- 先选择处理组变量和匹配协变量,并设置统一矩阶数。
- 再填写熵平衡后回归的核心解释变量、控制变量、固定效应和标准误设定。
- 运行后先看协变量平衡是否改善,再看加权回归中的核心系数是否仍然稳健。
结果怎么看
- 预处理摘要里的“是否收敛”和“最大偏差”只是第一层检查,更关键的是协变量平衡表是否明显改善。
- 真正用于写论文的核心仍然是后面的加权回归表,尤其是 DID 或政策变量在加权后是否仍显著。
- 如果匹配协变量和回归控制变量完全一样,解释时要明确这是“同一组变量先配平、再进入回归”的稳健性设计。
常见使用误区
- 不要把“匹配协变量”和“熵平衡后回归核心解释变量”混成同一栏;两者角色不同。
- 矩阶数不是越高越好;变量过多或样本支持区间不足时,更高阶矩更容易导致不收敛。
- 若要做加权固定效应回归,请记得单独勾选固定效应维度,而不是只选处理组和时间变量。