熵平衡（ebalance）教程

DID / 稳健性

说明如何先做熵平衡生成 _webal，再把该权重直接带入后续回归。

常用 Stata 命令

ebalance treat x1 x2 x3, targets(3) basewt(w0) generate(_webal) normconst(1) maxiter(20) tolerance(.015) wttreat  ->  reghdfe y did controls [pweight=_webal], a(fe) cluster(id)

在 STATAU 中打开此功能

熵平衡ebalance加权回归_webal

这个页面解决什么问题

熵平衡适合这种场景：你不是只想看配平表，而是要先用处理组和控制组的协变量分布生成一列更稳的权重，再把这列 _webal 直接带进 DID 或基准回归里做稳健性分析。它和 PSM-DID 的共同点在于都是“先预处理，再回归”，区别在于熵平衡不是挑最近邻，而是通过重加权让控制组在矩上贴近处理组。

方法原理

第一步是熵平衡：给控制组分配一组权重，使重加权后的控制组在一阶、二阶、三阶矩上尽量接近处理组。第二步是带权回归：把生成的 _webal 作为 pweight 带入后续回归，继续估计 DID 变量或其他核心解释变量的系数。真正需要读的不是“单独一个配平统计量”，而是“配平是否改善”以及“加权后主结论是否仍然成立”。

适用数据与前提

至少需要一个 0/1 的处理组变量、一组数值型匹配协变量，以及后续回归所需的因变量和核心解释变量。如果你准备做类似 reghdfe 的回归，还应同时准备固定效应维度和聚类变量。

STATAU 页面中每个位置应该放什么变量

网站位置	应放入的变量	说明
因变量 (Y)	后续回归因变量	熵平衡之后要进入加权回归的结果变量。
处理组变量（treat）	0/1 二元变量	用于熵平衡生成控制组权重。
控制变量 / 匹配协变量	需要参与熵平衡的数值型变量	这里先作为匹配协变量使用。
熵平衡后回归核心解释变量	如 DID 交互项或政策变量	真正进入加权回归并需要解释的核心变量。
熵平衡后回归控制变量	后续回归控制项	可以与匹配协变量相同，也可以不同。
熵平衡后回归固定效应变量	企业 / 年份 / 地区等维度	需要吸收固定效应时勾选。

Stata 等效代码

ebalance [处理组变量] [匹配协变量], targets([统一矩阶数]) [basewt([Base Weight变量])] [generate([权重变量名])] [normconst([归一化常数])] [maxiter([最大迭代次数])] [tolerance([收敛容差])] [wttreat]  ->  reghdfe [因变量] [核心解释变量] [控制变量] [pweight=_webal], a([固定效应]) [cluster()]

Stata 代码位置	STATAU 网站对应位置	应放入什么
`[处理组变量]`	处理组变量（treat）	用于熵平衡的 0/1 处理组变量。
`[匹配协变量]`	控制变量 / 匹配协变量	先进入熵平衡的协变量集合。
`targets(3)`	匹配矩阶数	统一指定所有匹配协变量的矩阶数。
`basewt(varname)`	Base Weight 变量	若你有原始抽样权重，就把该变量传给 basewt()；留空则表示不写该选项。
`generate(_webal)`	权重变量名	对应 ebalance 生成权重变量的名称；默认就是 _webal。
`normconst(1)`	归一化常数	控制重加权后控制组权重总和相对处理组权重总和的倍数。
`maxiter(20)`	最大迭代次数	对应 ebalance 求解器允许的最大迭代轮数。
`tolerance(.015)`	收敛容差	对应 ebalance 的收敛判断阈值。
`wttreat`	处理组也使用 base weight	勾选后等于在 ebalance 中加入 wttreat；前提是你已经指定了 basewt()。
`[核心解释变量]`	熵平衡后回归核心解释变量	真正要在回归里解释的变量。
`[pweight=_webal]`	熵平衡后自动生成的权重	系统会先生成 `_webal`，再用于后续回归。

可删除代码段提示

如果你只想匹配均值，可把矩阶数改为 1。
若没有 base weight，Base Weight 变量可以留空。

在 STATAU 中操作步骤

先选择处理组变量和匹配协变量，并设置统一矩阶数。
再填写熵平衡后回归的核心解释变量、控制变量、固定效应和标准误设定。
运行后先看协变量平衡是否改善，再看加权回归中的核心系数是否仍然稳健。

结果怎么看

预处理摘要里的“是否收敛”和“最大偏差”只是第一层检查，更关键的是协变量平衡表是否明显改善。
真正用于写论文的核心仍然是后面的加权回归表，尤其是 DID 或政策变量在加权后是否仍显著。
如果匹配协变量和回归控制变量完全一样，解释时要明确这是“同一组变量先配平、再进入回归”的稳健性设计。

常见使用误区

不要把“匹配协变量”和“熵平衡后回归核心解释变量”混成同一栏；两者角色不同。
矩阶数不是越高越好；变量过多或样本支持区间不足时，更高阶矩更容易导致不收敛。
若要做加权固定效应回归，请记得单独勾选固定效应维度，而不是只选处理组和时间变量。

熵平衡（ebalance）教程 ​

这个页面解决什么问题 ​

方法原理 ​

适用数据与前提 ​

STATAU 页面中每个位置应该放什么变量 ​

Stata 等效代码 ​

在 STATAU 中操作步骤 ​

结果怎么看 ​

常见使用误区 ​

相关页面 ​