STATAU 使用手册

从零开始,快速掌握云端计量经济学分析平台的所有功能

快速开始

欢迎使用 STATAU!本节将引导您完成第一次数据分析的全过程。

四步完成分析

1
注册并登录

点击导航栏的"登录/注册"按钮,填写用户名、邮箱和密码完成注册

2
上传数据文件

进入"数据分析"页面,点击文件上传按钮,选择您的数据文件(支持CSV、Excel、Stata DTA格式)

3
配置分析参数

在左侧导航栏选择分析方法,在右侧面板选择变量并配置参数

4
查看并导出结果

点击"开始分析"按钮,查看生成的学术标准表格,可导出为Word、Excel等格式

小贴士

首次使用建议从简单的描述性统计开始,熟悉界面操作后再尝试复杂的回归模型。

数据准备

支持的文件格式

格式 扩展名 说明
CSV .csv 逗号分隔值文件,最通用的格式
Excel .xlsx, .xls Microsoft Excel 文件
Stata .dta Stata 数据文件(建议使用Stata 14及以下版本)

数据格式要求

  • 标准二维表格:数据必须是行列结构,每行代表一个观测,每列代表一个变量
  • 第一行为变量名:第一行必须包含变量名称,建议使用英文命名
  • 避免特殊字符:变量名和数据中尽量避免中文特殊字符,防止乱码
  • 缺失值处理:缺失值可以留空或使用NA、NaN等标记
  • 文件大小限制:单个文件最大50MB

数据示例

firm_id,year,revenue,profit,employees,region 1,2020,1000,100,50,East 1,2021,1200,150,55,East 2,2020,800,80,40,West 2,2021,900,90,42,West
注意事项

1. 确保数据中没有合并单元格
2. 日期格式建议使用数字(如2020、2021)
3. 分类变量可以使用数字编码或文本标签

分析方法详解

基础分析

描述性统计

计算均值、标准差、最小值、最大值等基本统计量

分组描述统计

按分类变量分组展示描述性统计结果

频数统计

统计分类变量的频数、百分比和累计百分比

相关性分析

计算变量间的相关系数矩阵,带显著性检验

VIF检验

检测多重共线性问题,计算方差膨胀因子

回归模型

1. OLS 线性回归

最基础的回归模型,适用于连续因变量的分析。

  • 适用场景:因变量为连续变量,自变量可以是连续或分类变量
  • 标准误选项:支持普通标准误、稳健标准误、聚类标准误
  • 输出结果:系数、标准误/t值、显著性星号、R²、调整R²、F统计量
2. 固定效应模型 (FE)

控制个体固定效应和时间固定效应,适用于面板数据分析。

  • 适用场景:面板数据,需要控制不随时间变化的个体特征
  • 必需参数:个体ID变量(entity)、时间变量(time)
  • 固定效应选项:可选择控制个体效应、时间效应或双向固定效应
3. 随机效应模型 (RE)

假设个体效应与自变量不相关,适用于大样本面板数据。

  • 适用场景:面板数据,个体效应与自变量无关
  • 与FE的区别:RE假设更强但效率更高,需通过Hausman检验选择
4. 混合效应模型 (Pooled OLS)

不考虑面板结构,将所有观测视为独立样本。

  • 适用场景:作为基准模型,与FE模型进行F检验比较
  • 标准误:建议使用聚类标准误纠正组内相关性
5. Logit 模型

因变量为二元变量(0/1)的非线性回归模型。

  • 适用场景:因变量为二分类变量(如是否违约、是否购买)
  • 系数解释:系数表示对数几率的变化
6. Probit 模型

与Logit类似,但基于正态分布假设。

  • 适用场景:与Logit相同,结果通常差异不大
  • 选择建议:Logit更常用,Probit在某些情况下理论基础更强

模型检验

F检验(固定效应 vs 混合OLS)

检验是否应该使用固定效应模型而非混合OLS模型。

  • 原假设:所有个体效应为0,应使用混合OLS
  • 备择假设:存在个体效应,应使用固定效应模型
  • 判断标准:p值<0.05拒绝原假设,选择固定效应模型
Hausman检验(固定效应 vs 随机效应)

检验应该使用固定效应还是随机效应模型。

  • 原假设:个体效应与自变量不相关,应使用随机效应
  • 备择假设:个体效应与自变量相关,应使用固定效应
  • sigmamore选项:解决协方差矩阵不正定问题,得到与Stata一致的结果
模型选择建议

1. 先运行F检验,判断是否需要固定效应
2. 如果需要固定效应,再运行Hausman检验选择FE或RE
3. 如果Hausman检验遇到问题,勾选"使用sigmamore选项"

导出结果指南

STATAU 支持将分析结果导出为多种格式,方便您在不同场景下使用。

支持的导出格式

格式 扩展名 适用场景 特点
Word .docx 论文写作 保留学术表格格式,可直接插入论文
Excel .xlsx 数据处理 可进一步编辑和计算
TXT .txt 纯文本 跨平台兼容,易于分享
CSV .csv 数据交换 标准格式,可导入其他统计软件

如何导出

  1. 完成数据分析,生成结果表格
  2. 在结果表格上方会自动显示导出按钮
  3. 点击相应格式的按钮(Word、Excel、TXT、CSV)
  4. 浏览器会自动下载文件到默认下载目录

文件命名规则

导出的文件名格式:表格标题_时间戳.扩展名

示例:Regression_Results_20260128_143045.docx

导出功能特色

• 纯前端实现,无需后端支持,导出速度快
• 自动处理中文编码,确保中文正确显示
• Word导出保留学术表格样式(Times New Roman字体)
• Excel自动调整列宽,便于查看

注意事项

1. CSV和TXT文件使用UTF-8编码,用Excel打开CSV时选择UTF-8
2. Word文件需要Office 2010+或WPS打开
3. 导出按钮只在当前激活模块有结果时显示

高级功能

面板数据分析

面板数据(Panel Data)是同时包含横截面和时间序列维度的数据。STATAU 完整支持面板数据的固定效应、随机效应和混合效应模型。

配置面板数据
  • 个体ID(Entity):标识不同个体的变量(如公司ID、个人ID)
  • 时间变量(Time):标识时间的变量(如年份、季度)
  • 固定效应选项
    • 仅个体固定效应:控制个体特征
    • 仅时间固定效应:控制时间趋势
    • 双向固定效应:同时控制个体和时间

标准误选项

标准误的选择对统计推断至关重要。STATAU 支持三种标准误类型:

类型 适用场景 说明
普通标准误 满足经典假设 假设误差项同方差且无自相关
稳健标准误 存在异方差 对异方差稳健,不需要同方差假设
聚类标准误 面板数据/分组数据 允许组内观测相关,组间独立
使用建议

• 横截面数据:建议使用稳健标准误
• 面板数据:建议使用聚类标准误(按个体ID聚类)
• 时间序列数据:考虑使用HAC标准误(当前版本暂不支持)

多模型对比

STATAU 支持在同一个表格中展示多个模型的结果,方便进行对比分析。

操作步骤
  1. 运行第一个模型,选择"新建表格"
  2. 运行第二个模型,选择"添加到当前表格"
  3. 重复步骤2,可以添加更多模型
  4. 所有模型会并排显示在同一个表格中
表格定制
  • 表格标题:可以自定义表格标题
  • 小数位数:控制结果的精度(1-6位)
  • 显示选项:选择显示标准误或t值
  • 统计量选项:选择显示哪些模型统计量(R²、F统计量等)

变量输入技巧

快速输入控制变量

在"手动输入控制变量"文本框中,可以直接粘贴多个变量名(用空格或逗号分隔),比逐个勾选要快得多。

示例:age income education experience

常见问题解答

数据上传相关

Q: 上传文件后提示"文件格式不支持"?

A: 请确保文件格式为CSV、Excel(.xlsx/.xls)或Stata(.dta)。如果是Excel文件,确保数据在第一个工作表中。

Q: 上传的数据显示乱码怎么办?

A: 这通常是编码问题。建议:

  • CSV文件使用UTF-8编码保存
  • 变量名使用英文
  • 避免在数据中使用特殊字符
Q: 文件大小超过限制怎么办?

A: 当前限制为50MB。如果数据量过大,建议:

  • 删除不必要的变量
  • 对数据进行抽样
  • 分批次进行分析

分析结果相关

Q: 为什么我的回归结果与Stata不完全一致?

A: 可能的原因:

  • 标准误类型不同(检查是否使用了相同的标准误选项)
  • 缺失值处理方式不同
  • Stata版本差异(建议使用Stata 14及以上版本的算法)
Q: Hausman检验提示"协方差矩阵不正定"?

A: 这是常见问题。解决方案:

  • 勾选"使用sigmamore选项"
  • 这会使用基于随机效应的统一方差估计
  • 结果将与Stata的hausman检验一致
Q: VIF值多少算存在共线性问题?

A: 一般判断标准:

  • VIF < 5:无共线性问题
  • 5 ≤ VIF < 10:存在一定共线性,需注意
  • VIF ≥ 10:严重共线性,建议删除相关变量

导出功能相关

Q: 导出的Word文件无法打开?

A: 请确保:

  • 使用Office 2010或更高版本
  • 或使用WPS Office
  • 文件大小不为0字节
Q: CSV文件用Excel打开中文乱码?

A: 解决方法:

  1. 用记事本打开CSV文件
  2. 另存为,编码选择"UTF-8"
  3. 或在Excel中选择"数据"-"从文本"导入,选择UTF-8编码

账户相关

Q: 收不到邮箱验证码?

A: 请检查:

  • 邮箱地址是否正确
  • 查看垃圾邮件文件夹
  • 等待1-2分钟后重试
  • 确认邮件服务器配置正确
Q: 忘记密码怎么办?

A: 当前版本暂不支持密码找回功能。请联系管理员重置密码。

其他问题

Q: 游客模式和登录用户有什么区别?

A: 主要区别:

  • 游客模式:可以使用所有分析功能,但不保存历史记录
  • 登录用户:分析结果会保存,可以随时查看历史记录
Q: 数据会被保存吗?安全吗?

A: 数据安全说明:

  • 上传的数据仅用于即时计算
  • 分析完成后可以选择清除数据
  • 不会将您的数据用于其他用途
  • 建议不要上传包含敏感信息的数据
还有其他问题?

如果您的问题没有在这里找到答案,欢迎通过以下方式联系我们:
• 查看项目GitHub仓库的Issues
• 发送邮件至技术支持邮箱
• 查阅详细的技术文档(README.md)