STATAU 数据处理工作台

数据处理工作台加载中

正在初始化模块、恢复数据状态并整理工作区布局…

当前未导入数据

上传、选择数据库或粘贴文本后，系统会自动建立当前数据状态。

来源未设置行数0 列数0 版本v0 / v0

导入与合并

先导入当前数据，再单独配置第二份数据的合并方式，避免所有入口挤在同一块里。

导入当前数据 本地上传、平台数据库和粘贴文本三种入口拆成独立卡片。

本地上传

选择文件未选择任何文件

平台数据库

先搜索再选择数据表

未选择数据表

粘贴文本

首行为列名

合并第二份数据 把数据来源、合并方式和执行区拆成三块，布局更稳定。

第二份数据来源

选择文件未选择任何文件

未选择数据表

首行为列名

合并方式与键

执行合并

追加会自动对齐列；横向绑定要求两份数据长度一致；按键匹配会返回匹配率、重复键风险和未匹配提示。

变量操作

把变量改名、变量说明、类型转换和删除变量拆开处理，每次只专注一个动作。

变量改名 逐个重命名，避免整张表同时编辑导致拥挤和误操作。

导入数据后可批量编辑变量名称。

变量说明 为单个变量补充学术含义或来源说明，便于后续导出与论文撰写。

导入数据后可批量编辑变量说明。

变量类型转换 适合批量选择后统一转型，结果会返回转换失败数量。

待转换变量

目标类型

日期格式

删除变量 单独做成删除卡片，避免和改名、类型转换混在一起。

待删除变量

删除后会生成新版本，仍可通过撤销或历史版本恢复。

样本处理

把缺失、重复、异常、筛选和抽样拆成独立卡片，参数区域按同一网格对齐。

缺失值处理

变量

处理动作

删除模式

缺失阈值

填充策略

填充值

分组变量（可选）

重复值处理

重复判定变量（可选）

留空时按全部变量判断重复。

处理动作

保留策略

异常值处理

异常值变量

检测方法

处理动作

IQR 倍数

Z 分数阈值

下分位点

上分位点

随机抽样

抽样方式

随机种子

抽样数量

抽样比例

分层变量（可选）

条件筛选 筛选条件改成独立大卡片，避免被其他功能挤压。

筛选器支持有限层级的 AND/OR 分组，后端只接收结构化 JSON，不接受任意代码表达式。

变量生成

每种生成方式拆成单独卡片，避免同一屏里堆太多列表框和输入框。

对数变量

变量

对数底数

自定义底数

比率变量

分子变量分母变量

交互项

参与变量

支持 2 到 3 个数值变量；若变量是 0/1 虚拟变量，结果提示会额外说明交互含义。

虚拟变量

分类变量

滞后项

生成滞后项的变量

个体变量

时间变量

只有滞后项需要面板结构设置；如果时间变量有重复值但未设置个体变量，系统会阻止生成。

滞后期数

自动标记因滞后产生的缺失期

差分项

生成差分项的变量

个体变量

时间变量

只有差分项需要面板结构设置；如果时间变量有重复值但未设置个体变量，系统会阻止生成。

差分期数

自动标记因差分产生的缺失期

标准化

变量

分组变量（可选）

中心化

变量

分组变量（可选）

综合指标

把熵值法、PCA 和因子分析拆成三张独立算法卡片，便于单独设置与理解输出。

熵值法

指标变量方向设置

选择指标后自动生成方向设置

PCA 主成分分析

指标变量

先做标准化（推荐）

写回主成分得分列

因子分析

指标变量

先做标准化（推荐）

写回因子得分列

当前数据快照 把原来空着的下半区换成随数据状态自动更新的摘要。

当前来源 未导入

数据规模 0 行 / 0 列

版本进度 v0 / v0

历史记录 0 条

先导入数据，系统才会生成可撤销的处理快照。

当前功能提示 切换左侧功能时，这里会同步提示输入重点和输出结果。

当前工作区会根据你选中的处理功能，只保留一张主操作卡片，其他说明收纳到这里。

导入与合并

变量操作

样本处理

变量生成

综合指标

处理历史

人机验证