1. 数据采集和理解
- 采集:线上,埋点+ETL+随机抽样;线下,抽样+普查+录入线上
- 理解:领域报表+描述统计
2. 预处理
- 质量控制:完整性,缺失值、删失值;异常值
- 定性编码:无序,one-hot,binary;有序,ordinal
- 数据切分:内生变量,train-valid-test;外生变量,提取先验假设
- 量纲控制:归一化,min-max;标准化,z-score
3. 变量二次加工
- 转换
- 数理视角:维度不变,按特定分布转换;降维,LDA或PCA,提取组合特征DT;升维,SVM
- 领域视角,派生变量
- 筛选:数理视角,波动率、相关性;领域视角,滞后效应