特征工程流程入门

Posted by Cong Li on July 29, 2018

1. 数据采集和理解

  • 采集:线上,埋点+ETL+随机抽样;线下,抽样+普查+录入线上
  • 理解:领域报表+描述统计

2. 预处理

  • 质量控制:完整性,缺失值、删失值;异常值
  • 定性编码:无序,one-hot,binary;有序,ordinal
  • 数据切分:内生变量,train-valid-test;外生变量,提取先验假设
  • 量纲控制:归一化,min-max;标准化,z-score

3. 变量二次加工

  • 转换
    • 数理视角:维度不变,按特定分布转换;降维,LDA或PCA,提取组合特征DT;升维,SVM
    • 领域视角,派生变量
  • 筛选:数理视角,波动率、相关性;领域视角,滞后效应