Cong Li Blog

商业分析 数据科学 金融量化

金融科技项目管理基础

1. 项目管理模块 核心是时间、成本、质量 整体 范围 干系人 时间(进度) 沟通 采购 质量 风险 人力 成本(费用) 2. 成本 金融科技项目最核心的成本组成是人力开销。 管理咨询团队,架构师参与使方案可落地 科技开发团队,数据科学家参与使线上线下一致 3. 时间 以AI项目为例,按交付物分阶段。其中策略调优是投产后持...

信息流评测常用指标

1. 业绩指标 促进交易维度 渠道+产品+交易行为(交易+成交+复购)+颗粒度(笔数+金额) 促进浏览维度 渠道+产品+浏览行为(注册+登录+点击)+颗粒度(UV+PV) 2. 变现效率 准确度:Accuracy+Recall+F1+AUC+ACC 转化率:CTR+CVR 覆盖率:Co...

中产的极限

问题:中产30-60岁,累计收入在30岁时点的贴现值? 假设:IRR=5%,不计通胀(薪酬有抗通胀性) 策略一:30岁,30万/年. 匀速增到45岁,70万/年. 45-55岁,70万/年. 55-60, 50万/年. 策略二:30岁,30万/年. 31岁,70万/年,保持到35岁。36岁120万/年,保持到40岁。40-45岁,50万/年. 策略三:30岁,30万/年. ...

基础数据结构和算法清单

1. 数据结构 存储角度:顺序,栈-后进先出、队列-先进先出;链式 逻辑角度:集合,线性,树形-二叉树-堆,网状-图 2. 算法 查找:顺序、二分 排序:冒泡、简单选择、直接插入、希尔、归并、快速、堆 递归 分治 动态规划 回溯

大数据处理、建模业界常见框架和人力配置

1. 处理框架 批处理:Hadoop,MPPDB 流处理:Storm, Samza 混合:Spark, Flink 2. no-sql数据库 键值:Redis 面向文档:MongoDB 列存储:Hbase, Cassandra 图 :Neo4j, JanusGraph, SystemG 3. 建模框架 机器学习:Scikit-learn, ...

推荐系统的项目实践

1. BRD-定位 短期,流量变现,注册/登陆-点击-交易-成交-复购 长期,优质信息分发 2. MRD-信息流 匹配客户偏好 识别优质信息 3. PRD-算法方案 召回:KNN, TF-IDF, Item2Vec 排序:NB, LR, GBDT(Xgboost), RippleNet, Wide&Deep 过滤:领域规则 补位:热...

模型建立、调优流程入门

1. 模型建立 基于optimization theory,定义loss function,搜索parameter 模型类型 统计模型 分类器:有监督,SVM, LR, DT;无监督,K-means, K-means++, ISODATA, GMM, SOM 回归器:GLR 时序模型...

特征工程流程入门

1. 数据采集和理解 采集:线上,埋点+ETL+随机抽样;线下,抽样+普查+录入线上 理解:领域报表+描述统计 2. 预处理 质量控制:完整性,缺失值、删失值;异常值 定性编码:无序,one-hot,binary;有序,ordinal 数据切分:内生变量,train-valid-test;外生变量,提取先验假设 量纲控制:归一化,min-max;标准化,z...

大数据常用分析技术

此处写的粗糙,后续会分别细写。 1. 特征工程 采集+业务理解 预处理+拆分 数据增强 2. 核心模型 独立模型 经典统计:分类(有无监督),回归,时序 神经网络(层次模型):DNN,CNN,RNN,强化,迁移,GANs 知识图谱(概率图模型):Bayesian,Markov 混合模型 ...

Python使用入门

1. 数据类型 数值型 int, float, bool, complex 字符型 str, bytes 集合型 list, set, dict, tuple 2. 控制结构 区块,缩排一致,一次缩进用4个空格 条件 if-elif-else 循环 for-in, while, pass, break, continue 自定义函数 def