统计基础
概率密度,概率分布
大数定理:随机变量的数字特征,样本的统计特征
中心极限定理
条件概率,全概率,贝叶斯概率(先验概率,后验概率,边缘似然)
参数估计
点估计:最大似然函数
区间估计:贝叶斯估计(最大后验概率)
模型
假设空间 统计学习 启发式(随机森林,神经网络)
特征,知识,模型
回归,分类
降维,聚类
决策函数,分布概率
生成模型 or 判别模型
策略
损失函数:期望损失,风险函数;经验损失,经验风险
ERM 经验风险最小化
SRM 结构风险最小化 引入正则化项 对应先验概率 MAP 最大后验估计
算法
从假设空间中求解最优模型(根据策略)
学习模型参数
防止过拟合 , 幻觉的 模型陷阱 引入正则化项的超参数
交叉验证:训练集(学习难度),验证集(超参数,人为设定,技术指标最好),测试集(评估模型泛化能力)
评估
precison recall f1-score