机器学习(Machine Learning)

一、机器学习的第一性原理(Principles)

1.1 学习的本质定义

机器学习的本质

在不完全信息条件下,利用有限样本,对未知决策函数进行近似,并在未来数据上保持稳定表现。

这一过程可抽象为:

现实世界  ↓(采样)数据分布  ↓(假设空间)模型族  ↓(优化)参数  ↓(决策)预测 / 行为

三大永恒矛盾:


1.2 频率学派与贝叶斯学派

频率视角

用训练数据的经验分布近似真实分布,通过优化损失函数估计参数

贝叶斯视角

本质区别:是否显式建模不确定性


1.3 什么问题适合机器学习

机器学习适用问题需同时满足:

  1. 问题中存在可学习的模式(显性或隐性)
  2. 难以通过确定性规则精确建模
  3. 拥有足够规模与质量的数据

二、学习范式与方法体系(Methodologies)

2.1 学习范式总览

范式核心目标本质描述
监督学习预测从样本到标签的函数逼近
无监督学习描述发现数据内在结构
强化学习决策延迟奖励下的最优控制
迁移学习复用跨任务知识迁移

2.2 监督与无监督学习

二者本质区别在于:是否存在明确的监督信号


2.3 集成学习:降低不确定性的系统方法

集成学习的核心哲学:通过多样性对抗不确定性

能力结构

集成学习├── 多样性来源│   ├── 数据扰动(Bagging)│   ├── 样本权重(Boosting)│   └── 模型异构(Stacking)├── 偏差-方差权衡├── 鲁棒性提升└── 工程代价

方法分类

AdaBoost

强分类器形式:

$$f(x)=\sum_{i=1}^n\alpha_iG_i(x)$$

本质:逐步聚焦“难样本”,重塑数据分布


三、模型、假设空间与复杂度(Models)

3.1 参数模型 vs 非参数模型

维度参数模型非参数模型
表达能力有限随数据增长
可解释性
偏差较高较低
方差较低较高

本质区别:假设空间容量是否随数据增长


3.2 模型生命周期

  1. 模型拟合(训练集)
  2. 模型选择(验证集)
  3. 模型评估(测试集)

三者必须严格隔离,否则评估失真


四、优化:从搜索到逼近(Optimization)

4.1 优化的本质

优化不是“找最优解”,而是在巨大搜索空间中高效逼近可接受解


4.2 梯度下降的几何直觉

$$w := w - \alpha \nabla J(w)$$

工程稳定性技巧


4.3 随机化优化方法谱系

方法核心思想
随机搜索空间采样
爬山法局部改进
模拟退火接受劣解逃逸
遗传算法群体进化

随机性用于对抗局部最优


五、泛化、过拟合与正则化(Generalization)

5.1 偏差-方差分解


5.2 正则化的统一解释

正则化的本质:对函数空间施加约束

形式:

$$J = Loss + \lambda \cdot Complexity$$


5.3 学习曲线与数据规模

数据并非万能,错误的模型结构无法被数据拯救


六、实验设计与评估体系(Evaluation)

6.1 实验的工程哲学

实验的目的不是“证明模型好”,而是理解模型行为


6.2 数据划分策略


6.3 评估指标体系

指标选择应服从业务风险偏好


七、强化学习:延迟奖励下的学习(RL)

强化学习解决的是:序列决策与长期回报最大化

7.1 核心抽象

7.2 贝尔曼方程

$$Q(s,a)=R(s)+\gamma\max_{a'}Q(s',a')$$

本质:递归定义最优性


八、概率图模型:结构化不确定性

8.1 建模哲学

用图结构表达随机变量之间的条件独立性

stateDiagram-v2a --> ca --> bb --> db --> cc --> e

$$p(A,B,C,D,E)=p(A)p(B|A)p(C|A,B)p(D|B)p(E|C)$$


九、从算法到系统(ML as a System)

9.1 机器学习系统生命周期

数据 → 特征 → 模型 → 决策 → 反馈 → 再训练

9.2 系统性挑战


十、总结:机器学习的长期视角

机器学习不是"找到一个好算法",而是构建一个能够持续学习、纠错和进化的系统

真正稳定的能力来自:

关联内容(自动生成)