特征工程

一、特征工程的第一性原理

1.1 特征工程的本质

特征工程并不是简单的“构造特征”或“数据预处理”,而是一个信息表达与模型假设对齐的过程

从第一性原理出发,特征工程要解决的是:

在有限、可获得的数据条件下,将现实世界中的复杂信息,压缩、映射并表达为模型可学习、可泛化的表示形式。

其核心目标不是最大化特征数量,而是:


1.2 特征工程在系统中的功能定位

在一个完整的数据智能系统(如推荐系统、搜索系统、预测系统)中,特征工程位于:

现实世界 → 数据 → 特征表示 → 模型 → 决策

之间的关键中介层。

它承担三项不可替代的系统性职责:

  1. **信息压缩**:将高维、非结构化、冗余的信息压缩为可计算表示
  2. **信息对齐**:使数据表达方式与模型能力、假设空间相匹配
  3. **信息稳定化**:削弱噪声、异常与短期扰动对模型的干扰

二、特征的原理级分类体系(能力树视角)

从原理层面,特征可以按照“信息来源与生成机制”进行抽象分类,而非经验枚举。

2.1 行为生成特征(Behavioral Features)

定义:由用户与系统、物品交互过程中自然产生的行为记录。

隐式反馈与显式反馈的区分,本质上是信号强度与噪声比例的差异


2.2 结构关系特征(Relational / Graph Features)

定义:由对象之间的连接关系所构成的结构性信息。


2.3 描述性特征(Descriptive Features)

定义:用于描述对象静态属性的特征。


2.4 语义内容特征(Semantic Content Features)

定义:由文本、图像、音频、视频等内容所承载的语义信息。


2.5 上下文特征(Contextual Features)

定义:描述用户行为发生时所处环境的特征。


三、特征处理的原理级抽象

特征处理的目标不是“把数据变成数值”,而是在信息保真与模型可学习性之间取得平衡

3.1 尺度对齐(Scale Alignment)

通过归一化、标准化等方式,使不同特征在数值尺度上可比较。


3.2 信息离散化(Information Discretization)

通过分桶、编码等方式,将连续或高基数特征转化为有限状态。


3.3 语义映射(Semantic Mapping)

通过学习映射函数,将离散对象或非结构化信息转化为连续向量空间表示。


四、Embedding 的统一认知框架

4.1 Embedding 的本质

Embedding 是一种表示学习方法,其核心目标是:

在低维连续向量空间中,近似保持对象之间的相对关系结构。

从统一视角看,Embedding 的基本要素包括:


4.2 序列共现 Embedding(以 Word2Vec 为代表)

CBOW 与 Skip-gram 的差异,本质是预测方向不同,而非语义目标不同。


4.3 图结构 Embedding(DeepWalk / Node2vec)

通过调整随机游走策略,在“局部结构扫描”和“社区内部扩散”之间取得平衡。


4.4 矩阵分解视角(非负矩阵因式分解)

从表示学习角度看,矩阵分解与 Embedding 并非对立,而是同源方法。


五、Embedding 的系统使用方式

从系统架构角度,Embedding 有三种典型使用范式:

  1. **直接使用**:通过向量相似度完成召回或匹配
  2. **作为特征输入**:与其他特征拼接,输入下游模型
  3. **端到端学习(E2E)**:Embedding 与模型联合训练

三种方式的差异,本质是:


六、特征工程的演进视角

6.1 从人工特征到表示学习


6.2 为什么特征工程不会消失

即便在端到端深度学习体系中:

特征工程正在从"手工技巧",演化为:

一种连接现实世界、业务目标与模型能力的系统性工程方法

关联内容(自动生成)