生成式模型的核心是学习数据的联合概率分布 P(X,Y)(监督学习)或 P(X)(无监督学习)。逻辑回归建模 P(Y∣X),但它是判别式模型,因为它不关心 P(X)或生成 XX。

关键区分:生成式模型 vs 判别式模型

  1. 生成式模型(Generative Model)
  • 学习数据的联合概率分布 $P(X, Y)$,然后通过贝叶斯定理计算后验概率 $$P(Y \mid X) $$进行分类。
  • 特点:可以生成新的样本数据(如模拟输入$X$的分布)。
  • 例子:朴素贝叶斯、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、生成对抗网络(GAN)。
  1. 判别式模型(Discriminative Model)
  • 直接学习条件概率 $P(Y \mid X)$ 或决策边界。
  • 特点:专注于分类/回归任务,无法生成数据。
  • 例子:逻辑回归、支持向量机(SVM)、神经网络、决策树。

为什么朴素贝叶斯是生成式模型?

朴素贝叶斯的分类过程分为两步:

  1. 学习联合概率分布
  • 假设特征之间条件独立(“朴素”假设),计算 ( P(X \mid Y) ) 和先验概率 ( P(Y) )。
  • 例如,在文本分类中,统计每个单词在不同类别下的出现概率。
  1. 通过贝叶斯定理预测
  • 计算后验概率 ( P(Y \mid X) = \frac{P(X \mid Y) P(Y)}{P(X)} ),选择概率最大的类别。

由于模型显式地建模了输入 ( X ) 和标签 ( Y ) 的联合分布(( P(X, Y) = P(X \mid Y) P(Y) )),因此属于生成式模型。


朴素贝叶斯的优缺点

  • 优点
  • 训练速度快(只需统计概率)。
  • 对小规模数据或高维数据(如文本分类)表现良好。
  • 缺点
  • 特征独立性假设过强,现实中难以满足。
  • 无法学习特征之间的复杂关系(如组合特征的重要性)。

生成式 vs 判别式的直观理解

  • 生成式:像“画家”,先学习数据是如何生成的(( P(X, Y) )),再分类。
  • 判别式:像“裁判”,直接学习如何区分类别(( P(Y \mid X) ))。

朴素贝叶斯是生成式模型的经典代表,而逻辑回归(虽然名字含“回归”)是判别式模型的典型例子。