生成式模型VS判别式模型
生成式模型的核心是学习数据的联合概率分布 P(X,Y)(监督学习)或 P(X)(无监督学习)。逻辑回归建模 P(Y∣X),但它是判别式模型,因为它不关心 P(X)或生成 XX。
关键区分:生成式模型 vs 判别式模型
- 生成式模型(Generative Model)
- 学习数据的联合概率分布 $P(X, Y)$,然后通过贝叶斯定理计算后验概率 $$P(Y \mid X) $$进行分类。
- 特点:可以生成新的样本数据(如模拟输入$X$的分布)。
- 例子:朴素贝叶斯、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、生成对抗网络(GAN)。
- 判别式模型(Discriminative Model)
- 直接学习条件概率 $P(Y \mid X)$ 或决策边界。
- 特点:专注于分类/回归任务,无法生成数据。
- 例子:逻辑回归、支持向量机(SVM)、神经网络、决策树。
为什么朴素贝叶斯是生成式模型?
朴素贝叶斯的分类过程分为两步:
- 学习联合概率分布:
- 假设特征之间条件独立(“朴素”假设),计算 ( P(X \mid Y) ) 和先验概率 ( P(Y) )。
- 例如,在文本分类中,统计每个单词在不同类别下的出现概率。
- 通过贝叶斯定理预测:
- 计算后验概率 ( P(Y \mid X) = \frac{P(X \mid Y) P(Y)}{P(X)} ),选择概率最大的类别。
由于模型显式地建模了输入 ( X ) 和标签 ( Y ) 的联合分布(( P(X, Y) = P(X \mid Y) P(Y) )),因此属于生成式模型。
朴素贝叶斯的优缺点
- 优点:
- 训练速度快(只需统计概率)。
- 对小规模数据或高维数据(如文本分类)表现良好。
- 缺点:
- 特征独立性假设过强,现实中难以满足。
- 无法学习特征之间的复杂关系(如组合特征的重要性)。
生成式 vs 判别式的直观理解
- 生成式:像“画家”,先学习数据是如何生成的(( P(X, Y) )),再分类。
- 判别式:像“裁判”,直接学习如何区分类别(( P(Y \mid X) ))。
朴素贝叶斯是生成式模型的经典代表,而逻辑回归(虽然名字含“回归”)是判别式模型的典型例子。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Min的博客!
评论