DL
[[BatchNorm]][[Transformer 模型中,主要使用Layer Normalization!!!]][[深度学习中特征缩放(Feature Scaling)通常是必需的]](B, C, H, W)
[[NLP]][[CV]]
[[BN有助于减轻过拟合]]
ETL、数据模型、OLAPOLTP(事务处理)OLAP(Online Analytical Processing) 在线分析处理数据模型是数据仓库中数据的组织方式,定义数据之间的关系和结构,确保高效存储和查询。常见模型类型:星型模型(Star Schema):由1个事实表(存储业务指标,如销售订单)和多个维度表(描述性属性,如时间、产品、客户)组成。示例:事实表(销售金额、数量) + 维度表(产品名称、客户地区)。雪花模型(Snowflake Schema):维度表进一步规范化(如“地区”维度拆分为“国家-省-市”),减少冗余但查询复杂度高。宽表模型(Flat Table):将所有字段合并到一张大表中(适合简单分析,但冗余大)。
采样方法
随机抽样一致算法(RANSAC)是一种迭代方法,用于从包含大量外点的数据中估计数学模型的参数。其基本思想是:
随机从数据中抽取一个最小样本集(通常是拟合模型所需的最小数据点数,例如直线拟合需要2个点)。
用这个样本集拟合一个模型。
计算其他数据点与该模型的拟合程度(例如,计算点到直线的距离),并根据预设的阈值将数据点分为内群和外群。
统计内群的数量(即支持该模型的数据点数)。
重复上述过程多次,选择内群数量最多的模型作为最佳模型。
最后,用所有的内群重新拟合模型(可选步骤,以提高精度)。
内点=内群,外点=离群点RANSAC希望离群点离inliers集中区域的差距大
传统图像处理
传统图像处理(Traditional Image Processing)是指基于数学和信号处理的方法对图像进行分析、增强和特征提取的技术,不依赖于深度学习或神经网络。它主要包括以下几个核心内容:
1. 图像预处理(Preprocessing)目的是改善图像质量,便于后续处理:- 灰度化:将彩色图像转为灰度图像(如RGB转灰度)。- 平滑/去噪:- 均值滤波:用邻域平均值平滑图像。- 高斯滤波:加权平均,保留边缘更好。- 中值滤波:去除椒盐噪声。- 锐化:突出边缘(如使用拉普拉斯算子或非锐化掩模)。- 直方图均衡化:增强对比度。2. 边缘检测(Edge Detection)提取图像中的边缘信息:- 一阶微分算子:- Sobel:检测水平和垂直边缘。- 二阶微分算子:- Laplacian:对噪声敏感,但能检测更细的边缘。- Canny边缘检测(经典方法):包括高斯滤波→梯度计算→非极大值抑制→双阈值检测。3. 特征提取(Feature Extraction)从图像中提取有意义的特征:
角点检测:
Harris角点检测:通过局部窗口灰度变化识别角点。
FAST:快速角点检测( ...
卷积
卷积类型
操作特点
是否同通道操作
标准2D卷积
核分量在对应通道卷积 ➜ 跨通道求和
✅ 同通道操作
Depthwise卷积
每个输入通道独立卷积 ➜ 无求和
✅ 严格同通道
Pointwise卷积
1×1卷积 ➜ 纯跨通道线性组合
❌ 跨通道操作
朴素贝叶斯算法NB
朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类算法,因其高效性和良好的表现,广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。尽管其”朴素”假设(特征条件独立)在现实中往往不成立,但实际效果却常常出乎意料地好。
核心思想
贝叶斯定理:$$
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
$$
(Y):类别(如垃圾邮件/非垃圾邮件)。
(X):特征向量(如文本中的单词)。
目标是通过已知的 (P(X|Y)) 和 (P(Y)) 计算后验概率 (P(Y|X))。
“朴素”假设:假设所有特征在给定类别下条件独立,即:$P(X_1, X_2, \dots, X_n|Y) = \prod_{i=1}^n P(X_i|Y)$这使得联合概率的计算简化为各特征概率的乘积。
算法步骤
计算先验概率:
估计每个类别的概率 (P(Y))(如垃圾邮件的占比)。
计算似然概率:
对每个特征 (X_i),计算其在每个类别下的条件概率$P(X_i|Y)$(如”免费”在垃圾邮件中出现的概率)。
...
深度图像处理
[[特征图]][[计算感受野大小]]
深度学习中特征缩放(Feature Scaling)通常是必需的
在深度学习中,特征缩放(Feature Scaling)通常是必需的,尤其是在使用梯度下降优化的模型中。其核心原因在于:特征尺度差异会显著影响训练效率和模型性能。以下是具体分析:
为什么需要特征缩放?
加速梯度下降收敛
特征尺度差异大时,损失函数的等高线呈“狭长山谷”状(如图)。
梯度下降会沿陡峭方向震荡,收敛缓慢;缩放后等高线更接近圆形,优化路径更直接。![梯度下降路径对比]
防止数值溢出/下溢
大尺度特征可能导致梯度爆炸(如Sigmoid输出接近0时梯度极小)或激活值超出浮点范围。
正则化权重公平性
L1/L2正则化对所有权重施加相同惩罚。若特征A范围[0,1]、特征B范围[0,1000],模型会更关注B的权重调整,导致不公平惩罚。
提升模型精度(部分场景)
对距离敏感的算法(如聚类、KNN)或对权重敏感的模型(如逻辑回归),缩放可避免大尺度特征主导结果。
不需要缩放的特例
场景
原因
决策树/随机森林
基于特征阈值分裂,不受尺度影响
图像/音频输入
像素值已在固定范围(如[0,255]),且卷 ...
ANN(近似最近邻搜索)
ANN(Approximate Nearest Neighbor)即近似最近邻搜索,是当前处理大规模高维数据最近邻搜索问题的前沿技术。
核心概念与传统的精确最近邻搜索(Exact Nearest Neighbor)不同:
精确搜索:保证找到绝对最近的邻居(如暴力搜索、KD树在低维时)
近似搜索:以一定的精度损失换取搜索速度的大幅提升如kd树算法[[kd树]],是精确最近邻搜索
为什么需要ANN?
维度灾难:在高维空间(通常d>20)中,传统方法效率急剧下降
KD树等空间划分方法在高维时可能退化为近似暴力搜索
数据规模:现代应用常需处理百万/十亿级数据点
精确搜索的O(n)时间复杂度难以承受
实际需求:许多应用不需要绝对精确的结果
推荐系统、相似图片搜索等场景可以接受近似结果
ANN算法评价指标评估ANN算法常用:
召回率(Recall):返回结果中真正最近邻的比例
查询速度:单次查询耗时
构建时间:索引构建时间
内存占用:索引大小
局部敏感哈希(LSH)
原理:将相似的点映射到相同”桶”的概率更高
优点:适用于高维数据,近似最近邻搜索
缺点:需要调 ...
BN有助于减轻过拟合
是的,Batch Normalization (BN) 确实有助于减轻过拟合,但这不是它的主要设计目标,而是一个有益的”副作用”。以下是详细分析:
BN 如何帮助减轻过拟合?1. 噪声注入的隐式正则化
训练阶段:BN 使用每个小批量(mini-batch)的均值和方差进行归一化: x^=x−μbatchσbatchx^=σbatchx−μbatch
噪声来源:每个批次的 μbatchμbatch 和 σbatchσbatch 都是随机采样的结果(受批次样本分布影响)。
正则化效果:
相当于为每层输入添加了依赖数据的随机噪声
类似 Dropout 的作用,迫使模型学习更鲁棒的特征
_实验证明_:移除 BN 后模型过拟合明显加剧(尤其在数据少时)
2. 改善梯度传播
解决内部协变量偏移:BN 稳定了中间层的输入分布
间接正则化:
允许使用更高学习率(加速收敛,减少陷入局部极小点的风险)
缓解梯度消失/爆炸,使深层网络更容易训练
模型更易收敛到平坦极小点(泛化性更好)