神经网络基础函数汇总

2021-01-17

Word count: 1.9k | Reading time≈ 8 min

前言：该博客的内容主要是三大部分：激活函数、损失函数、评价函数。笔者主要是为了提供后面方便查阅和选择适当函数撰写，所以数学成分和工程思想成分都会相应部分得较重😘

在神经网络中，训练模型时需要计算损失函数来进行模型优化（对损失函数的梯度下降迭代来生成模型）；在测试（训练后）模型时，在模型对测试集推导后得到的结果，通过计算评价函数来评估模型的效果。

激活函数及导数

ReLU（Rectified Linear Unit）:修正线性单元

$$
ReLU(x) = \begin{cases}
x, & x>0 \\
0, & other
\end{cases}
\\
\frac{\partial ReLU(x)}{\partial x} = \begin{cases}
1, & x>0 \\
0, & other
\end{cases}
$$

Leeky ReLU

在负半轴修正为一个具有非常非常小斜率的线性

$$
a(x) = \begin{cases}
x, & x>0 \\
\alpha\cdot x, & x \le 0
\end{cases}
\\
\frac{\partial a(x)}{\partial x} =\begin{cases}
1, & x>0 \\
\alpha, & x \le 0
\end{cases}
$$

Sigmoid
- 将输出（映射）限制在0~1之间
- 在函数两端带来梯度消失问题

$$
\sigma(x) = \frac{1}{1+e^{-x}}
\\
\frac{\partial \sigma(x)}{\partial x} =\sigma(x)[1-\sigma(x)]
$$

Softmax
- 多分类问题中，在最后一层输出使用
- 输出结果表示该类的概率，层的所有输出加起来为1
  $$
  y_i = S(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{C}e^{x_j}}
  $$
  在反向传播时，对该式求导（过程）为：
  $$
  \frac{\partial y_i}{\partial x_k} = \begin{cases}
  \frac{ [e^{x_k}\cdot \sum_{j=i}^{C}e^{x_j} ] - [ e^{x_k} \cdot e^{x_k} ]}{[\sum_{j=1}^{C}e^{x_j}]^2}, i=k
  \\
  \frac{ - [ e^{x_i} \cdot e^{x_k} ]}{[\sum_{j=1}^{C}e^{x_j}]^2}, i \neq k
  \end{cases}
  \\ = \begin{cases}
  y_k(1-y_k), i=k
  \\
  -y_i y_k, i \neq k
  \end{cases}
  $$
  在工程实际使用中，一般采用矩阵形式运算：
  $$
  S(X) = \frac{e^{X}}{\sum e^{X}}
  $$
tanh
- 将输出（映射）限制在-1~1之间
- 在函数两端带来梯度消失问题

$$
\tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
\\
\frac{\partial \tanh(x)}{\partial x} = 1-\tanh^2(x)
$$

Swish
- Swish无上界有下界(和ReLU一样)
- Swish是平滑且非单调(与ReLU不同)

$$
S(x) = x\cdot \sigma(x) = \frac{x}{1+e^{-x}}
\\
S’(x) = S(x)+\sigma(x)\cdot(1-S(x))
$$

Mish
- 无上界，有下界
- 非单调
- 无穷连续性和光滑性
- 计算量较大，但是效果好(深度网络)。YOLO中被使用

$$
M(x) = x\cdot \tanh(\ln(1+e^x))
$$

损失函数

$$
J(w,b) = \frac{1}{m}\sum^m_{i=1}L(\hat{y}^{(i)},y^{(i)})
$$

MSE（Mean Squared Error0L2）:均方误差函数

$$
MSE = \frac{1}{m} \sum^m_{i=1} (y- \hat y)^2
$$

RMSE（Root Mean Square Error）:均方根误差

$$
RMSE = \sqrt{\frac{1}{m} \sum^m_{i=1} (y- \hat y)^2}
$$

MAE（Mean Absolute Error-L1）:平均绝对误差

$$
MAE = \frac{1}{m} \sum^m_{i=1} |y- \hat y|
$$

Exponential Loss：指数损失函数

$$
L(Y,f(X)) = \frac{1}{m}\sum^m_{i=1}\exp(-y_i \cdot f(x_i))
$$

Log-likelihood Loss：①对数似然损失函数；②交叉熵损失函数
- BCE（Binary Cross Entropy）:二元交叉熵
- CCE（Complement Cross Entropy）：互补交叉熵
- SCCE：稀疏多分类交叉熵
Huber

Huber

$$
L_\delta(y,f(x)) = \begin{cases}
\frac{1}{2}(y-f(x))^2 &,|y-f(x)| \le\delta
\\
\delta|y-f(x)| - \frac{1}{2}\delta^2 &,other
\end{cases}
$$

Huber

让我们来分析一下Huber函数的数学本质和优缺点。

从表达式上可见，Huber函数在估计量偏移样本量小的时候，本质上是平方损失函数；而当偏移大的时候，本质上是绝对误差。也就是说Huber是对MSE和MAE的融合

接下来从实际效果上思考Huber的优缺点。首先我们要分析一下MAE和MSE：考虑平方误差函数，当有一个样本的误差（大于1）较大的时候，这个误差会被严重放大，并且如果这是一个异常值，那么模型就会对这单个值作出谦让、调整（或称为适应），这就需要更多的正常值样本来平衡；再考虑绝对误差，对绝对值函数求导可知道MAE对小误差和大误差的导数是一样的，那么当一些误差发生小的偏移时（这种误差是可以被接受的，可以理解为噪声），模型应该作出轻微的调整而不是和大误差一样。所以这时候就可见Huber函数的优点啦！😜由于融合了小偏差时MSE的稳定性和大偏差时MAE的鲁棒性，使得Huber具有更加优秀的性能

Log-likelihood Loss

该损失函数一般用于分类器损失计算和评价

$$
L(Y,P(Y|X)) = - \log P(Y|X) = -\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^M y_{ij} \log p_{ij}
$$

上式中符号意义为：

输入样本X，样本量为N
输出样本Y，样本可能的值有M种
真实类别判别指标（注意是二值的）
$$
y_{ij}
$$
输入i分类器输出属于j可能的概率
$$
p_{ij}
$$

这个玩意之所以还有个名字叫交叉熵损失，是因为和信息论中的信息熵数学表达式十分相似

BCE二元交叉熵函数

当分类器输出只有两种情况时（M=2），上式退化为二元交叉熵函数，如下式：

$$
L = - \frac{1}{N} \sum^N_{i = 1} (\hat {y_i} \log \hat{y_i} + (1-\hat{y_i}) \log(1-\hat{y_i}))
$$

显然，该式还可以继续退化：

此时称为：categorical_crossentropy

$$
\because \hat y_i = [0,1]
\\ \therefore
L = -\frac{1}{N}\sum^N_{i=1} \hat{y_i}\log \hat{y_i}
$$

评价函数

MAE、MSE、RMSE
MAPE（Mean Absolute Percentage Error）：平均绝对百分比误差

$$
MAPE = \frac{1}{N} \sum^N_{i=1} | \frac{\hat{y_i} - y_i}{y_i} | \cdot 100%
$$

BUG☢真实值同时为零时，分母为0！

SMAPE（Symmetric Mean Absolute Percentage Error）：对称平均绝对百分比误差

$$
SMAPE = \frac{1}{N} \sum^N_{i=1} | \frac{\hat{y_i} - y_i}{(|\hat{y_i}|+|y_i|) /2 } | \cdot 100%
$$

BUG☢推测值和真实值同时为零时，分母为0！

R Squared：决定系数
Confusion Matrix：混淆矩阵
- 准确率
- 精确率
- 召回率

R Squared

最好的衡量线性回归法的指标

$$
R^2 = 1- \frac{\sum^n_{i=1}|\hat{y_i} - y_i |^2 }{\sum^n_{i=1}|\overline{y_i} - y_i |^2}
$$

上式中的分母部分，可以理解为一个模型（基准模型）：

$$
|\overline{y_i} - y_i |^2
$$

该指标取值范围为[0,1]；如果小于0，则代表你的模型预测结果还不如基准模型

Confusion Matrix

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。此处给出的数学表示基于二分类

	预测正例	预测反例
真实正例	TP(真正)	FN(假反)
真实假例	FP(假正)	TN(真反)

准确率（Accuracy）：被预测对的样本，但是样本不平衡时效果差

$$
A = \frac{TP+TN}{TP+FP+TN+FN}
$$

精准率（Precision）：预测为正的样本多少为对的

$$
P = \frac{TP}{TP+FP}
$$

召回率（Recall）：实际正样本中多少预测对了

$$
R = \frac{TP}{TP+FN}
$$

神经网络原理简摘

考虑一个最简单的浅层全连接神经网络，那么需要训练的模型参数就是神经元中的权重和偏置，采用（对损失函数）梯度下降的方法：

$$
w := w-\alpha\cdot\frac{\partial J(w,b)}{\partial w}
\\
b := b-\alpha\cdot\frac{\partial J(w,b)}{\partial b}
$$

Donate

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.