激活函数与损失函数.docx

资源ID：794076 资源大小：69.88KB 全文页数：4页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

激活函数与损失函数.docx

激活函数与损失函数激活函数激活函数(ACtiVationFUnCtiOn)一般为非线性函数。在神经网络中，仅仅依靠权重之间线性关系很难学习和理解复杂的模型，为此，引入ACtiVationFimCtion可以提升模型的'Nonlinear'表达能力,只有加入ACtiVationFUnCtion,模型才有"Nonlinear,映射学习能力O常用的ActivationFunction有SigmoidFunctionTanhFunction和ReluFUnCtiono3.3.1 SigmOid激活函数SigmoidFunction是使用最多的ActivationFunction,它具有是指数函数的性质。SigmOidFUnCtion的值域与概率值范围相同为(0,1),此就可以和概率分布结合在一起研究学习。另一方面，近三十年里的神经网络难以有有效的进展也是和SigmoidFunction的性质有关,这种性质是SigmoidFunction是平滑饱和ActivationFunctiono平滑饱和ActivationFunction就是因为当X趋于-8时，它的导数值会逼近于0,这会引起GradientDisappearedoGradientDisappeared是指SigmoidFunction在向下传递的梯度里有k(s)k(s)因子，k<s)k(s)会在输入落入饱和区时趋近于0,使得向底层传递的梯度变小，通常五层之内就会出现这种情况。图3-2sigmoid函数曲线3.3.2 Tanh激活函数TanhFunction的值域为(1,-1),与SigmoidFunction幅度增大后相似。TanhFunction的导数的取值范围在(0,1),而SigmoidFunction导数值域为(0,0.25),所以TanhFUnCtiOn在一定程度上能够防止梯度消失的情况发生。并且它的输出和输入的关系不管是上升还是下降都是非线性的单调的，和BP网络的梯度求解是相匹配的。TanhFunction在原点附近与比例系数为1的正比例函数相似，所以在激活值较小的时候为了使训练更简便可以直接运用矩阵运算。tanh(x)图3-3tanh函数曲线3.3.3 RelU激活函数ReIuFUnCtiOn在代数学中称为斜坡函数：当X小于。时，y为0；X大于0时，y等于X的值。在神经网络中，ReluFunction激活部分神经元。它将上一层神经网络传递来的输入向量X转化为max(0,WTx+b)输出到下一层神经网络。ReluFunction相比于SigmoidFunction的优点在于：ReluFunction的导数在X大于0时，导数为定值，所以不会发生梯度消失的情况；在X小于0时，导数为0,神经元激活值在负半区，梯度为0,那么便不会训练这个神经元，这种特性称之为稀疏性。根据有关大脑方面的研究，大脑中的神经元在同一时间仅有1%4%处于工作状态。在使用RelU激活函数的网络中，通常只有50%左右的神经元被激活。但RelU函数很脆弱，如果Rekl的神经元要经过一个较大的梯度会使这个神经元无法再被其他数据点再一次被激活并且经过这个神经元的梯度都会变为0,使得数据会有所丢失。损失函数损失函数是用来评估神经网络模型的Predictivevalue与Turevalue的差距的函数。选择合适的损失函数能使模型发挥最大的学习效率，在模型学习的过程中有着指导的重要作用。损失函数的值越小则模型的鲁棒性越好。3.4.1 MSE均方误差均方误差是计算Predictivevalue与Turevalue之间差的平均值心。其公式如下：MSE=松£小一/()2(3.5)3.4.2 RMSE均方根误差均方根误差是计算Predictivevalue与Turevalue之间差的平均值开方心网。其公式如下：RMSE=sqrt1(yi-/(x1)2)(3.6)3.4.3 MAE平均绝对误差平均绝对误差是计算Predictivevalue与Turevalue之间绝对误差的平均值ng。】。其公式如下：MAE=0工|%-勺)|(3.7)应用梯度下降法时，MSE损失的梯度为-无、MAE损失的梯度为±1,所以MSE的梯度会一直变化,而MAE的总是1,这对于模型学习来说是没有好处的。解决方法是随时调整学习率。因此MSE使用得更广泛就是因为损失函数的梯度不同使得很多时候MSE比MAE收敛得快一些。图3-5MSE和MAE曲线对比从上面的两幅图可以看出：MSE的损失与误差的关系是平方关系，MAE的损失与误差之间是线性关系。虽然在误差小于1时MAE的损失会比MSE小，但当误差越来越大时,MAE的损失会比MSE小很多。再由下面两幅图对比可知:假设误差为拉普拉斯分布的MAE比以高斯分布的MSE的鲁棒性更好。图3-6MSE和MAE误差分布对比梯度下降算法梯度下降的方法是没有其他条件下最普遍的用法。在迭代的每一步根据特定的方向更新X的值来求出f（X）的最小值，这个方向就是使函数值下降得最快的方向。所以使用这种方法时首先要求出f（X）的梯度。计算过程如下：假设需拟合的函数为力（6）,为参数的个数，”为训练集的大小，/表示损失函数。K）=jXj（3.8）39）将j（）对。求偏导，得到对应的梯度：鬻=-巴（V犯8）引0.10）再根据每个梯度负方向来确定。的值：j=+九。（N）引（3.11）BP神经网络与一般神经网络不同的是，该网络具有反向传播算法，该方法是训练方法，通过对比实际输出和预测值之间误差的导数来调整阈值，从而完成学习的过程。其算法流程为：（1）初始化网络参数，一般设阈值和权值为在0附近很小的数；（2）设置HiddenLayer神经元个数，选择合适的ActivationFunction；（3）计算InputLayer到HiddenLayer,HiddenLayer到OutputLayer各个神经元的输出；（4）计算神经网络PrediCtiVeValUe与TiIreVaIUe的误差，判断误差是否小于设定值；（5）若误差小于设定值，则退出训练过程，神经网络训练完成；（6）若误差大于设定值，则通过公式（3.10）来计算各个单元的梯度值,修正神经网络的权值，返回第（3）步。

注意事项

本文（激活函数与损失函数.docx）为本站会员（p**）主动上传，第壹文秘仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第壹文秘（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。