
50
传感器与微系统(Transducer and Microsystem Technologies)
2018年第37卷第2期
DOI:10.13873/J.10009787 (2018)02005003
ReLU激活函数优化研究
蒋昂波,王维维
(浙江大学超大规模集成电路设计研究所,浙江杭州310027)
摘要:门控循环单元(GRU)是一种改进型的长短期记忆模型(LSTM)结构,有效改善了LSTM训练耗时的缺点。在GRU的基础上,对激活函数sigmoid,tanh,ReLU等性能进行了比较和研究,详细分析了几类激活函数的优缺点,提出了一种新的激活函数双曲正切线性单元(TLU)。实验证明:新的激活函数既能显者地加快深度神经网络的训练速度,又有效降低训练误差,
关键词:门控循环单元;神经网络;激活函数;双曲正切线性单元
中图分类号:TP301.6;TN911
文献标识码:A
文章编号:1000-9787(2018)02-0050-03
Research on optimization of ReLU activation function*
JIANG Ang-bo, WANG Wei-wei
(Institute of Very Large Scale Integrated Circuit Design, Zhejiang University,Hangzhou 310027, China) Abstract: Gated recurrent unit ( GRU ) is an improved long short tem memory model ( LSTM) architecture, it is effective to improve training time-consuming features of LSTM. Performance of some activation functions such as sigmoid tanh, rectified linear units ( ReLU) are compared and researched on the basis of GRU architecture and analyze their advantages and disadvantages in detail. Propose a novel activation function named tanh linear unit( TLU). The experiment shows that the new activation function can not only speed up training speed of deep neural networks, but also effectively reduce training error.
Keywords: gated recurrent unit( GRU) ; neutral network ; activation functions ; tanh linear unit( TLU)
0引言
长短期记忆模型[1」(longshorttermmemory,LSTM)作为递归神经网络(recursiveneural network,RNN)非常重要的一个改进,能够有效记忆和利用历史信息,已经在文本分析、语音识别、图像处理等众多领域得到了成功应用,极大促进了深度学习领域的发展。但其结构的复杂性导致训练模型的过程比较耗时。本文采用ChoK在2014年提出的门控循环单元(2(gatedrecurrentunit,GRU)结构,是一种在结构上改动比较大的LSTM变体,其将LSTM结构中的遗忘门(forgetgate)和输人门(inputgate)合并成一个更新门(updategate),使得深度神经网络在运算的候少了很多矩阵乘法,从而改善了LSTM训练耗时的缺点,在数据量很大的情况下,GRU能节省更多的时间。
激活函数是GRU等深度神经网络结构的核心所在,目前常见的激活函数包括sigmoid[3]系的sigmoid和tanh函数,ReLU系的ReLU[4],LReLU函数等。但sigmoid系的函数在后向传递的过程中出现了梯度消失[3」(gradientvani-
shing)问题,极大地降低了训练速度。收稿日期:201701-09
ReLU函数能够有效缓解梯度消失问题,其以监督的方式训练深度神经网络,无需依赖无监督的逐层预训练,显著提升了深度神经网络的性能。KrizhevskyA["]等人对常用的激活函数ReLU,sigmoid和tanh函数进行了测试,证明了 ReLU函数的性能优于sigmoid系函数。
但ReLU也存在着致命的缺点。首先,ReLU函数的输出大于0,使得输出不是0均值,即均值偏移[")(biasshift),易导致后一层的神经元得到上一层输出的非0均值的信号作为输入,使得网络参数W计算困难。其次,随着训练的推进,部分输人会落入ReLU函数的硬饱和区,导致对应权重无法更新。均值偏移和神经元死亡共同影响了深度神经网络的收敛性和收敛速度。
本文在GRU结构上对sigmoid系的激活函数和ReLU 系的激活函数进行了对比和研究,详细分析了两类激活函数存在的优缺点,并在此基础上设计了一种新的激活函数双曲正切线性单元(tanhlinearunit,TLU),其综合了sigmoid 系和ReLU系函数的优点,既能有效缓解梯度消失问题,也有效地避免了均值偏移现象。实验证明:这种新的函数在提
*基金项目:国家"863"计划资助项目(2012AA041701);浙江省教育厅资助项目(Y201010035)