OFDM同步算法中的最大似然函数法
OFDM同步算法中的最大似然函数法OFDM同步算法中的最大似然函数法AbstractTitle: RESEARCH ON SYNCHRONIZATION ALGORITHMS IN OFDMSYSTEMMajor: COMMUNICATION AND INFORMATION SYSTEMNameYao xuSignature:_140AuSupervisor: Prof Lin WANGSignature:/-abstractOrthogonal Frequency Division Multiplexing(OFDM)is the key technique of the fourthgeneration mobile communication. The advantage of ofDM is to resist of the multi-pathchannel. OFDM improves the utilization efficiency of the spectrum. It enhances the capacity ofthe system and meets the request of the high speed of data transmission and users movementfor the next generation mobile communicationOFDM is more sensitive to the frequency offset and the phase noise than the single carriecommunication system, since the frequency offset will break the orthogonality of thesub-carriers, introduce the interference of the sub-carriers, and bring great influence to thesystem performance. Synchronization is one of the key techniques of the OFDM. This paperchiefly studies the synchronization of OFDM, and includes the algorithm and actualization.In this thesis, the OFDM model and its principle are introduced firstly in brief, thencuss strengthens and weakens of oFDM system, further more is the synchronization issuesespecially focuses on synchronization issues: Analysis the effects of demodulation performance,including frequency offset and timing offset, and in-depth research on symbol timingsynchronization and frequency synchronization of OFDM system. a lot of computersimulations are given over awgn and frequency selective fading channels. We analyze andmpare the performance of a few synchronization methods, including their applying areas,merits and shortcomings. Furthermore, the article proposes an improved ofdm timingsynchronization algorithm and frequency synchronization algorithm. the improved algorithmcould find the exactly timing point and frequency offset by the character of correlation, thesimulations show that this algorithm has an obviously peak at exact point and significantlyreduces the mean square error of timing estimate. Using the result of timing and resetcoefficient to calculate frequency offset. Simulations show that improved frequency algorithmcould reach smaller mseKey words: OFDM; Symbol synchronization; Carrier frequency synchronization; PN sequence;Cyclic prefix独创性声明秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的成果。尽我所知,除特别加以标注和致谢的地方外,论文中不包含其他人的研究成果。与我一同工作的同志对本文所研究的工作和成果的任何贡献均已在论文中作了明确的说明并已致谢本论文及其相关资料若有不实之处,由本人承担一切相关责任论文作者签名:络说y年月忍日学位论文使用授权声明本人说,在导师的指导下创作完成毕业论文。本人已通过论文的答辩,并已经在西安理工大学申请博士/硕士学位本人作为学位论文著作权拥有者,同意授权西安理工大学拥有学位论文的部分使用权,即:1)已获学位的研究生按学校规定提交印刷版和电子版学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索;2)为教学和科研目的,学校可以将公开的学位论文或解密后的学位论文作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。本人学位论文全部或部分内容的公布(包括刊登)授权西安理工大学研究生部办理保密的学位论文在解密后,适用本授权说明论文作者签名受。导师签名以xB年3月日1绪论1绪论随着 Intermet商用化所带动的视频、音频及数字通信技术的发展,无线通信也得到了进一步的重视和发展。在任何地点,任何时间能够方便地进行话音、数据、图像、视频等各种信息的通信是人类的美好愿望。为此,在过去的十多年中,向第三代无线标准发展的全球性浪潮使各个厂商纷纷参与了新技术的标准化工作。然而,信息产业在新一代技术推动通信系统所带来的优质服务的同时,第四代移动通信系统的最新技术也在不断的研究中,并开始向市场进军。随着人们需求的不断增高,多媒体和计算机通信在当今社会扮演着日益重要的角色,对通信系统的发展不断提出新的要求和挑战。世界各国目前都已把研发的焦点聚集到了“无线宽带多媒体通信系统( WBMCS”上来,以欧洲地面数字电视广播(DB-T)、无线本地环路(WLAN,WMAX和超宽带(UWB等为代表的新的通信理念及技术已逐步走入商用化阶段,进一步推动了信息化社会的发展11课题研究背景现代无线通信技术的发展始于20世纪20年代,但直到20世纪70年代中期,才得到蓬勃发展。1978年底,美国贝尔实验室研制成功AMPS( Advanced mobile Phone System,先进移动电话系统)系统,建成了蜂窝模拟无线通信网。欧洲和日本也相继开发出模拟的蜂窝移动通信网。这阶段诞生的模拟移动通信统称为第一代移动通信系统,简称1G(the1 st Generation)。1G系统采用频分多址(FDMA和模拟技术,在发展初期得到较为广泛的应用,它的缺点是容量小、频谱利用率低、抗干扰能力差、系统保密性差,仅达到模拟话音一般质量的要求,不能满足日益增长的用户的需求。从20世纪80年代中期开始,数字移动通信系统进入发展和成熟时期。欧洲率先推出了GSM( Global System for the Mobilecommunications,全球移动通信系统),随后美国和日本也相继推出了各自的数字移动通信系统。20世纪90年代初,美国 Qualcomm(高通)公司推出了窄带的 CDMA(Code DivisionMultiple Access,码分多址蜂窝移动通信系统),从此,CDMA这种新的无线接入技术在无线通信领域占有越来越位。这些目前正在广泛使用的数字无线通信系统被称为第二代移动通信系统,简称2Gthe2 nd generation)。2G系统以GSM系统和IS95系统为代表,达到了高质量的话音通信要求,传输速率为96kbps。被视为二代到三代过渡技术的GPRS( General Packet Radio System)和EDGE( Enhanced Data Rate for Evolution等系统增强了分组数据业务的传输能力,将最大传输速率分别提高到160kbps,384kbps。既提供了话音通信服务,又提供了无线数据通信业务。随着人们对通信业务的范围和速率的不断提高,已有的2G通信网很难满足新的业务需求。为了适应市场的需求,业界开始研制第三代移动通信系统3G(he3 rd generation)。3G系统要支持视频、互联网接入及其它更高速西安理工大学硕士学位论文率的业务,它以CDMA技术为核心,其最大传输速率为2Mbps,可在话音业务基础上提供互动多媒体业务,如多媒体视频会议、国际互联网接入、文件传输和电子邮件等多种业务。随着移动通信和数据通信的飞速发展,移动用户对业务种类和通信速率的要求不断增加,未来移动通信将朝着高速率传输、多业务种类的方向发展。第四代移动通信系统计划以OFDM( Orthogonal Frequency Division Multiplexing,正交频分复用)为核心技术提供增值服务,它在宽带领域的应用具有很大的潜力。较之第三代移动通信系统,采用多种新技术的OFDM具有更高的频谱利用率和良好的抗多径干扰能力,它不仅仅可以增加系统容量,更重要的是它能更好地满足多媒体通信要求,将包括语音、数据、影像等大量信息的多媒体业务通过宽频信道高品质地传送出去,作为一种高效的并行传输技术,OFDM将高速数据流并行在多个子载波上传输,大大增长了符号周期,增强了抗码间干扰和信道衰落的能力,适用于恶劣的无线多径衰落信道中,从而被认为是下一代移动通信中极具发展前景的技术之一。12OFDM技术的发展与前景OFDM是一种无线环境下的多载波调制技术。该技术最早起源于20世纪50年代中期,并在60年代形成了使用并行数据传输和频分复用的概念,1970年1月首次公开发表了有关OFDM的专利,其基本思想通过采用允许子信道频谱重叠,但相互间又不影响的频分复用方法来并行传送数据。OFDM技术的第一个实际应用是军用无线高频通信链路。在早期的OFDM系统中,发射机和相关接收机所需的副载波阵列是由正弦信号发生器产生的,傅立叶变换的实现系统复杂且昂贵。1971年 Weinstein和Ebet提出了使用离散傅立叶变换实现OFDM系统中的全部调制和解调功能的建议,简化了振荡器阵列及相关接收机中本地载波之间严格同步的问题,为实现OFDM的全数字化方案作了理论上的准备80年代以后,OFDM的调制技术再一次成为研究热点。例如在有线信道的研究中,Hirosaki于1981年用DFT完成的OFDM调制技术,试验成功了16QAM多路并行传送192 kbit/s的电话线 MODEM。1984年, Cimini提出了一种适于无线信道传送数据的OFDM方案3。其特点是调制波的码型是方波,并在码元之间插入了保护间隙,该方案可以避免多径传播引起的码间千扰。进入90年代以后,OFDM的应用研究又涉及到了利用移动调频(FM)和单边带(SSB)信道进行高速数据通信、陆地移动通信、高速数字用户环路HDSL),非对称数字用户环路(ADSL)超高速数字用户环路( VHDSL)、数字音频广播(DAB)及高清晰度数字电视(HDTV和陆地广播等各种通信系统因此,这种多载波传输技术在双向无线数据方面的实际应用是近十年来的趋势。经过多年的发展,该技术在广播式的音频和视频领域已得到广泛的应用。主要的应用包括:非对称的数字用户环路(ADSL),ETSI标准的音频广播(DAB),数字视频广播(DVB等。1999年TEEE80211a通过了一个5GHz的无线局域网标准,其中OFDM调制技术被采用为它1绪论的物理层标准。欧洲电信标准协会ETST的宽带射频接入网(BRAN的局域网标准也把OFDM定为它的调制标准技术。1999年12月,包括 Ericsson, Nokia和WLAN在内的7家公司发起了国际OFDM论坛,致力于策划一个基于OFDM技术的全球统一标准。我国的信息产业部也经参加了OFDM论坛,可见OFDM在无线通信的应用己引起了国内通信界的重视。2000年11月,OFDM论坛的固定无线接入工作组向IEEE802163的无线城域网委员会提交了一份建议书,提议采用OFDM技术作为上IEE802163城域网的物理层标准。随着IEE80211a和 BRANHyperlan/2两个标准在局域网的普及应用,OFDM技术将会进一步在无线数据本地环路的广域网做出重大贡献综上所述,随着人们对通信数据化、宽带化、个人化和移动化的需求,OFDM技术在综合无线接入领域将越来越得到广泛的应用。随着DSP芯片技术的发展,傅立叶变换/反变换、64/128/256QAM的高速 Modem技术、网格编码技术、软判决技术、信道自适应技术、插入保护间隔、减少均衡计算量等成熟技术的逐步引用,人们己经开始集中精力开发OFDM技术在移动通信领域的应用。13本文的主要工作及内容安排论文的研究方向是OFDM系统的同步算法分析。论文在分析OFDM系统的关键技术和优缺点的基础上,提出了改进的定时同步和频率偏移佔计的研究方法,同时进行了模拟仿真和性能分析测试本论文的内容主要分为以下几部分第一章简要介绍了正交频分复用技术的研究背景,OFDM的起源、发展和前景,及其当前在国内外的发展状况。第二章分析OFDM的基本原理和数学模型、数据的串并变换、子载波的调制以及DFT在OFDM调制解调中的应用,对其关键技术进行了阐述,并同其他传输方式进行了分析比较。第三章讨论OFDM的系统原理。根据系统模型对OFDM系统中载波同步和符号定时同步的基本原理进行了分析。第四章基于前一章的分析,介绍了几种常用的定时同步算法:包括基于循环前缀的最大似然同步算法、基于训练序列的定时同步算法,最后作者介绍了本文的改进定时同步算法并通过 MATLAB仿真验证。第五章介绍了几种经典的频率同步算法:基于循环前缀的载波频率同步算法、 Moose的频率同步算法、基于训练序列的频率同步算法和本文改进的频率同步算法,也分别通过仿真进行验证最后一章对全文进行了总结,陈述了本论文所涉及工作的主要贡献,并指出了继续进行的相关研究工作和未来可能的研究方向。西安理工大学硕士学位论文2OFDM系统基本原理和同步性能分析21OFDM系统的基本原理经过40多年的发展,OFDM技术因其独特的优势获得了广泛的应用,而且正在赢得越来越多的关注。它的基本原理就是将总的信道带宽分成多个带宽相等的子信道,每个子信道上单独通过各自的子载波调制各自的信息符号并且各符号具有相同的符号间隔。当相邻子信道载波间隔等于有用符号间隔的倒数时,各个子信道间频谱相互重叠且相互正交21.1OFDM系统的基本模型OFDM是一种并行数据传输系统,它将高速串行数据经过串/并变换形成多路低速数据分别对多个子载波进行调制,叠加之后构成发送信号。在接收端,用同样数量的子载波进行相干解调,获得低速率数据流,经过并/串变换恢复得到高速数据流。在传统的频分复用(FDM)系统中,通过将整个频带划分为若干个不相交的子频带来传输并行的数据流,在接收端用一组滤波器来分离各个子信道。这种方法的频带利用率比较低,因为子信道之间要留有保护频带,而且要实现多个滤波器也有难度。OFDM系统是由大量在频率上等间隔的子载波构成,这些子载波的频谱可以相互重叠,这样就大大提高了频谱的利用效率。由于各个子载波在整个符号周期上是相互正交的,因此虽然各子载波的频谱之间存在重叠,在接收端仍然能够无失真的恢复发送数据。在OFDM系统中,当子载波间的最小间隔等于符号周期倒数的整数倍时,可以满足子载波正交条件。为了实现最大频谱效率,一般取载波最小间隔为符号周期的倒数。当符号由矩形脉冲形成时,每个调制载波的频谱为sinx/x形状,其峰值对应于所有其它子载波频谱中的零点,这样就能保证对每个子信道进行解调时,其它子信道的信号不会对其产生干扰。同时,高速的数据流通过串/并变换被分配到速率相对较低的若干个子信道中并行传输,每个子信道中的符号周期相对增加,可以减轻由于无线信道的多径时延扩展对系统造成的码间干扰(Sn)影响。此外,OFDM中还引入了保护间隔( Guard interva)当保护间隔长度大于最大多径时延扩展时,可以完全消除由于多径带来的码间干扰影响。如果采用循环前缀(CP)作为保护间隔,还可以避免由于多径传播带来的信道间千扰(ICDOFDM的系统模型如图2-1所示,串行数据信息经过编码成为符号率为7的数据符号,然后经过串并转换,形成了N个数据符号向量,表示为S~SM。此时并行数据符号率为∥(NTs),就是说,并行符号的持续时间是串行时间的N倍。数据向量S~SM经过离散傅立叶反变换后得到s~syr如果Snk表示第n个符号,第k个子载波的DFT输出,则上述过程可表示为2OFDM系统基本原理和同步性能分析么keny再经过并串转换,添加时间为T的保护间隔,数模转换,便被送入信道部分。保护间隔的长度应大于信道的最大时延扩展,这样可以消除符号间干扰(S)和多径所造成的载波间干扰CD影响,但同时也将符号的传输效率降为rg/(T+)。这样所有的OFDM符号构成的表达示为:0)、C>,m((+)(22)在接收部分,信道中的OFDM信号经过模数转换,去除保护间隔,然后串并转换,通过N点的离散傅立叶变换DFT),再经过并串转换和相应的解码便得到输出数据。接收端的采样信号为:r(mr)=∑(m)5(m-)+m(m)(23)其中,n(m;)为采样的高斯白噪声。串行数据输入串/并变换编码映射IFFT并/串变换插入循环前缀数模转换信道串行数并据输出」串均衡FFT变换串/并变换去掉循环前缀模数转换图2-10FDM系统的基本模型Fig 2-1 The Basic Model of OFDM system212申并变换数据的串/并变换就是将串行数据流变换成并行数据流同时进行传输。这与传统的串行数据传输形式是不一样的。OFDM在发送端进行IDFT之前必须进行串并转换,其中的目的之一是为了更方便的进行调制,同时由于数据符号传输时间的相应延长,可以减少多径无线信道的影响。当一西安理工大学硕士学位论文个OFDM符号在多径无线信道中传输时,频率选择性衰落会导致某几组子载波受到相当大的衰减,从而引起比特错误。这些在信道频率响应上的零点会造成在临近的子载波上发射的信息受到破坏,导致在每个符号中出现一连串的比特错误。与一大串错误连续出现的情况相比较,大多数前向纠错编码(FEC)在错误分布均匀的情况下会工作的更有效。所以,为了提高系统的性能,大多数系统采用数据加扰作为串并转换上作的一部分。这可以通过把每个连续的数据比特随机地分配到各个子载波上来实现。在接收机端,进行一个对应的逆过程解出信号。这样,不仅可以还原出数据比特原来的顺序,同时还可以分散由于信道衰落引起的连串的比特错误使其在时间上近似均匀分布。这种将比特错误位置的随机化可以提高前向纠错编码(GEC)的性能,并且系统的总的性能也得到改进为了更加清晰的看到OFDM系统的优越性,表2-1列出了单载波和多载波传输方式在符号时间、速率、频率带宽和对IsI敏感度等几个方面的比较。其中,N为子载波个数,T为一个OFDM符号的持续时间。表21单载波和多载波传输方式的比较Table2-1 Comparison of transmission between single carrier and multi-carriers传输方式系统参数单载波多载波符号时间T/NT速率N/T1T总频带带宽2*N/T2*N/+N*05/(假设保护带宽为0.5T)IsI敏感度较敏感较不敏感2.1.3子载波调制OFDM符号是由多个经过调制的子载波信号叠加组成。如果用N表示子信道的个数,T表示OFDM符号的宽度,d1=(i=0,1,…,N-1)是分配给每个子信道的数据符号,」是序号为0的子载波的载波频率,rer()=1,H≤T/2为矩形窗函数,则从r=,开始的OFDM符号可以用下式表示:TRerect f-texp j2 f C+3(,t≤t≤l+T1=0(t)=0tt+T在多数文献中,通常采用复等效基带信号形式来描述OFDM信号,如下所示:
- 2020-12-08下载
- 积分:1
反向传播算法推导—全连接神经网络
反向传播算法是人工神经网络训练时采用的一种通用方法,在现代深度学习中得到了大 规模的应用。全连接神经网络(多层感知器模型,MLP),卷积神经网络(CNN),循环神 经网络(RNN)中都有它的实现版本。算法从多元复合函数求导的链式法则导出,递推的 计算神经网络每一层参数的梯度值。算法名称中的“误差”是指损失函数对神经网络每一层 临时输出值的梯度。反向传播算法从神经网络的输出层开始,利用递推公式根据后一层的误 差计算本层的误差,通过误差计算本层参数的梯度值,然后将差项传播到前一层(w, x,)+b这个神经元接受的输入信号为向量(),向量()为输入向量的组合权重,为徧置项,是标量。神经儿对输入冋量进行加权求和,并加上偏置项最后经过激活函数变换产生输出为表述简洁,我们把公式写成向量和矩阵形式。对每个神经元,它接受的来自前一层神经元的输入为向量,本节点的权重向量为,偏置项为,该神经元的输出值为先计算输入向量与权重向量的内积,加上偏置项,再送入一个函数进行变换,得到输出这个函数称为激活函数,典型的是函数。为什么需要激活函数以及什么样的函数可以充当激活函数,在之前的公众号文章“理解神经网终的激活函数”中已经进行了介绍。神绎网络一般有多个层。第一层为输入层,对应输入向量,神绎元的数量等于特征向量的维数,这个层不对数据进行处理,只是将输入向量送入下一层中进行计算。中间为隐含层,可能有多个。最后是输出层,神经元的数量等于要分类的类别数,输出层的输岀值被用来做分类预测。下面我们来看一个简单神经网络的例了,如下图所示这个网络有层。第一层是输入层,对应的输入向量为,有个神经元,写成分量形式为(),它不对数据做任何处理,直接原样送入下一层。中间层有个神经元,接受的输入数据为向量,输出向量为,写成分量形式为。第三个层为输出层,接受的输入数据为向量,输出向量为,写成分量形式为()。第一层到第层的权重矩阵为(,第二层到第三层的权重矩阵为()。权重矩阵的每一行为一个权重向量,是层所有神经元到本层某一个神经儿的连接权重,这里的上标表小层数如果激活函数选用函数,则第二层神经元的输出值为+(-(+0)+(1+(0)(-(()第三层神经元的输出值为如果把代入上面二式中,可以将输出向量表示成输出向量的函数。通过调整权重矩阵和偏置项可以实现不同的函数映射,因此神经网终就是一个复合函数需要解决的·个核心问题是·旦神经网络的结构(即神经元层数,每层神经元数量)桷定之后,怎样得到权重矩阵和偏置项。这些参数是通过训练得到的,这是本文推导的核心任务个简单的例子首先以前面的层神经网络为例,推导损失函数对神经网络所有参数梯度的计算方法假设训练样本集中有个样本()。其中为输入向量,为标签向量。现在要确定神经网络的映射函数:什么样的函数能很好的解释这批训练栟本?答案是神经网络的预测输出要尽可能的接近样本的标签值,即在训练集上最小化预测误差,如果使用均方误差,则优化的目标为:∑‖()-其中()和都是向量,求和项内部是向量的范数平方,即各个分量的平方和。上面的误差也称为欧氏距离损失函数,除此之外还可以使用其他损失函数,如交叉熵、对比损失等。优化目标函数的自变量是各层的权重矩阵和梯度向量,一般情况下无法保证目标函数是凸函数,因此这不是一个凸优化问题,有陷入局部极小值和鞍点的风险(对于这些概念和问题之前的公众号文章“理解梯度下降法”,“理解凸优化”中己经做了详细介绍)这是神经网络之前一直被诟病的一个问题。可以使用梯度下降法进行求解,使用梯度下降法需要计算出损失函数对所有权重矩阵、偏置向量的梯度值,接下来的关键是这些梯度值的计算。在这里我们先将问题简化,只考虑对单个样本的损失函数()-‖后面如果不加说明,都使用这种单样木的损失函数。如果计算出了对单个样木损失函数的棁度值,对这些梯度值计算均值即可得到整个目标函数的梯度值。和(要被代入到网络的后一层中,是复合函数的内层变量,我们先考虑外层的和。权重矩阵是一个x的矩阵,它的两个行分别为向量(和是个维的列向量,它的两个元素为()和()。网络的输入是向量,第一层映射之后的输出是向量首先计算损失函数对权重矩阵每个元素的偏导数,将欧氏距离损尖函数展开,有((+))(())6(如果,即对权重矩阵第行的元素求导,上式分了中的后半部分对来说是常数。根据链式法则有S()+()O如果,即对矩阵第二行的元素求导,类似的有:可以统一写成可以发现,第一个下标决定了权重矩阵的第行和偏置向量的第个分量,第二个下标决定了向量的第个分量。这可以看成是一个列向量与一个行向量相乘的结果,写成矩阵形式为上式中乘法⊙为向量对应元素相乘,第二个乘法是矩阵乘法。是个维列向量,+也是一个维列向量,两个向量执行⊙运算的结果还是个维列向量。是一个元素的列向量,其转置为维行向量,前面这个:维列向量与的乘积为的矩阵,这正好与矩阵的尺寸相等。在上面的公式中,权重的偏导数在求和项中由部分组成,分别是网络输出值与真实标签值的误差激活区数的导数+(),本层的输入值。神经网络的输出值、激活函数的导数值本层的输入值都可以在正向传播吋得到,因此可以晑效的计算出来。对所有训练样本的偏导数计算均值,可以得到总的偏导数对偏置项的偏导数为:如果上式分子中的后半部分对来说是常数,有:()⊥()如果类似的有这可以统写成:写成矩阵形式为偏置项的导数由两部分组成,分别是神经网络预测值与真实值之间的误差,激活函数的导数值,与权重矩阵的偏导数相比唯一的区别是少了。接下来计算对和的偏导数,由于是复合函数的内层,情况更为复杂。()是个的短阵,它的个行向量为(),(,(,(。偏置项()是维向量,个分量分别是(),(,(),(。首先计算损失函数对的元素的偏导数:而上式分子中的两部分都有,因此都与有关。为了表述简活,我们令:根据链式法则有:其巾((和和都是标量和()是两个()向量的内积,的每一个分量都是()的函数。接下来计算和这里的一是个向量,衣示的每个分量分别对求导。当时有:后面个分量相对于求导变量(都是常数。类似的当时有:()0)(()和时的结果以此类推。综合起来有:同理有:()十如果令合并得到()()[()-)。()。()写成矩阵形式为()最后计算偏置项的偏导数()类似的我们得到:合并后得到()写成矩阵形式为:(0)至此,我得到了这个简单网络对所有参数的偏导数,接下来我们将这种做法推广到更般的情况。从上面的结果可以看岀一个规律,输出层的权重矩阵和偏置向量梯度计算公式中共用了()-)()对」隐含层也有类似的结果完整的算法现在考虑一般的情况。假设有个训练样本(),其中为输入向量,为标签向量。训练的目标是最小化样木标签值与神经网络预测值之闩的误差,如果使用均方误差,则优化的目标为:其中为神经网络所有参数的集合,包括各层的权重和偏置。这个最优化问题是·个不带约束条件的问题,可以用梯度下降法求解。上面的误差函数定义在整个训练样本集上,梯度下降法每一次迭代利用了所有训练样本,称为批量棁度卜降法。如果样木数量很大,每次迭代都用所有样木进计算成木太高。为了解决这个问题,可以采用单样本梯度下降法,我们将上面的损失函数写成对单个样本的损失函数之和:定义对单个样本()的损失函数为)=-()如果采用单个样本进行迭代,梯度下降法第次迭代时参数的更新公式为:nV如果要用所有样本进行迭代,根据单个样本的损失函数梯度计算总损失梯度即可,即所有样本梯度的均值用梯度下降法求解需要初始化优化变量的值。一般初始化为一个随机数,如用正态分布(a)产生这些随机数,其中G是一个很小的正数到日前为止还有一个关键问题没有解决:日标函数是一个多层的复合函数,因为神经网络中每一层都有权重矩阵和偏置向量,且每一层的输出将会作为下一层的输入。因此,直接计算损失函数对所有权重和偏置的梚度很复杂,需要使用复合函数的求导公式进行递推计算几个重要的结论在进行推导之前,我们首先来看下面几种复合函数的求导。又如下线性映射函数:其中是维向量,是×的矩阵,是维向量。问题:假设有函数,如果把看成常数,看成的函数,如何根据函数对的梯度值Ⅴ计算函数对的梯度值Ⅴ?根据链式法则,由于只和有关,和其他的≠无关,因此有:c∑(对于的所有元素有:写成矩阵形式为:问题:如果将看成常数,将看成的函数,如何根据V计算Ⅴ?由于任意的和所有的都有关系,根据链式法则有写成矩阵形式为这是一个对称的结果,在计算函数映射时用矩阵乘以向量得到,在求梯度时用矩阵的转置乘以的梯度得到的梯度。问题:如果有向量到向量的映射:
- 2020-12-09下载
- 积分:1