基于FPGA的任意波形发生器的研究与设计详细说明文档
非常详细的资料,介绍了FPGA的DDS技术,文档内有verilog的源代码,可以直接使用,非常适合初学者,快点下载吧。ABSTRACTWith the rapid development of science and technology, electronic measurementtechnique has been widely used in each field such as electronics, machinery, medical,measurement and space. The electronic measurement technology needs to use variousforms of high quality source. So arbitrary waveform generator has very importantpractical significance. The development of arbitrary waveform generator, which basedon Direct Digital Synthesis is discussed in this paper. The generator can produce notonly the conventional waveform such as sine wave, square, triangle wave andsawtooth wave, but the arbitrary waveform, thus this can meet the need of the studyThe work of this paper is as follows:( 1) The domestic and overseas status about the arbitrary waveform generator arediscussed. Clarify the various ways of this synthesis technology of frequency andtechnical comparison, and direct digital frequency synthesis technology is selected toresearch(2)Introduce the hardware design in this system structure and the realization offunction, and a detailed description is given about system components. The singlechip microcomputer is chosen as control module, we use FPga as the coretechnology to realize DDs. The periphery of the circuit design and interfacetechnology is analyzed(3) This paper analyses the working principle, characteristics and technical indexesof the DDS. The design is based on EP1C3T144C8 FPGA chips. Realize DDSfunction through the use of phase accumulator and waveform RoM, and apply enablemodule and the determinant keyboard to present the flexible output of variouswaveform(4) The system test data is given. The reason caused by stray and noise influencingthe spectral purity is analyzedKEY WORDS: Electronic measurement; arbitrary waveform generator; DDS; SCM; FPGA华南师范大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。本人完全意识到此声明的法律结果由本人承担。论文作者签名:日期:29年6月5日学位论文使用授权声明本人完全了解华南师范大学有关收集、保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他复制手段保存、汇编学位论文。(保密的论文在解密后遵守此规定)保密论文注释:本学位论文属于保密范围,在年后解密适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书论文作者签名:导师签名+1期:10年6月5日日期:22)年b月S日第一章绪论本章主要介绍任意波形发生器的研究意义,以及发展的概况与趋势,并介绍本设计所需要做的软硬件工作,提出设计需要实现的目标。11任意波形发生器的研究意义任意波形发生器( Arbitrary Waveform Generator,AWG)实际上是一种多波型的信号发生器,它不仅能产生正弦波、方波、三角波、斜波和指数波等常规波形,也可以表现出载波调制的多样化,如:产生调频、调幅、调相和脉冲调制等。更可以通过计算机软件实现波形的编辑,从而生成用户所需要的各种任意波形,来满足各种实验研究的需要随着科学技术的飞速发展,电子测量技术被广泛应用在电子、机械、医疗、测控及航天等各个领域。许多电子系统,甚至电子器件只有在一定的电信号作用下,其性能才能显露出来。另一方面,一些电器设备在研究和生产过程中也少不了信号源,它们借助信号源通过测量来鉴定其性能的优劣。所以许多现代电子设备和系统的功能如何,都直接的取决于信号源质量的高低,如何产生高稳定度、高准确度的信号是任意波形发生器研制的关键。因此,信号发生器的表现就至关重要。我国的电子测量技术起步较晚,虽然在一些领域也取得了许多突破性进展,但是与世界先进水平相比,仍然存在着很大的差距。因此提高国内电子测量仪器的研制水平,加强核心技术的研发,对我国电子测量技术的发展,有着非常重要的意义。12任意波形发生器的发展概况最早的信号发生器主要采用RC构成振荡电路。如1928年美国先后生产出的调幅信号发生器与调频信号发生器。20世纪40年代许多国家已经开始研究脉冲信号发生器。1962年美国 Wavetek公司在RC电路的基础上,又推出了函数发生器产品。在60年代初,起源于通信领域的频率合成技术也引用到信号源上,出现了合成信号发生器。自80年代以来人们又将微机技术引入信号源,出现了任意波形发生器。早期的信号发生器主要采用模拟电子技术,电路结构复杂,工艺不够成熟,因此存在着如:漂移较大,输岀波形的幅度稳定性差,模拟器件构成的电路尺寸大、价格贵、功耗大等缺点。80年代以后,现代电子、计算机和信号处理等技术的发展,极大的促进了数字化技术在电子测量仪器的应用。高集成化微处理器的出现,增大了更复杂波形产生与波形稳定的操控性。这时期的波形发生器多以软件为主,实质是采用微处理器对DAC的程序控制,从而得到各种所需波形。任意波形发生器的实现方案主要有程序控制输出、DMA输出、可变时钟计数器寻址和直接数字频率合成等多种方式2。目前任意波形发生器的研制主要基于DDS(直接数字频率合成)技术,与传统的频率合成器相比,DDS具有低成本、低功耗、高分辨率和快速转换时间等优点,广泛使用在通信、测量与电子仪器领域,是实现设备全数字化的一个关键技术。近20年发展迅速,因此许多国家都在进行DDS专用芯片的研制。其中AD公司较为突出,如常见的AD9852、AD9858等产品,现在又推出了性能更强大的AD9952、AD9958、AD9912。其中AD9912包含可提供谐波杂散抑制的辅助低功耗DDS内核,以及48位频率调谐字和内置比较器,具有1GSPS内部时钟速率和高达400MHz直接输出。基于DDS技术的任意波形发生器的发展也同步进行,目前的任意波形发生器的产品结构形式主要有三种:独立仪器结构形式、PC总线插卡式和VⅪI模块式。近几年国际任意波形发生器技术主要发展,除了输出波形频率的提高和更方便的波形输入外,便是与ⅴX资源的结合。在测量和产生复杂的任意波形时,VXI系统资源在这些应用中具有较为明显的优势,尤其对自动测试系统(ATE特别有用。任意波形发生器在商业研发生产中,以 Agilent公司和 Tektronix公司最具有代表性,其任意波形发生器产品已经形成相当的市场占有率,并以优异的产品技术,引领着该领域的发展。如: Agilent公司的N6030A任意波形发生器,它拥有15位的垂直分辨率,125GS/s的采样频率,500MH的输出频率。 Tektronixκ公司更是于2008年推出了性能与速度更为优异的产品:AWG700。采样频率高达24GS/s,也可以做到96GHz有效RF频率输出。不仅如此,该产品还提供了高达10位的垂直分辨率:10位(无标记输出)或8位(带有两个标记输出);高达64M(64:80000点的记录长度,提供了更长的数据流;低至100f分辨率的边沿定时位移控制;16000步序列功能,创建无穷大波形循环、跳转和条件分支。能够生成高速串行信号、多电平信号、为存储设备测试生成信号、宽带RF信号。我国从90年代才开始研制任意波形发生器,比较有代表性的产品有北京普源精电科技有限公司生产的DG3121A,它拥有14位的垂直分辨率、300MSa/的采样率和120MHz的最高频率输出。它是业界第一个具备了数字逻辑输出功能的任意波形发生器。指标在国产的函数/任意波形发生器中处于优势地位,在同类产品中,具有最完备的通信接口,具备RS232,USB,GPIB,LAN。但比起同类产品 Agilent公司的33250A在脉冲频率和频率稳定度等方面还有很大差距。不过普源还是在技术长有不少的创新,比如研制出了业界首台混合信号任意波形发生器。北京凯弘仪器生产的基于DDS的函数发生器就很有特色,由于内置了衰减器,能够实现最小01mVpp的输出和00ldB的分辨率。总体而言,国产任意波形发生器自研制以来取得了巨大的进步,但是在最高采样率,最大输出频率、频率稳定度和准确度等指标上和世界先进水平还存在着较大的差距1.3发展趋势由于电子测量技术及其他部门对各类信号发生器的广泛需求及电子技术的迅速发展,促使信号发生器种类日益增多,性能日益提高,尤其随着70年代微处理器的出现,更促使信号发生器向着自动化、智能化方向发展。现在,许多信号发生器除了带有微处理器,因而具备了自校、自检、自动故障诊断和自动波形形成和修正等功能外,还带有IEE488或RS232总线,可以和控制计算机及其他测量仪器一起方便地构成自动测试系统。今后,任意波形发生器在较高的取样率,分辨率,记录长度和线性等方面功能会更强,任意波形发生器在射频和无线测试领域将会获得部分市场。当前信号发生器总的趋势是向着宽频率覆盖、高频率精度、多功能、多用途、自动化和智能方向发展14本文的主要工作硬件设计●电源模块电路的设计:各部件工作电压不同,有5V、3.3V、1.5V三种情况,因此须设计出满足各部件正常工作的电源模块。●单片机系统与接口电路设计单片机作为控制模块,实现与上位机信息传递与通信等各种功能,须设计出单片机的控制模块与相关接口电路●D/A转换与滤波电路的设计D/A转换器与滤波是整个电路的后续处理,D/A转换器实现波形的模拟输出、滤波器则选择合适的滤波器完成对信号的修整。●基于FPGA的DDS模块电路的设计FPGA实现DDS功能是整个设计的关键部分,根据相关原理,设计适合的逻辑图。●整机PCB板设计用 PROTEL DXP2004绘制电路板。软件使用●用Kei1C51对单片机传递信息在 Keil c51环境下,编写程序,完成计算机与单片机的通讯,Kei1提供了包括C编译器、宏汇编、连接器、库管理和一个功能强大的仿真调试器等在内的完整开发方案,通过一个集成开发环境(μ vision)将这些部份组合在起,为单片机的使用提供良好的平台。●在 QuartusⅡ下对FGA进行设计在该环境下,实现FPGA的DDS电路设计实现目标波形要求:常规波形(正弦波、方波,三角波等)、任意波形存储深度:1—1024个点幅度分辨率:8位输出频率范围:1Hz1MHz(固定波形)设计目标:不仅可以生成方波、三角波、正弦波等标准波形,而且还要可以生成用户所需要的任意波形,同时输出波形的频率和幅度均可编程控制。4第二章任意波形发生器的理论分析本章首先介绍了频率合成技术的相关情况,并对三种不同形式的频率合成技术进行分析。同时系统的阐述了DDS的基本组成结构、工作原理、工作特点与技术指标,为DDS的构建打下理论基础。21频率合成技术简介频率合成是指从一个高稳定的参考频率,经过各种技术处理,生成一系列稳定的频率输出。频率合成的概念就是由一个或几个参考频率通过一些转换,产生个或多个频率信号的过程。频率合成技术一般分为直接式(DS)、间接式(PLL)和直接数字式(DDS)三种基本形式。早期的频率合成采用直接式的方式,是由一个或多个晶体震荡器经分频、倍频、混频对一个或几个基准频率进行加、减、乘、除运算产生所需要的频率信号,并通过滤波器产出,这是最早的频率合成信号源的方法。目前该方法仍在使用,主要是因为它频率转换速度、相位噪声低,比较容易实现4。但是该方式涉及的合成器体积过于庞大,而且成本较高,结构复杂、产生任意波形的可控性较低间接合成式是基于锁相环的原理,即PLL。它与前者相比,输出频率的稳定度和准确度都有明显的提高,频谱纯度等性能也有较大改善。主要是因为信号源的振荡频率被固定在频率计数器的时基上,也就是说以稳定度高的振荡器为基准。因此,锁相环的输出频率就与基准频率一致,振荡器输出信号和参考信号之间的相位差为固定的常数,而且锁相环的突出优点是能够抑制叠加到输入信号上的噪声。这是直接式频率合成方法所不能达到的。PLL还有体积小、性价比较高等一系列优点。但是PLL技术也有明显的缺点,采取闭环控制,系统的输出频率改变后,重新达到稳定的时间也就比较长,一般为毫秒级,很难满足高频率分辨率与快速转换率同时具备的要求,因此也有明显瑕疵。直接数字频率合成技术从原理上实现了突破。前两种方法都是通过对基准频率进行运算得出,而DDS技术则是从相位的概念进行频率合成。它按一定的相位间隔,将待产生的波形幅度的二进制数据存储于高速存储器作为查找表,用参考频率源(一般为晶体振荡器)作为时钟,用频率控制字决定每次从查找表中取出波形数据的相位间隔,以产生不同的输出频率,对取出的波形数据通过高速D/A转换器来合成出存储在存储器内的波形。直接数字频率合成技术的主要优点是输出相位连续、相对带宽较大、频率分辨率很高、可编程、准确度和稳定度都比较高。DDS技术是利用查表法来产生波形,而通过修改存储在ROM里的数据,就可以产生任意波形。所以它不仅能产生正弦、余弦、方波、三角波和锯齿波等常见波形,而且还可以根据需要利用各种编辑手段,产生传统函数发生器所不能产生的真正意义上的任意波形。DDSDirect Digital Synthesis)的概念首先由美国学者 J.Tiemcy, C. M.Rader和B.Gold在1971年提出,但限于当时的技术和工艺水平,DDS技术仅仅限于理论研究,而没有应用到实际中去。近20年来,随着Ⅴ LSI( Very Large Scale Integration),FPGA( Field ProgrammableGates Array)以及DSP( Digital Signal Processing)的发展,这种结构独特的频率合成技术得到了飞速发展。目前该技术已经被广泛用于接收机本振、信号发生器、通信系统、雷达系统等相关领域中。22DDS的基本原理和工作特点22DDS的基本结构DDS( Direct Digital Synthesis技术设计思想是基于数值计算信号波形的抽样值来实现频率合成的。它包括数字器件与模拟器件两部分,主要有相位累加器ROM波形查询表、数模转换器组成。其基本框图如下。相位累加器波形RoMD/A转换器低通滤波器控制字K输出时钟图21DDS结构框图(1)相位累加器是DDS的核心部分。一般是由数字全加器和数字寄存器组成实现相位累加。如下图所示。N频率挖制字K加法器备存器时钟频率c图22相位累加器结构框图般DDS的累加器都釆用二进制,线性数字信号通过相位累加器实现逐级的累加。假设累加器字长为N,频率控制字为K,控制时钟频率为f,系统在同
- 2020-12-09下载
- 积分:1
word2vec_中的数学原理详解
word2vec_中的数学原理详解个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!wordzvec中的数学hoty@163.com2014年7月目录前言2预备知识2.1 sigmoid函数2.2逻辑回归3 Bayes公式2.4 Huffman编码,,,,,,,,524.1Humu树242 Huttman树的构造62.4.3 Huffman编码..,.3背景知识3.1统计语言模3.2n-gram模型103.3神经概率语言模型123.4词向量的理解4基于 Hierarchical softmanⅹ的模型41CBOW模型..191.1.1网络结构41.2梯度计算201.2 Skip-gram模型42.1网络结构42.2梯度计算255基于 Negative sampling的模型285.1CBOW模型285.2 Skip-gram模型53负采样算法326若干源码细节346.1a(x)的近似计算62词典的存储63换行符3564低频词和高频词366.5窗口及上下文3766自应学习率3767参数初始化与训练386.8多线程并行3869几点疑问和思考11m3881前言word2vec是 Google于2013年开源推出的一个用于获取 word vector的工具包,它简单、高效,因此引起了很多人的关注,由于word2vec的作者 Tomas nikolov在两篇相关的论文(,[4)中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟第一次接触word2ve是2013年的10月份,当时读了复且大学郑骁庆老师发表的论文7,其主要工作是将SENA的那套算法(8])搬到中文场景.觉得挺有意思,于是做了一个实现(可参见[20),但苦于其中字向量的训练时间太长,便选择使用word2we来提供字向量,没想到中文分词效果还不错,立马对word2vec刮目相看了一把,好奇心也随之增长后来.陆陆续续看到∫word2ve的一些具体应用,而 lomas nikolov团队本身也将其推广到了句子和文档(),因此觉得确实有必要对word2vec里的算法原理做个了解,以便对他们的后续研究进行追踪.于是,沉下心来,仔细读了一回代码,算是基本搞明臼里面的做法了.筼一个感觉就是,“明明是个很简单的浅层结构,为什么被那么多人沸沸扬扬地说成是Decp Learning呢?”解剖word2vec溟代码的过程中,除了算法层面的收获,其实编程技巧方面的收获乜颇多.既然花了功夫来读代码,还是把理解到的东西整理成文,给有需要的朋友提供点参考吧在整理本文的过程中,和深度学习群的群友北流浪子(15,16)进行了多次有益的讨论在比表示感谢另外,也参考了其他人的一些资料,鄱列在参考文献了,在此对他们的工作也并表示感谢2预备知识本节介绍word2vee中将用到的些重要知识点,包括 sigmoid函数、 Beyes公式和Huffman编码等821 sigmoid函数sigmoid函数是神经网络中常用的激活函数之一,其定义为1+e该函数的定义域为(-x,+x),值域为(0,1).图1给出了 sigmoid函数的图像0.5图1 sigmoid函数的图像sigmoid数的导函数具有以下形式)=0(x)1-0(x)由此易得,函数logo(a)和log(1-0(x)的导函数分别为log o(a)(21)公式(2.1)在后面的推寻中将用到822逻辑回归生活中经常会碰到二分类问题,例如,某封电子邮件是否为垃圾邮件,某个客户是否为在客户,某次在线交易是舌仔在诈行为,等等.设{(x,)}1为一个二分类问题的样本数据,其中x∈R",∈{0,1},当1=1时称相应的样本为正例,当v=0时称相应的样本为负例利用 sigmoid函数,对于任意样木x=(x1,x2,…,xn),可将二分类问题的 hypothesis函数写成h(x)=0(o+61x1+622+…+nxn),其中0=(0o,01,…,O)为待定参数.为了符号上简化起见,引入x0=1将x扩展为(x0,x1,x2,…,xrn)},且在不引起混淆的情况下仍将其记为ⅹ.于是,he可简写为取阀值T-0.5,则二分类的判别公式为1,b(x)≥0.5y(x0.5那参数θ如何求呢?通常的做法是,先确定一个形如下式的整体损失函数∑co(x,v)然后对其进行优化,从而得到最优的參数θ实际应用中,单个样本的损失函数cost(x,)常取为对数似然函数cosl(xi, yi)),v-1;(1-(x),v=0注意,上式是一个分段函数,也可将其写成如下的整体表达式cost(x2,3)=·log(ho(x)(1y1)·log(1h(x)323 Baves公式贝叶斯公式是英国数学家贝叶斯( Thomas Bayes)提出来的,用来描述两个条件概率之间的关系.若记P(A),P(B)分别表示事件A和事件B发生的概率,P(AB)我示事件B发生的情况下事件4发生的慨率P(A,B)表示事A.B同时发生的概率.则有P(AB)P(B), P(BLA)=P(A, B)P(A, B利用上式,进一步可得P(B AP(AB)-P(A)P(B)这就是 Bayes公式g2.4 Huffman编码本节简单介绍Humn编码(具体内容主要来白百度百F的词条.[10),为此,首先介绍Huffman树的定义及其构造算法§24.1 Huffman树在计算机科学中,树是一种重要的非线性数据结构,它是数据元素(在树中称为结点)按分支关系组织起来的结构.若干棵互不相交的树所构成的集合称为森林.下面给出几个与树相关的常用概念·路径和路径长度在一棵树中,从一个结点往下可以达到的孩子或孙子结点之间的通路,称为路径.通路中分支的数目称为路径长度.若规定根结点的层号为1,则从根结点到第L层结虑的路径长度为L-1●结点的权和带权路径长度若为树中结点赋予一个具有某种含义的(非负)数值,则这个数值称为该结点的权结点的带权路径长度是指,从根结点到该结点之间的路径长度亐该结点的杈的乘矾·树的带权路径长度树的带权路径长度规定为所有叶子结点的带权路径长度之和二叉树是每个结点最多有两个子树的有序树.两个子树通常被称为“左子树”和“右子树”,定义中的“有序”是指两个子树有左石之分,顺序不能颠倒给定n个权值作为n个叶子结点,树造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称为 Huffman树82.4.2 Huffman树的构造给定m个权值{mn,m2;…,mn}作为二叉树的m个叶子结点,可通过以下算法来构造颗 Huffman树算法2.Ⅰ(Hu「man树构造算法)(1)将{1,2,……,wn}看成是有n棵树的表林(每树仅有一个结点)2)在森林中选出两个根结,的权值最小的树合并,作为-棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和〔3)从森林中燜除选取的两樑树,并将新树加入森林(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求的 luffman树接下来,给出算法2.1的一个具体实例例2.1假设2114年世界杯期间,从新浪毀博中抓取了若干条与足球相关的微博,经统计,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词岀现的次薮分别为15,8,6,5,3,1.请以这6个词为叶子结点,以相应词频当权值,构造一棵Hu∥n树.⊙Q⑨Q⊙只66如→只只③⊙图2 Huffman树的构造过程利用算法.,易知其枃造过程如国g所示,团中第六步给出了最终的 Hutman树,由囚可见词频越大的词离根结点越近构造过程中,通过合并新増的结点被标记为黄色.由于每两个结点邡要进行一次合并,因此,若叶子结点的个数为η,刘枃造的H們πω树中新増结点的个数为π-1.本例中n6,因此新增结,的个数为5注意,前面有捉到,二叉树的丙个子树是分左右的,对于某个非叶子结点来说,就是其两个孩子结点是分左右的,在本例中,统一将词频大的结点作为左孩子结点,词频小的作为右孩子结点当然,这只昃一个约定:你要将词頻大的结点作为右孩子结点也浸有问题§24.3 Huffman编码在数据通倍中,需要将传送的文宁转换成二进制的字符串,用0,1码的不同排列米表示字符.例如,需传送的报文为“A上 TER DATA EAR ARE ART AREA”,这里用到的字符集为“A,E,R,T,F,D”,各字母出现的次数为84,5,3,1,1,现要求为这些字母设计编码要区别6个字母,最简单的二进制编码方式是等长编码,固定采用3位二进制(23=8>6),可分别用000.001、010、011、100、101对“A,E,R,T,F,D”进行编码发送,当对方接收报文时再按照三位一分进行译码显然编码的长度取决报文中不同字符的个数,若报文中可能出现26个不同字符,则固定编码长度为5(2=32>26).然而,传送报文时总是希望总长度尽可能短.在实际应用中,各个字符的出现频度或使用次数是不相同的,如A、B、C的使用频率远远高于X、Y、7,自然会想到设计编码时,让使用频率高的用短码,使用频率低的用长码,以优化整个报文编码.为使不等长编码为前缀编码(即要求一个字符的编码不能是另一个字符編码的前缀),可用字符集中的每个宇符作为叶子结点生成一棵编码二叉树,为了获得传送报文的最短长度,可将每个字符的岀现频率作为字符结烹的权值赋予该结点上,显然字使用频率越小权值越小,权值越小叶子就越靠下,于是颎率小编码长,频率高编码短,这样就保证了此树的最小带权路径长度,效果上就是传送报文的最短长度.因此,求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点,由字符出现频率作为其权值所产生的Hman树的问题.利用 Hultman树设计的二进制前缀編码,称为 LuminaL编码,它既能满足前缀编码的条件,又能保证报文编码总长最短本文将介绍的word2ve工具中也将用到 Huffman编码,它把训练语料中的词当成叶子缩点,其在语料中出现的次数当作权值,通过构造相应的 Huttman树来对每一个词进行Huffman编码图3给岀了例2.1中六个词的 Huffman编码,其中约定(词频较大的)左孩子结点编码为1,(词频较小的)石孩子编码为θ.这惮一米,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词的 Huffman编码分别为0.111,110,101,1001和10000我告欢巴匹0足球图3 Huffman编码示意图注意,到目前为止,关于 Huttman树和 Huttman編码,有两个约定:(1)将权值大的结点作为左孩子结点,权值小的作为右孩子结点(2)左孩子结点编码为1,右孩子结点编码为0.在word2vec源码中将权值较大的孩子结点编码为1,较小的孩子结点编码为0.为与上述约定统一起见,下文中提到的“左孩了结点"都是指权值较大的孩了结点83背景知识word2vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系,为此,不妨先了解一些语言模型方面的知识83.1统计语言模型当今的互联网迅猛发展,每天都在产生大量的文本、图片、语音和视频数据,要对这些数据进行处理并从中挖掘岀有价值的信息,离不开自然语言处理( Nature Language processing,NP)技术,其中统计语言模型( Statistical language model)就是很重要的一环,它是所有NLP的基础,被广泛应用于语音识别、机器翻译、分词、词性标注和信息检索等任务.例.1在语音识别糸统中,对于给定的语音段Vire,霄要找到一个使概率p( TertVoice最大的文本段Tert.利用 Bayes公式,有P(Teat voice)p(VoiceText). p(Textp(Voice)其中p( CicetE.c)为声学模型,而 elEct)为语言模型(18])简单地说统计语言模型是用来计算一个句子的概率的概率模驷,它通常基于一个语料库来构建.那什么叫做一个句子的概率呢?假设W=m1:=(m1,2,…,mr)表示由T个词,2,……,按顺序构成的一个句子,则1,c2…,w的联合慨率p()=p(x1)=p(01,t2,…,r)就是这个句子的概率利用 Bayes公式,上式可以被链式地分解为p(uh)-p(1)·p(u2lu1)p(u3lu2)…p( wru-1),(3.1)其中的(条件)概率p(1),p(2t1),p(un),…,p(mr1-)就是语言模型的参数,若这些参数已经全部算得,那么给定一个句子U1,就可以很快地算出相应的p(1)了看起来奷像很简单,是吧?但是,具体实现起来还是有点麻烦.例如.先来看看模型参数的个数.剛刚才是考虑一个给定的长度为T的句子,就需要计算T个参数.不妨假设语料库对应词典D的大小(即词汇量)为N,那么,如果考虑长度为T的任意句子,理论上就有M种可能.而每种可能都要计算T个参数,总共就需要计算TN7个参数.当然,这里只是简单估算,并没有考虑重复参数,但这个量级还是有蛮吓人.此外,这些概率计算好后,还得保存下来,因此,存储这些信息乜需要很大的內存开销此外,这些参数如何计算呢?常见的方法有n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场、神经网络等方法,本文只讨论n-gram模型和神经网络两种方法.首先来看看 n-gram模型
- 2020-12-04下载
- 积分:1