Google word2vec算法 数学原理
文档是 word2vec 算法 数学原理详解。word2vec是google的一个开源工具,能够仅仅根据输入的词的集合计算出词与词直接的距离,既然距离知道了自然也就能聚类了,而且这个工具本身就自带了聚类功能,很是强大。32预备知识本节介绍word2v中将用到的一些重要知识点,包括 sigmoid函数、 Bccs公式和Huffman编码等821 sigmoid函数sigmoid函数是神经网络中常用的激活函数之一,其定义为1+e该函数的定义域为(-∞,+∞),值域为(0,1).图1给出了 sigmoid函数的图像0.56图1 sigmoid函数的图像sigmoid函数的导函数具有以下形式(x)=0(x)1-0(x)由此易得,函数loga(x)和log(1-0(x)的导函数分别为log a(a)-1 a(a),log(1 o(a))l-a(a),(2.1)公式(2.1)在后面的推导中将用到32.2逻辑回归生活中经常会碰到二分类问题,例如,某封电子邮件是否为垃圾邮件,某个客户是否为潜在客户,某次在线交易是否存在欺诈行为,等等设{(x;)}温1为一个二分类问题的样本数据,其中x∈Rn,∈{0,1},当v=1时称相应的样本为正例当v=0时称相应的样本为负例利用 sigmoid函数,对于任意样本x=(x1,x2,…,xn),可将二分类问题的 hypothesis函数写成h(x)=o(6o+b1x1+62+…+bnxn)其中θ=(0,61,…,On)为待定参数.为了符号上简化起见,引入x0=1将x扩展为(x0,x1,x2,……,xn),且在不引起混淆的情况下仍将其记为ⅹ.于是,he可简写为取阀值T=0.5,则二分类的判别公式为ho(x)≥0.5:X)=0,ha(x)6),可分别用000001、010、011、100、101对“A,E,R,T,F,D”进行编码发送,当对方接收报文时再按照三位一分进行译码显然编码的长度取决报文中不同字符的个数.若报文中可能出现26个不同字符,则固定编码长度为5(25=32>26).然而,传送报文时总是希望总长度尽可能短.在实际应用中各个字符的出现频度或使用次数是不相同的,如A、B、C的使用颗率远远高于X、Y、Z,自然会想到设计编码时,让使用频率高的用短码,使用频率低的用长码,以优化整个报文编码为使不等长编码为前缀编码(即要求一个字符的编码不能是另一个字符编码的前缀),可用字符集中的每个字符作为叶子结点生成一棵编码二叉树,为了获得传送报文的最短长度,可将每个字符的岀现频率作为字符结点的权值赋于该结点上,显然字使用频率越小权值起小,权值越小叶子就越靠下,于是频率小编码长,频率高编码短,这样就保证了此树的最小带权路径长度,效果上就是传送报文的最短长度.因此,求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点,由字符出现频率作为其权值所产生的 Huffman树的问题.利用 Huffman树设计的二进制前缀编码,称为 Huffman编码,它既能满足前缀编码的条件,又能保证报文编码总长最短本文将介绍的word2ve工具中也将用到 Huffman编码,它把训练语料中的词当成叶子结点,其在语料中岀现的次数当作权值,通过构造相应的 Huffman树来对每一个词进行Huffman编码图3给岀了例2.1中六个词的 Huffman编码,其中约定(词频较大的)左孩子结点编码为1,(词频较小的)右孩子编码为0.这样一来,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词的 Huffman编码分别为0,111,110,101,1001和100000欢观有巴西足球图3 Huffman编码示意图注意,到目前为止关于 Huffman树和 Huffman编码,有两个约定:(1)将权值大的结点作为左孩子结点,权值小的作为右孩子结点;(②)左孩子结点编码为1,右孩子结点编码为0.在word2vee源码中将权值较大的孩子结点编码为1,较小的孩子结点编码为θ.为亐上述约定统一起见,下文中提到的“左孩子结点”都是指权值较大的孩子结点3背景知识word2vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系,为此,不妨先来了解一些语言模型方面的知识83.1统计语言模型当今的互联网迅猛发展,每天都在产生大量的文本、图片、语音和视频数据,要对这些数据进行处理并从中挖掘出有价值的信息,离不开自然语言处理( Nature Language processingNIP)技术,其中统计语言模型( Statistical language model)就是很重要的一环,它是所有NLP的基础,被广泛应用于语音识别、机器翻译、分词、词性标注和信息检索等任务例3.1在语音识别亲统中,对于给定的语音段Voie,需要找到一个使概率p(Tcrt| Voice最大的文本段Tert.利用 Bayes公式,有P(Teact Voice)p(VoiceTert)p(Text)P(Veonce其中p( Voice Teat)为声学模型,而p(Tert)为语言模型(l8])简单地说,统计语言模型是用来计算一个句子的概率的概率模型,它通常基于一个语料库来构建那什么叫做一个句子的概率呢?假设W=m1:=(n1,w2,…,tr)表示由T个词1,2,…,ur按顺序构成的一个句子,则n,U2,…,wr的联合概率p(W)=p(u1)=p(u1,u2,…,r)就是这个句子的概率.利用 Baves公式,上式可以被链式地分解为1)=p(u1)·p(u2l1)·p(vai)…p(ur1-)3.1其中的(条件)概率p(1),p(U2mn1),p(u3),…,p(urln1-1)就是语言模型的参数,若这些参数巳经全部算得,那么给定一个句子1,就可以很快地算出相应的p(1)了看起来妤像很简单,是吧?但是,具体实现起来还是有点麻烦.例如,先来看看模型参数的个数.刚才是考虑一个给定的长度为T的句子,就需要计算T个参数.不妨假设语料库对应词典D的大小(即词汇量)为N,那么,如果考虑长度为T的任意句子,理论上就有N种可能,而每种可能都要计算T个参数,总共就需要计算TN个参数.当然,这里只是简单估算,并没有考虑重复参数,但这个量级还是有蛮吓人.此外,这些概率计算好后,还得保存下来,因此,存储这些信息也需要很大的內存开销此外,这些参数如何计算呢?常见的方法有 II-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随杋场、神经网络等方法.本文只讨论n-gram模型和神经网络两种方法.首先来看看n-gram模型32n-gram模型考虑pko4-)(k>1)的近似计算.利用 Baves公式,有p(wr wi)P(uP(w根据大数定理,当语料库足够大时,p(k4-1)可近似地表示为P(wwi)count(wi)(3.2)count(a其中 count(u4)和 count-)分别表示词串t和v-在语料中出现的次数,可想而知,当k很大时, count(o4)和 count(4-1)的统计将会多么耗时从公式(3.1)可以看出:一个词出现的慨率与它前面的所有词都相关.如果假定一个词出现的概率只与它前面固定数目的词相关呢?这就是n-gran模型的基本思想,它作了一个n-1阶的 Markov假设,认为一个词出现的概率就只与它前面的n-1个词相关,即-1)≈p(kk-1+),于是,(3.2)就变成了p(wxJuk-)count(n+1countri(3.3以〃=2为例,就有p(uk4-1)≈count(k-1, Wk)count(Wk-1)这样一简化,不仅使得单个参数的统计变得更容易(统计时需要匹配的词串更短),也使得参数的总数变少了那么, n-gran中的参数n取多大比较合适呢?一般来说,n的选取需要同时考虑计算复杂度和模型效果两个因素表1模型参数数量与n的关系模型参数数量1( ingram)2×1052(bigram)4×10103( trigram)8×10154(4grm)16×10在计算复杂度方面,表1给出了n-gram模型中模型参数数量随着n的逐渐增大而变化的情况,其中假定词典大小N=2000(汉语的词汇量大致是这个量级).事实上,模型参数的量级是N的指数函数(O(N"),显然n不能取得太大,实际应用中最多的是采用n=3的三元模型在模型效果方面,理论上是π越大,效果越奷.现如今,互联网的海量数据以及机器性能的提升使得计算更高阶的语言模型(如n>10)成为可能,但需要注意的是,当n大到一定程度时,模型效果的提升幅度会变小.例如,当n从1到2,再从2到3时,模型的效果上升显著,而从3到4时,效果的提升就不显著了(具体可参考吴军在《数学之美》中的相关章节).事实上,这里还涉及到一个可靠性和可区别性的问题,参数越多,可区别性越好,但同时单个参数的实例变少从而降低了可靠性,因此需要在可靠性和可区别性之间进行折中另外, n-gran模型中还有一个叫做平滑化的重要环节.回到公式(3.3),考虑两个问题:若 count(uk-n+1)=0,能否认为p(kln1-1)就等于0呢?若 count(kn+)= count(uk-+1,能否认为p(uur-)就等于1呢?显然不能!但这是一个无法回避的问题,哪怕你的语料库有多么大.平滑化技术就是用来处理这个问题的,这里不展开讨论,具体可参考[11总结起来,n-gram模型是这样一种模型,其主要工作是在语料中统计各种词串岀现的次数以及平滑化处理.概率值计算好之后就存储起来,下次需要计算一个句子的概率时,只需找到相关的概率参数,将它们连乘起来就好了然而,在机器学习领域有一种通用的招数是这样的:对所考虑的问题建模后先为其构造一个目标函数,然后对这个目标函数进行优化,从而求得一组最优的参数,最后利用这组最优参数对应的模型来进行预測对于统计语言模型而言,利用最大似然,可把目标函数设为plwlConteat(w))∈C其中C表示语料( Corpus), Context(u)表示词U的上下文( Context),即周边的词的集合.当 Context(u)为空时,就取p( Context(w)=p(u).特别地,对于前面介绍的 n-gran模型,就有 Context(mn)=2-n+1注3.1语料¢和词典仍的区别:词典仍是从语料¢中抽取岀来的,不存在重复的词;而语料C是指所有的文本內容,包括重复的词当然,实际应用中常采用最大对数似然,即把目标函数设为∑ logp(u( ontext(o)(3.4)然后对这个函数进行最大化从(3.4)可见,概率p( CONtex()已被视为关于和 Context()的函数,即p(w Context(w))= F(w, Conteact(w), 0)
- 2020-06-14下载
- 积分:1
安信可ESP-12S WIFI文档
安信可ESP-12S WIFI文档,安信可利用ESP8266芯片封装的12S模块,可以快速连接WIFI路由器,从而实现物联网!!ESP-12S规格书目录1.产品概述21.1.特点…………1.2.主要参数…垂·2.接口定义……3.外型与尺寸4.功能描述……84.1. MCU84.2.存储描述84.3.晶振,,,,,,+·++444.接口说明……4.5.最大额定值…104.6.建议工作环境114.7.数字端口特征…115.RF参数………………116.功耗127.倾斜升温…………………………………………138.原理图…………9.产品试用…16深圳市安信可科技有限公司http://www.ai-thinker.comESP-12S规格书1.产品概述ESP-12SwiFⅰ模块是由安信可科技开发的,该模块核心处理器εSP8266在较小尺寸封装中集成了业界领先的 Tensilica l106超低功耗32位微型MCU,带有16位精简模式,主频支持80MHz和160MHz,支持RTOS,集成Wi- FI MAC/BB/RF/ PA/LNA,板载天线。该模块攴持标准的IE802.11b/g/n协议,完整的τpP协议栈。用户可以使用该模块为现有的设备添加联网功能,也可以构建独立的网络控制器ESP8266是高性能无线SOC,以最低成本提供最大实用性,为WⅰFi功能嵌入其他系统提供无限可能。射频MAC接口接收②模拟接收寄存器SDIO门7SPI射频CPU内核发射模拟发射成帧器GPIO锁相环Hvco)12|锁相环加速器12C电源管理晶振偏置电路SRAM电源管理图1ESP8266EX结构图ESP8266EX是—个完整且自成体系的WFi网络解决方案,能够独立运行,也可以作为从机搭载于其他主机McU运行。ESP8266EⅩ在搭载应用并作为设备中唯一的应用处理器时,能够直接从外接闪存中启动。内置的髙速缓冲存储器有利于提高系统性能,并减少內存需求。另外—种情况是,ESP8266EⅩ负责无线上网接入承担WⅰFi适配器的任务时,可以将其添加到任何基于微控制器的设计中,连接简单易行,只需通过SPI/SDIO接口或I2C儿UART口即可。ESP8266EX强大的片上处理和存储能力,使其可通过GPIO口集成传感器及其他应用的特定设备,实现了最低前期的开发和运行中最少地占用系统资源。ESP8266EⅩ高度片內集成,包括天线开关 balun、电源管理转换器,因此仅需极少的外部电路,且包括前端模组在内的整个解决方案在设计时将所占PCB空间降到最低。深圳市安信可科技有限公司http://www.ai-thinker.comESP-12S规格书有ESP8266EX的系统表现出来的领先特征有∵节能在睡眠/唤醒模式之间的快速切换、配合低功率操作的自适应无线电偏置、前端信号的处理功能、故障排除和无线电系统共存特性为消除蜂窝/蓝牙/DDR/VDS/LCD干扰11.特点80211b/g/n·内置 Tensilica L106超低功耗32位微型McU,主频攴持80MHz和160MHz,支持RTOS·内置10bit高精度ADC内置TCPP协议栈内置TR开关、 balun、LNA、功率放大器和匹配网络内置PLL、稳压器和电源管理组件,802.11b模式下+20dBm的输出功率A-MPDU、A-MSDU的聚合和045的保护间隔WⅰFi@24GHz,支持WPA∧NPA2安全模式支持AT远程升级及云端OTA升级支持 STA/AP/STA+AP工作模式支持 Smart Config功能(包括 Android和ioS设备)HSPI、UART、I2C、I2S、 IR Remote control、PWM、GPIO深度睡眠保持电流为10uA,关断电流小于5uA2ms之内唤醒、连接并传递数据包·待机状态消耗功率小于1.0mW(DTM3)工作温度范围:-40°℃-125°C深圳市安信可科技有限公司http://www.ai-thinker.comESP-12S规格书12.主要参数表1介绍了该模组的主要参数。表1参数表类别参数说明标准认证FCC/CE/TELEC无线参数无线标准80211b/g/n频率范围24GHz-25GHz(2400M-24835M)UART/HSPI/I2C/12S/Ir Remote Contorl数据接口GPIO/PWM工作电压30~3.6V(建议33V)工作电流平均值:80mA硬件参数工作温度40°~125存储温度常温封装大小16mm x 24mm * 3mm外部接口N/A无线网络模式station/softAP/SoftAP+station安全机制WPA/PA2加密类型WEP/TKIP/AES升级固件本地串口烧录/云端升级/主机下载烧录软件参数支持客户自定义服务器软件开发提供SDK给客户二次开发网络协议Ipv4, Tcp/udp/Http/ftP用户配置AT+指令集,云端服务器 Android/ iOS APP深圳市安信可科技有限公司http://www.ai-thinker.com4ESP-12S规格书2.接口定义ESP-12S共接出16个接口,表2是接口定义。图2ESP-12S管脚图RST ID16 TXDBADC 2 aDI5 RXD8EN 314工05工015+p13041014512I0B工01261102I013710I015. 9GND表2ESP-12S管脚功能定义序号in脚名称功能说明1RST复位模组2ADOA/D转换结果。输入电压范围0~1V,取值范围:0~1024EN芯片使能端,高电平有效4IO16GPo16;接到RST管脚时可做 deep sleep的唤酲。IO14GPIO14 HSPI CLK6IO12GPIO12: HSPI MISOIO13GPIO13: HSPI MOSI UARTO CTSVCO33V供电GNDGND10IO15GPIo15: MTDO: HSPICS: UARTO RTS深圳市安信可科技有限公司http://www.ai-thinker.com5ESP-12S规格书102GPIO2 UART1 TXD12100GPIOO13IO4GPIO414IO5GPIO515RXDUARTO RXD: GPIO3TXDUARTO TXD: GPIO1表3引脚模式模式GPIO15GPIOOGPIO2UART下载模式低Flash boot模式低低高高高表4接收灵敏度参数最小小值典型值最大值单位输入频率24122484MHZ输入电阻50输入反射-10dB722Mbps下,PA的输出功率141516d Bm11b模式下,PA的输出功率17.518.5195d Bm灵敏度DSSS,1 Mbps-98d BmCCK, 11 Mbps-91d Bm6 Mbps(1/2 BPSk)93d bm深圳市安信可科技有限公司http://www.ai-thinker.comESP-12S规格书54 Mbps(3/4 64-QAM)dBHT20, MCS7(65 Mbps, 72.2 Mbps)d Bm邻频抑制OFDM, 6 Mbps37dBOFDM, 54 Mbpsd BHT20 MCSO37d BHT20, MCS7203.外型与尺寸ESP-12S贴片式模组的外观尺寸为24mm*16mm*3mm(如图3所示)该模组采用的是容量为4MB,封装为SOP-210mil的 SPI Flash。模组使用的是3DBi的PCB板载天线。CeaESP-12scE0890FCC ID:2AHMR-ESP12SSMLAG 802-图3ESP-12S模组外观深圳市安信可科技有限公司http://www.ai-thinker.comESP-12S规格书16m16mm图4ESP-12S模组尺寸平面图表5ESP-12S模组尺寸对照表长宽PAD尺寸(底部)Pin脚间距24 mm16 mm3 mm1 mm x 1.2 mm 2 mm4.功能描述41. MCUESP8266EX内置τ ensilica l106超低功耗32位微型McU,带有16位精简模式,主频攴持80MHz和160MHz,支持RTOS。目前WiFi协议栈只用了20%的MIPS,其他的都可以用来做应用开发。McU可通过以下接口和芯片其他部分协同工作:1连接存储控制器、也可以用来访问外接闪存的编码RAM/ROM接口(BuS)2冋同样连接存储控制器的数据RAM接口(dBus)3访问寄存器的AHB接口4.2.存储描述421.内置SRAM与RoMESP826EX芯片自身內置了存储控制器,包含ROM和SRAM。MCU可以通过iBus、dBus和AHB接口访问存储控制器。这些接口都可以访问R○M或RAM单元,存储仲裁器以到达顺序确定运行顺序。基于目前我司 DemO sdK的使用SRAM情况,用户可用剩余SRAM空间为: RAM size
- 2020-12-08下载
- 积分:1