相控阵雷达接收技术-相控阵雷达技术丛书
接收技术是相控阵雷达最基本的技术之一。本书全面分析了相控阵雷达通道接收技术、相参频率合成技术、波形产生和激励源技术,这三部分内容涵盖了完整的相控阵雷达接收技术,具体有:相控阵雷达对接收机性能的要求,接收机的构成和主要功能;噪声的特性、来源,噪声系数及其测量方法和动态范围;多通道接收、计算机辅助测试和接收机监控技术;现代雷达中开始出现的数字接收技术;相位噪声的特点,在时域和频域表征它的参数和术语,对它的测量方法以及它对雷达性能的影响;基本的频率合成技术,特别详细地介绍了近年来出现的直接数字式频率合成技术;雷达发射波形和激励信号产生技术;相控阵雷达数字化接收技术的新进展。.目录Ⅻ3.4普遍情况下的网络噪声特性2了3.4.1多频网终的噪声特性303.4.2级联网络的噪声特性pt.自d鲁333.4.3超外差雷达接收机网络级联分析…39接收机灵敏度403.6相控阵雷达接收阵面的有效噪声温度3.6.1相控阵雷达有源天馈线阵面的主要类型433.6.2各类天线阵的有效噪声温度453.7噪声系数的测量463.7.1噪声源…463.7.2Y因子法…∴……483.7.3自动测量法3.7.4噪声直接测量法543.8内部干扰——电磁兼容性设计………553.8.1滤波与带宽的优化56.8.2中频频率的优化59参考文献…60第4章通道接收机的其他性能…624.1动态范围………624.1.1增益设计和增益分配634.1.2接收机输入端回波信号的动态范围……644.1.3接收机设备的动态范围674.1.4接收机的增益控制704.1.5接收机动态范围对MTI改善因子的影响4.2多通道接收机…………724.2.1多通道接收机的特性……724.2.2多通道接收机性能对相控阵雷达性能的影响…………………724.3通道接收机的计算机辅助测试(CAT)技术………734.3.1计算机自动测试基本原理和系统构成鲁非■鲁鲁章鲁∴…744.3.2单通道性能测试………………764.3.3通道间幅相一致性测试77相控阵雷达接收机的监控与BIT784.4.1相控阵雷达接收机监控和BⅠT的必要性、内容与方法4.4.279参考文献80Ⅻ相控阵雷达接收技术第5章数字接收机及采样定理1数字接收机的意义815.1.1雷达数字接收机的关键技术5.1.2数字接收机对雷达通道接收机性能的影响82低通采样定理…825.2.1采样845.2.2量化883中频数字化895.3.1带通釆样定理。曲自B自鲁鲁鲁5.3.2带通采样的进一步分析94降低噪声和杂散的方法97参考文献106第6章模数变换(ADC)技术…………………………………1086.1ADC的类型及其特性1086.1.1闪烁型或全并行型1096.1.2流水线型1106.1.3逐次逼近型………………·即.·看··罪·如自鲁6.1.4∑一△型……1126.2ADC主要性能分析…………………………………1146.2.1转换速率1166.2.2分辨力∴…1176.2.3增益误差非自自1176.2.4量化噪声1176.2.5输出信噪比暂最DD1216.2.6有效位……1226.2.7非线性失真及无杂散动态范围………………………………1246.2.8谐波失真…1256.2.9输入带宽,小信号带宽,全功率带宽…∴1266.2.10积分非线性误差和微分非线性误差1276.2.11漏码…1306.2.12直流偏移……………1306.2.13采集时间、孔径时间、孔径延迟时间和有效孔径延迟时间…1306.2.14孔径不确定性噪声1326.2.15噪声功率比1346.2.16缓冲放大器…136日录上絮6.2.17数字接收机与系统噪声系数………………1366.2.18ADC对雷达性能的影响138参考文献140第7章解调技术…1417.1解调技术的主要性能指标7.2模拟信号的解调●·普鲁啬1443无混频数字信号的解调1467.3.1数字正交检相器的一般原理∴…1477.3.2希尔伯特滤波法1487.3.3低通滤波法…………………1497.3.4插值法………………………1517.3.5数字乘积检相(DPD)法………1527.4采样率转换技术1537.4.1抽取……1537.4.2内插1545高效数字滤波器1567.6数字下变频器…7.6.1实现数字下变频的方法1617.6.2ASIC方法1617.6.3FPGA方法……甲·普···………………165参考文献…171第8章频率合成器的各项性能、相位噪声及其测量方法∴……1738.1频率合成器的主要性能指标1738.1.1工作频率范围及频率捷变点数…1738.1.2工作频率、频率准确度及长期频率稳定度……1748.1.3输出功率1748.1.4频率转换时间及其测试技术174频率稳定度或相位噪声………………1758.1.6谐波与杂散1768.1.7撷率推移1778.1.8频率牵引●●4……1778.1.9频率复现性1778.1.10开机特性1778.2频率稳定度及其表征………1788.2.1频率稳定度对于现代雷达的意义178Ⅻ相控阵霅达接收技术82.2相位噪声的产生………1838.2.3雷达频率源的频率稳定度砑究特点1938.2.4相位噪声的谱密度分布∴……………………19582.5频率稳定度的表征……1978.3频率稳定度的测量技术·。由击●果●………………………2128.3.1时域一阿仑方差测量法…2138.3.2频域测量方法之直接频谱仪法………………218.3.3频域测量方法之二—一相位检波法…∴…2178.3.4频域测量方法之三——鉴频法2238.3.5附加噪声的测量………………2248.3.6信号源调幅噪声的测量……2258.3.7脉冲信号相位噪声的测量技术…………226参考文献………230第9章频率源性能对雷达性能的影响……2329,1对雷达接收机噪声系数的影响2329.2对雷达接收机选择性的影响………2339.3对接收机动态范围的影响………2339.4对脉冲压缩性能的影响……鲁·鲁命鲁自着·非最单·非“·p看自·鲁·要罪要·D·身看2339.5对动目标显示性能的影响…2349.5.1动目标显示技术的基本原理……D●鲁2349.5.2颊率稳定度对MTI的影响…2369.6对脉冲多普勤雷达的影响240参考文献241第10章频率合成器的构成●鲁。看,·自·非24210.1直接模拟式频率合成技术……24210.2间接模拟式频率合成技术(锁相环技术)…………………24410.3直接数字式频率合成技术24610.3.1DDS的基本工作原理24710.3.2DDS输出信号的质量…25010.3.3DDS杂散的抑制……25710.3.4DDS输出频率的扩展26010.3.5数模变换器(DAC)26010.4组合式频率合成技术……………26710.4.1锁相环/直接式合成技术26710.4.2DDS/锁相环式合成技术268目录X参考文献………………………268第11章发射波形和激励信号产生技术27011.1发射波形的产生…………270模拟产生法27111.1.2数字产生法27411.2激励信号的产生……………28011.2.1直接中频信号产生…28011.2.2正交调制技术和上变频技术……………28111.3激励信号带宽的扩展一超宽带信号的产生……………28511.3,1基带信号带宽的展宽…………………………28511.3.2调制器的选择28611.3.3倍频技术28711.4激励信号质量分析自自自自「非28711.4.1基带波形的质量…28711.4.2正交调制器输出信号的质量……鲁。·香卵2811.4.3信号质量对匹配滤波一脉冲压缩性能的影响……290I1.4.4信号质量对去斜处理性能的影响……………293参考文献…297第12章数字化接收技术的新进展…………………………29912.1数字阵雷达(DAR)的发展历史及现状29912.2数字收发组件和数字接收机30312.3微波ADC技术…看·曲·鲁·鲁非自●。·带垂垂…30712.4光学ADC技术…………………………………31012.4.1电子ADC在提高ADC的动态范围一釆样频率积时的局限性……31112.4.2光学ADC的分类及几种主要类型的特性…31412.4.3光电ADC芯片……………32412.4.4光学模数变换器的应用…∴………32612.5多芯片组件(MCM)技术32612.6直接数字频率合成技术、数字波形产生和数字上变频技术……327参考文献328符号表………331缩略语340第1章概论1.1相控阵雷达接收分系统的构成部完整的相控阵雷达接收分系统的构成如图1.1所示,它包含了通道接收机、频率源和激励源(含雷达波形产生器)三个组成部分通道接收机模拟接收机或模拟前端数字接收机来自天线阵面的去DBF网络或射频信号模拟接收机或模拟前端数字接收机信号处理机1模拟接收机或模拟前端数字接收机频率源基准频率变频器及僧频器霎达基带波形产生器激励源图1.1相控阵雷达接收分系统的构成通道接收机是雷达回波信号的通道,它接收来自相控阵天线阵面的雷达回波信号。模拟接收机对回波信号首先进行一系列模拟处理,包含保护接收机免烧毁或饱和的有源/无源小功率限幅器、为机内检测(BⅠT)而设置的低插损定向耦合器、低噪声放大器(LNA)、下变频器。第一下变频器是借助于雷达频率源产生的本振信号(f()将微波射频回波信号下变频至固定的中频频率。变频次数可以是一次、两次或三次,视雷达的工作频段高低和中频频率优化结果而定,它们的作用2相控庥管达接取技术是逐渐将中频频率降低到合适的频率。接收机在中频频段,除对回波信号进行放大之外,还会对回波信号的带宽进行匹配或准匹配滤波;为了压缩回波信号的瞬时动态范围,在射频段或中频段,对通道的总增益进行灵敏度时间控制(STC);对多路通道之间的幅度/相位一致性进行调整;为后续的数字接收机设置防混叠滤波器。结构简单的模拟接收机有时又称为模拟前端雷达回波信号,经过模拟接收机的上述处理之后进人数字接收机,在数字接收机中首先是对模拟回波信号进行采样和量化分层,变换为特定字长和特定数据率的数字信号,高速率的数字信号进入数字下变频器(DDC),在一对正交数字乘法器中,借助于数控振荡器(NCO)把模数变换器采集到的数字信号解调出数字基带信号。为了与后续的数字信号处理机速率匹配,往往还要进行数据率的抽取和进步的数字匹配滤波,最后以极坐标或直角坐标的格式输出数字信号去进行数字波束形成或雷达数字信号处理回波信号数字化的切入点是根据雷达工作频段、回波信号带宽和模数变换器的采样速率等因素决定的,可以是在低中频,高中频,甚至于射频、微波频毀进行数字化。目前模数变换器的釆样率多在几兆赫至1吉赫范围内,国际上也出现了几吉赫以上采样率的模数变换器。模数变换器的采样率高低,决定了模拟接收机的繁简程度,技术的发展趋势是促成直接在射频或微波频段进行回波信号的数字化相控阵雷达接收分系统的第一个重要组成部分是通道接收机。通道接收机的通道数目多少取决于相控阵雷达的功能,这在本书第2章进行详细叙述。最简化的情况是采用三通道的单脉冲测角体制,为了进行副瓣对消,会增加副瓣对消接收通道,如果作为机载、星载相控阵雷达,还会设置对海接收通道和保护通道。对于采用数字波束形成技术的相控阵雷达,可以将天线阵面分割成若干个子阵,每个子阵后置一路通道接收机,也可以每个天线辐射单元后置一路通道接收机。相控阵雷达接收分系统另一个重要组成部分是雷达频率源,有时又称为雷达频率合成器,它是以一个高质量振荡器作为频率基准,经过不同方法的综合形成的,在本书第10章介绍了三种不同的类型,即直接模拟式频率源、间接模拟式频率源(即锁相环式频率源)、直接数字式频率源,以及它们相互结合的组合式频率源它提供通道接收机和雷达激励源所需的各本振信号、数字接收机和雷达波形产生器所需的采样信号()和时钟信号(f),除此之外,雷达频率源还向雷达定时器提供定时基准信号。相控阵雷达接收分系统第三个组成部分是所谓的雷达激励源,它实际上就是相控阵雷达发射机的前端部分。雷达激励源由上变频器和雷达波形产生器组成雷达波形产生器往往是数字式可编程的,它以直接式频率综合器(DDS)芯片为核心。理论上讲这种构成的波形产生器可以产生任意多种雷达工作波形,可以任意改变脉冲宽度和雷达重复频率,可以进行任意形式的调制:例如脉冲雷达常用的线第1章概论性调频、非线性调频和脉冲编码调制等,可以产生基带波形,也可以产生中频波形,可以产生正交的1/Q分量信号,也可以产生合成单边带信号上变频器:正如同通道接收机的下变频方式,雷达激励源可以采用上变频方式,将雷达波形产生器输出的中频信号借助雷达频率源输出的本振信号上变频至发射频率,也可以在上变频基础上再倍频至雷达发射频率,这要视雷达工作频段而定。激励源输出的功率一般在几十毫瓦至几百毫瓦之间,到雷达发射机内部再经过前级放大后驱动发射机的末级功率放大器1.2相控阵雷达对通道接收技术的要求雷达接收分系统为雷达能在噪声、杂波和干扰中检测到有用目标回波信号提供通道,并进行必要的处理。相控阵雷达一般是相参雷达,接收机常常是超外差式体制,它有一个或多个中频频率。接收机首先对信号进行低噪声放大并预选,最大限度地降低内部产生的噪声和带外干扰,并使进入的射频或微波回波信号与相参本振进行变频,频率变换到中频后进一步放大和对信号带宽进行匹配滤波,再进行正交相参解调和模数变换(对于数字接收机是先进行模数变换再进行正交相参解调);为了适应回波信号在大动态范围内的变化,而通道又能工作在线性状态,需要对通道进行适当的增益控制。除以上常规功能之外,相控阵雷达对接收分系统还有如下的一些突出要求对天线接收到的目标回波信号提供污染尽量小的信号通道,并高保真地传输回波信息。因此,一般情况下,相控阵雷达接收机应为线性接收机,对信号提供线性通道。所谓“污染”,包含了设备内部产生的各种噪声以及寄生调幅和调相噪声;模数变换器的量化噪声、采样脉冲产生的孔径抖动噪声;由设备的非线性产生的谐波、互调产物;频率组合产生的组合干扰频率;各种源产生的杂散频谱。这些成分均会污染信号空间。接收机的主要任务之一就是减小这些污染源的影响,尽量扩大无污染空间。所谓信号空间,在频域的宽度是接收机的带宽,信号强度的下限就是最小可检测信号电平,但这受限于噪声电平高低,这就要抑制各种噪声来降低接收机的噪声系数,提高接收机的灵敏度,以扩展信号空间的下限,扩展信号空间的上限就是通道各电路的线性输出能力,为此,就要减小器件的各种非线性失真,合理地设计系统,比如系统增益的合理分配,增益控制的合理设计,被选用器件的线性输出能力。相控阵雷达,当采用DBF技术时,通道接收机往往是多通道的,其中对接收机最突出的要求是:为了高性能自适应天线波束的形成,对通道的幅相一致性和相互之间的隔离都提出了很高的要求,特别是在信号全动态范围内及雷达工作频段内的幅相一致性和隔离度提出了严格的要求。如果说,通道的幅相…一致性还可以通过计算机进行误差修正的话,那么通道工作的稳定性就显得更为突出。
- 2020-12-11下载
- 积分:1
基于Xgboost的商业销售预测
基于Xgboost的商业销售预测,以德国Rossmann商场的数据为例,通过对数据的探索性分析,以相关背景业务知识体系为基础,通过可视化分析,提取隐含在数据里的特征,使用性能较优的Xgboost方法进行规则挖掘,取得较好效果。第3期饶泓等:基于 Boost的商业销售预测277·(3)eta:收缩步长,即学习速率,取值范围是,3.1数据来源默认为0.3。在更新叶子节点的时候,权重乘以本文所有数据均来自 Haggle中的 Rossmanneta,以避免在更新过程中的过拟合。商店销售额数据集。 Rossmann是商人 Dirk ross(4) max _ depth:每棵树的最大深度,取值范围mann创立的德国首家平价日用品商店,现在的是,默认为6。树越深,越容易过拟合。Rossmann公司逼布欧洲7个国家,分店达100多(5) subsample:训练的实例样本占整体实例样家。论文通过位于德国的1115所 Rossmann连锁本的比例取值范围是(0.1],默认为1。值为0.5商店的历史数据预测未来48天商店的销售额时意味着 Boost随机抽取一半的数据实例来生成Haggle给出了三个数据集: train、test、 store,分树模型,这样能防止过拟合别是训练集测试集和商店基本信息的数据集,对训(6) colsample bytree:在构建每棵树时,列(特练集建模训练,对测试集进行预测。征)的子样本比,参数值的范围是(0,1]数据集基本信息如下(7) objective:默认为reg: linear;(1)训练集 train.csv:时间范围为2013年01月(8)sccd:随机数种子,为确保数据的可重现01日到2015年07月31日,共942天,1017209条性,默认为0。数据。2.2K折交叉验证方法(K一CV(2)测试集test.csv:时间范围为2015年08月论文采用K折交叉验证方法。将原始数据0日到2015年09月17日,共48天,41088条数分为K个子集,每个子集分别验证一次,剩余的K据组子集作为训练数据,这样可得到K组训练集(3)商店基本信息数据集 store.csv:1115条数和测试集以最终的分类平均精度作为性能指标。据,共1115家商店的信息。在实际应用中,K值一般大于或等于2,需要建立K3.2数据的可视化分析及原始特征提取个模型来进行K折交叉验证的实验,并计算K次为了获取影响销售额的基本数据特征,论文对测试集的平均辨识率Gaggle提供的 Rossmann数据集进行了可视化分K折交叉验证的结果能较好说明模型效果,有析,提取原始特征集。效地避免欠拟合与过拟合。在 Boost中,通过(1)顾客数和销售额之间的关系xgb.cv函数来做交叉验证。从图1中可以看出,顾客数和销售额之间存在2.3独热编码(One- hot encoding紧密的正相关关系。由于 Boost仅适用于处理数值型向量,因此处理训练集和测试集时需要将所有其它形式的数10.0据转换为数值型向量,本文采用独热编码将特征值转专换为数值。50独热编码也称一位有效编码,即对于任意时间任意给定的状态,状态向量中只有一位为1,其余6各位为0,将n类特征值转化成n位二进制数串,将顾客数特征的每个对应类设置为1。独热编码将每一个特图1顾客数与销售额的关系曲线征的个取值通过独热编码后转换成了n个二元特(2)促销对销售的影响的可视化分析征,通过该方法将特征转变成稀疏矩阵6。独热编图2和图3中 Promo取1表示当天有促销活码能够解决分类器不好处理属性数据的问题并在动取0表示没有促销活动。从图中可以看出促销一定程度上扩充了特征活动对顾客数并没有太大影响,但销售量却明显提3数据预处理高了,即促销活动并没有吸引更多的顾客,但提高了顾客的购买力,从而提高了销售额。通过查询原始为了获取数据中的有效特征,论文采用探索性数据发现没有促销的情况下顾客平均消费8.94欧数据分析方法对数据进行可视化分析获得数据分元,有促销活动的情况下平均消费10.18欧元布特征,理解原始数据的基本特征,发现数据之间的(3)星期( DayOf Week)对销售影响的可视化分潜在模式.找出数据中的有效特征析21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net278南昌大学学报(理科版)2017年40000表2商店薮据基本特征集30000特征名称含义值批20000ore商店号取值:1到1115商店类型10000商店类别分类:逢础类met最近的党争对手的距薮卷:桊商店0离里有761个商店有PromoCompetition-图2促销对销售额的影响Open SinceMonth竞争对手开张的月份月份Open since year竞争对手开张的年份年份数据6000P持续性的促销活动0:无,1:有的4000Prom2 Since Week开始参加Pomo2促销日历上的第几周数的日历周值2000Pomo2 Sincerer开始参加Pm2i年份数据PromoPromoInterval参加Pomn2促销开始Jan,Apr,Jo)e的月份列表Feb, May, Aug, Nov".图3促销对顾客数的影响Mar, Jun, Sept, Dec从图中可以看出,星期日的销售额中位数和上不同的分类特征在训练集和测试集中的比例见四分位数远远高出正常营业日,但是下四分位数却表3~6低于正常营业日,即有些商店星期日营业额高于平表3Open特征取值比例时,但也有一部分商店的销售额低于正常营业日。从图中也可以看出,从周一到周六,周一的销售额偏16.99高一些,星期六的销售额偏低一些test/yo14.5585,4440000表4Prom特征取值比例30000Pramo0凝train61.8538,15批2000test/%50.4239.5810000表5 Stateholiday特征取值比例y星期几1.990.660.40图4销售额在星期1~7中的分布情况test/%99.560.44由于篇幅的关系,对数据的可视化分析不表6 Schoolholiday特征取值比例列岀。根据这些数据的可视化化析,我们提取出如Schoclholiday表1所示和表2所示的训练数据和测试数据原始特test/%55.6544.35征集以及商店数据基本特征集。表1数据原始特征集3.3数据预处理持征名称含义3.3.1数据清洗为获得可训练用数据,我们对原tcre有店号取值:1到1115始数据进行清洗,具体过程如下:DayOfWeek星期几取值:1到7(1)标记异常数据。如商店是开门的,但是销Date时间如2013-01-01Sales销售额数值售额为零的数据为异常数据Customers顾客数数值(2)对训练集的 Sales销售额字段取对数,设置是否开店关店,1:开店为 Saleslog字段;P当天是否有促销0:无促销,1:促销0:非假日,a:公共假日;b:(3)缺失值用一1填充;State Holiday假日复活节,c:圣诞节(4)合并训练集和测试集,添加Set字段,用以SchoclHoliday学校假日0非假日,1:假日分训练集和测试集,值1为训练集,0为测试集;(3)数值化分类特征值。原始数据集中, State21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net第3期饶泓等:基于 Boost的商业销售预测holiday分类特征取值为0、a、b、c,无法代入模型计算因此重新编码为0、1、2、3; Store Type分类特4实验结果及分析值为a、b、c、d, Assortment分类特征值为a、b、c,采4.1实验条件用同样方法用整型数据重新编码(1)软件环境(6)分解特征。将原始数据集中Date特征分(a)操作系统: Windows7x64解为 DatcDay、 Datc Wcck、 DatcMonth、 Datc ycar(b)开发平台: Python2.7+R3.4.2DateDay OfYear5个特征(c)第三方库: Python: numpy+ pandas+(7)增加字段 PateNt,即Date转换为整型的 atplotlib I xgboost;R3.4.2库: data table|gg形式lot2tlubridate-zoo-dplyr+scales+xgboost+(8)规范化特征表达。对 Competition- forecast glmnetpen sinceRer和 CompetitionOpenSinceMonth字(2)硬件环境段合并成普通年月的表达,并转化为整型;将Pro处理器:Iner(R)Core(TM)i3-4160CPUcmoZsincc ycar和 Promo2 Since wcck字段合并成普3.60GHz通年月的表达,并转化为整型,增加字段内存:8GBPromo2 SinccInt4.2单 Boost模型()删除偏差大于2.5的异常数据。对特征工程后的所有特征用 Boost模型进行(10)删除存在异常的数据点,如图5所示的异训练,参数如表7所示。常数据。表7单 Boost模型参数25000参数值参数值15000thread500M4M小人Activereg: linear subsamplegrounds20000colsample bytearly stop. round250004.3组合模型0%时你以根据模型的作用将模型分为三类:商店模式模型、数据合并模型、混合模型。商店模式模型:下面采用单个模型是对每个商图5异常数据店进行单独拟合。这类模型关注商店各自的特性,3.3.2特征处理论文根据相关信息背景对数据但是它也错过了可在其他相似商店的模式中获取的进行特征处理:信息(1)增加字段 Competition OpenInt(1)线性模型lm拟合趋势,不带特征交互的(2)添加一些额外的特征,如商店的位置特征 Boost模型拟合残差StoreState发薪日效应特征 PayDay(在一个月的第(2)线性模型lm拟合趋势,带特征交互的Ⅹg个工作日设置特征值为3在随后的两天设置为 boost模型拟合残差2、1)(3)线性模型lm拟合趋势,不同参数值的(3)增加商店平均每天的销售额 Sales PerDay、 glmnet模型拟合残差平均每天的顾客数 CustomersPerDay、平均每天每(4)tslm模型拟合趋势丨季节性,Ⅹ gboost模位顾客的销售额 SalesPerCustomers Per Day作为新型拟合残差。的特征。(5)tslm模型拟合趋势十季节性, glmnet模型(4)增加特征组合,如: store; DayofWeek,拟合残差store: Dayofweek: Promo等等。(6)tslm模型拟合趋势十季节性,Ⅹ gboost模型+ gemnet模型拟合残差。(7)每个商店直接用Ⅹ gboost模型拟合残差。21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net·280·南昌大学学报(理科版)2017年这些模型中,含有 Boost模型的模型参数设1.5- A. train-rmspe- B. train-rmspe置如表8,其中模型7中参数 rounds值设为500。1.0-A.validation-rmspe-B validation表8组合 Boost的模型参数0.5参数值0150030004500600075009000参数值RMSPEreg: linear eta0.013C0max _ depth图6在训练集 train和验证集 validation上的 RMSPE值colsamplc bytrcc0.8subsample3.95图7给出了 Boost模型中非组合特征的重要数据合并模型:下列模型使用合并有 store数度得分,从图中可以看出时间类特征和有关竞争对据集和trai训练集的数据集。各个模型的参数设手的特征得分非常髙,这意味着这些特征对模型具置如表9-11有非常大的影响。表9没有特征工程的 Boost模型DateWeek参数参数CompetitionopenIntreg: lineareta0.01SalesperDayPromorounds3000max _depthcolsample bytreesubsampleAssortment 152100000020000003000000F score特征重要度表10有特征工程的 Boost模型图?特征重要度得分参数参数值bjectivereg: linear eta为了对比各模型的泛化效果,我们给出了单类模型(线性模型LM、时间序列线性模型TSLM、基4000subsoIl0.9于 Lasso和 Elastic net正则广义线性模型 glmnet、early stop. round100cclsample bytree极端梯度上升模型ⅹ gboost)和它们之间的组合模型在测试集上 RMSPE值,从而评价模型在测试集表11153个特征十特征交互的 Xgboost模型上的泛化能力。如表13所示参数值参数表13各模型 RMSPE值比较objectivereg: linear etaC.015max depth18模型RMSPE值.20657300CLM一简单的特征处理rounds. 1l.7TSLM+筒单的特征处理cCanvTree0.12751early stop. round100random forest-简单的特征处理glmnet+简单的特征工程3.11974组合模型:通过组合数据合并模型来获取跨多个商Boost十简单的特征工程0.11839店之间共同的特质。模型的残差用商店模式模型中Boost+特征工程Boost+ glmnet+特征工程0.11262的模型来拟合,从而获得每个商店的特质。用Igloos+ glmnet+tslm+lm+特征工程0.1114Gprcomp函数从数据中提取50个主成分,并用Xg从表中可以看出,Ⅹ ghost单模型的能力就优bost模型来拟合、计算残差。模型说明如下:于其它模型,在进行了简单特征工程后, Boost(1)使用线性模型lm拟合趋势,带特征交互的和 gemnet模型相比, Boost模型依然效果更好。glmnet模型+ Boost模型拟合残差,最后我们结合TSLM|LM在处理趋势和季节性上(2)使用tslm拟合趋势和季节性,带特征交互的优势,采用集成方法对 Xgboost+ glmnet进行组的 Boost模型拟合残差。合得出优化模型Ⅹ gboost+ glmnet+tslm+lm+特图6给出模型在训练集和验证集上的 RMSPE征工程, RMSPE值得到较大提升,泛化性能最优的变化过程,横坐标是次数,纵坐标是 RMSPE的值A是人工删除了异常点的数据中的异常数据5结论并没有删除。可以发现在训练集上训练的前500次本论文研究基于 Boost方法对实体零售业销RMSPE的值就迅速的降低到0.2,然后在1750次售额进行预测。论文以德国零售业 Rossmann公就在0.1左右了,可以看出在训练集上效果很好。司1115家实体门店的商场信息和销售数据为薮据21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net第3期饶泓等:基于 Boost的商业销售预测281·源,采用 Boost方法对公司销售额进行预测。参考文献通过在特征工程中对原始数据进行特征提取、L1」赵啸彬.基于数据挖掘的零售业销售预测LD.上海:选择和构建,筛选岀用于训练的特征属性;对比Xα上海交通大学.2010boost、随机森林、 GLMNET以及IM、TSIM模型2 CHEN T,HET. Higgs Boson Discovery with boosted等不同方法对销售额的预测结果,表明 Xgboosτ方TreesLCI.JMLR: Workshop and Conference Proceed法无论是训练速度还是在 RMSPE评价标准上都具2015.42:6980有明显的优势。3 ROBERT E. Banfield, Lawrence (. Hall. Kevin WBowyer. W. P. Kegelmeyer, A Comparison of Decision为了进一步提高 Boost预测模型的精度和泛Tree Ensemble Creation Techniques LI]. IEEE Trans-化能力,本文通过大量的特征工程,尝试多种模型的actions on Pattcrn Analysis and machinc intelligence集成学习方法和参数调优,利用 GLMNET和Xg2007,29(1):173-180boost模型拟合残差,并结合IM、TSLM在趋势和[]李航.统计学习方法[M]北京:清华大学出版社,李节性预测的优点,获得组合优化模型。实验表明2012该组合模型在性能上优于单一 Boost预测模型。[5]闻玲·移动平均季节模型在商品销售收入预测中的应这种基于Xⅹ gboost的组合模型不仅适用于对德AJ. Market Modernization, 2010(28):43-45国零售业销售额的预测还可以将此方法应用于国6黄伟陶俊才.一种基于k- means聚类和关监督学习内零售实体业甚至电商平台的销售额预测,对于提的医学图像分割算法[J].南吕大学学报(理科版),2(14,33(1):31-35高商店的运营生产模式、日常管理、价格管理、配送[7 RICE J Mathematical Statics and Data Analysis[M]方式及精准营销具有重要的意义cand Edition, Plymouth: Duxbury Press, 2006: 221-21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
- 2021-05-06下载
- 积分:1