-
斯坦福机器学习ML公开课笔记1-15(完整版、带目录索引和NG原版讲义)
1-15节全部完整版讲义!超清分享~~~(附赠目录索引和NG原版讲义)含金量高,独家整理~~目录如下:公开课笔记1-2——线性规划、梯度下降、正规方程组公开课笔记3——局部加权回归、逻辑斯蒂回归、感知器算法公开课笔记4——牛顿方法、指数分布族、广义线性模型公开课笔记5——生成学习、高斯判别、朴素贝叶斯公开课笔记6——NB多项式模型、神经网络、SVM初步公开课笔记7——最优间隔分类、原始/对偶问题、SVM对偶公开课笔记8———核技法、软间隔分类器、SMO算法公开课笔记9—偏差/方差、经验风险最小化、联合界、一致收敛公开课笔记10——VC维、模型选择、特征选择公开课笔记11
- 2020-12-04下载
- 积分:1
-
压缩感知OMP算法代码
压缩感知OMP算法代码压缩感知OMP算法代码压缩感知OMP算法代码
- 2020-12-01下载
- 积分:1
-
阿里云-飞天开放平台技术白皮书.pdf
阿里云计算为中国第一大公有云平台,云计算产品服务完全基于自主知识产权,先后获 85 项国家技术专利,获得国家发改委的云计算专项资金支持。阿里云飞天开放平台是在数据中心的大规模 Linux 集群之上构建的一套综合性的软硬件系统,将数以千计的服务器联成一台“超级计算机”,并且将这台超级计算机的存储资源和计算资源,以公共服务的方式,输送给互联网上的用户或者应用系统。阿里云致力于打造云计算的基础服务平台,注重为中小企业提供大规模、低成本的云计算服务。阿里云的目标是通过构建飞天这个支持多种不同业务类型的公有云计算平台,帮助中小企业在云服务上建立自己的网站和处理自己的业务流阿里云allyn. com打造数据分享第一平台飞天开放平台技术白皮书1.概述阿里云计算为中国第一大公有云平台,云计算产品服务完全基于自主知识产权,先后获85项国家技术专利,获得国家发改委的云计算专项资金支持。阿里云飞天开放平台是在数据中心的大规模 Linux集群之上构建的一套综合性的软硬件系统,将数以千讣的服务器联成一台“超级讣算机”,并且将这台超级计算机的存储资源和计算瓷源,以公共服务的方式,输送给互联网上的用户或者应川系统阿里云致力于打造云计算的基础服务平台,注重为中小企业提供大规模、低成本的云计算服务。阿里云的目标是通过构建飞天这个支持多种不同业务类型的公有云计算平台,帮助中小企业在云服务上建立自己的网站和处理自己的业务流程,帮助开发者向云端开发模式转变,用方便、低廉的方式让互联网服务全面融入人们的生活,将网络经济模式带入移动互联网,构建出以云计算为基础的全新互联网生态链。在此基础上,实现阿里云成为互联网数据分享第一平台的目标。2.体系架构如图2.1所示是飞天的体系架构图。整个飞天平台包括飞天内核(图2中黄色组件)和飞天开放服务(图2.1中蓝色组件)两大组成部分。飞天内核为上层的飞天开放服务提供存储、计算和调度等方面的底层支持,对应于图2.1中的协调服务、远程过程调用、安全管理、资源管理、分布式文件系统、任务调度、集群部署和集群监控模块飞天开放服务为用户应用程序提供了存储和计算两方面的接口和服务,包括弹性计算服务( Elastic Compute service,简称ECS)、开放存储服务(OpenStorage service,简称0SS)、开放结构化数据服务( Open table service,简称0TS)、关系型数据库服务( Relational database service,简称RDS)和开放数据处理服务( pen Data processing Service,简称ODPS),并基于弹性讣算服务提供了云服务引擎( Aliyun cloud engine,简称ACE)作为第三方应用阿里云allyn. com打造数据分享第一平台开发和Web应用运行和托管的平台。服务引擎ACE弹性计算关系型数开放存储开放构化开放数据据库服务数括服务处理服务RDSODPS分布式立科系统(盡白)任务调度(伏〕远程过程调用【夸父安全管理钟馗)分布协同服(女赐(伏)Linux集群数据飞天平台飞天内核飞大内核包含的模块可以分为以下儿部分:分布式系统底层服务:提供分布式环境下所需要的协调服务、远程过程调用、安全管理和资源管理的服务。这些底层服务为上层的分布式文件系统、任务调度等模块提供支持。分布式文件系统:提供一个海量的、可靠的、可扩展的数据存储服务,将集群中各个节点的存储能力聚集起来,并能够自动屏蔽软硬件故障,为用户提供不问断的数据访问服务。支持增量扩容和数据的自动平衡,提供类似于P0sSIX的用户空间文件访问API,攴持随机读写和追加写的操作仼务调度:为集群系统中的任务提供调度服务,同时支持强调响应速虔的在线服务( Online service)和强调处理数据吞吐量的离线任务( BalchProcessing job)。自动检测系统中故障和热点,通过错误重试、针对长尾作业并发备份作业等方式,保证作业稳定可靠地完成。集群监控和部署:对集群的状态和上层应川服务的运行状态和性能指标进行监控,对异常事件产生警报和记录;为运维人员提供整个飞天平台以及上层应用的部署和配置管理,支持在线集群扩容、缩容和应用服务的在线升级。阿里云allyn. com打造数据分享第一平台3.分布式系统底层服务31.协调服务(女娲)女妫(Nuwa)系统为飞天提供高可用的协调服务( Coordination service),是构建各类分布式应用的核心服务,它的作用是采用类似文件系统的树形命名空来让分布式进程互相协同工作。例如,当集群变更导致特定的服务被迫改变物理运行位置时,如服务器或者网终故障、配置调整或者扩容时,借助女可以使其他程序快速定位到该服务新的接入点,从而保证了整个平台的高可靠性和髙可用性。女娲基于类 Paxos协议[15],由多个女娲 Server以类似文件系统的树形结构存储数据,提供高可用、高并发用户请求的处理能力。女娲的目录表小一个包含文件的集合。与Unix中的文件路径一样,女娲中路径是以“/”分割的,根目录( Root entry)的名字是“/”,所有目录的名字都是以“/”结尾的。与Unix文件路径不一样之处在于:女娲中所有文件或日录都必须使用从根目录开始的绝对路径。由于女娲系统的设计目的是提供协调服务,而不是存储大量数据的,所以每个文件的内容( Value)的大小被限制在IMB以内。在女娲系统中,每个文件或目录都保存有创建者的信息。一旦某个路径被用户创建,其他用户就可以访问和修改这个路径的值(即文件内容或目录包含的文件名)。女娲攴持 Publish/ Subscribe模式,其中一个发布者、多个订阅者(OnePublisher/ Many Subscriber)的模式提供了基本的订阅功能:另外,还可用通过多个发布者、多个订阅者( Many Publisher/ Many Subscriber)的方式提供分布式选举( Distributed election)和分布式锁的功能。再举一个使用女娲来实现负载均衡的例子:提供某一服务的多个节点,在服务启动的时候在女娲系统的同一日录下创建文件,例如, server1创建文件nuwa:// cluster/ myservice/ server1”, server2在同一目录下创建“nuwa:// cluster/ myservice/ server2”。当客户端使用远程过程调用的时候」首先列举女娲服务中“nuwa:// cluster/ myservice”目录下的文件,这样就可以荻得 server1和 server2,客户端随后可以从中选择一个节点发出自己的请求阿里云allyn. com打造数据分享第一平台从而实现负载均衡。32.远程过程调用(夸父)在分布式系统中,不同计算机之间只能通过消息交换的方式进行通信。显式的消息通信必须通过 Socket接口编程,而远程过程调用( Remote procedureCall,简称RPC[9])可以隐藏显式的消息交换,使得程序员可以像调用本地函数一样来调用远程的服务夸父( Kuafu)是飞天内核中负责网络通信的模块,它提供了一个RPC的接,简化编写基于网络的分布式应用。夸父的设计目标是提供高可用(7x24小时)、大吞吐量( Gigabyte)、高效率、易用(简明APⅠ、多种协议和编程接口)的RPC服务。RPC客户端( RPC CLient)通过URI指定请求需要发送的RPC服务端( RPC Server)的地址,目前夸父支持两种协议形式。TCP:例如,tep:// fooserver01:9000●Ⅶuwa:例如,nuwa:/nuwa01/ Fooserver与用流( stream)传输的TCP通信相比,夸父通信是以消息( Message)为单位的,支持多种类型的消息对象,包括标准字符串std:: string和基于td:map实现的若干 string键值对。夸父RPC同时攴持异步( asynchronous)和同步( synchronous)的远程过程调用形式。异步调用:RPC函数调用吋不等接收到结果就会立即返回;用户必须通过显式调用接收函数取得请求结果。●同步调用:RPC函数调用时会等待,直到接收到结果才返回。在实现中,同步调用是通过封装异步调用来实现的。在夸父的实现中,客户端程序通过 Unix domain socket与本机上的一个夸父代理( Kuafu proxy)连接,不同计算机之间的夸父代理会建立一个TCP连接这样做的好处是可以更高效地使用网络带宽,系统可以支持上千台计算机之间的互联需求。此外,夸父利用女娲来实现负载均衡;对大块数据的传输做了优化与TCP类似,夸父代理之问还实现了发送端和接收端的流控( Flow Coηtrol)机制阿里云allyn. com打造数据分享第一平台33.安全管理(钟馗)钟馗( Zhongkui)是飞天内核中负责安全管理的模块,它提供了以用户为单位的身份认证和授权,以及对集群数据资源和服务进行的访问控制。用户的身份认证( Authentication)是于密钥机制的。用户对资源的访问控制是基于权能( Capability)机制进行授权( Authorization)的Capability是用于访问控制的一种数据结构,它定义∫对一个或多个指定的资源(如目录、文件、表等)所具有的访问权限。用户访问飞天系统的资源时必须持有 Capability,否则即视为非法。打个比方,如果把 Capability理解为地铁票,乘坐地铁(对地铁的一种访问方式)的时候必须要有 Capability,即地铁票。密钥对是基于公开密钥方法的,包括一个私钥和相对应的公钥。在飞天系统中,密钥对用于数字签名服务,以保证 Capability的不可伪造。换句话说,私钥用于生数字签名(如签发 Capability),公钥用于验证数字签名的有效性(如验证签发过的 Capability的有效性)考虑到网络通信时任何通信节点都是不可信的,所以即使是飞大自身模块内部之间的通信也同样是需要认证和授权的,而且验证的机制也完全一样。34.分布式文件系统(盘古)盘古( Pangu)是一个分布式文件系统,盘古的设计目标是将大量通用机器的存储资源聚合在一起,为用户提供大规模、高可靠、高可用、高吞吐量和冋扩展的存储服务,是飞天内核中的一个重要组成部分。大规模:能够支持数十PB量级的存储大小(1PB-1000T3),总文件数量达到亿量级。数据高可靠性:保证数捃和元数据( Metadata)是持久保存并能够正确访问的,保证所有数据存储在处于不同机架的多个节点上面(通常设置为3)。即使集群中的部分节点岀现硬件和软件故障,系统能够检测到故障并自动进行数据的备份和迁移,保证数据的纹全存在5阿里云allyn. com打造数据分享第一平台服务高可用性:保证用户能够不中断地访问数据,降低系统的不可服务时间。即使岀现软硬件的故障、异常和系统升级等情况,服务仍可正常访问。髙昋吐量:运行时系统Ⅰ/0吞吐量能够随机器规模线性增长,保证响应时间高可扩展性:保证系统的容量能够通过增加机器的方式得到白动扩展,卜线札器存储的数据能够自动迁移到新加入的节点上同时,盘古也能很好地支持在线应用的低延时需求。在盘古系统中,文件系统的元数据存储在多个主服务器( Master)上,文件内容存储在人量的块服务器( Chunk server)上。客户端程序在使用盘古系统时,首先从主服务器获取元数据信息(包括接下来与哪些块服务器交互),然后在块服务器上直接进行数据操作。由于元数据信息很小,大量的数据交互是客户端直接与块服务器进行的,因此盘占采用少量的主服务器来管理元数据,并使用 Paxos协议[15]保证元数据的致性。此外,块大小被设置为64MB,进一步减少了元数据的大小,因此可以将元数据全部放到内存里,从而使得主服务器能够处理大量的并发请求块服务器负责存储大小为64B的数据块。在向文件写入数据之前,客户端将建立到3个块服务器的连接,客户向主副本( Replica)写入数据以后,由主副本负责向其他副本发送数据。与直接由客户端向三个副本写入数据相比,这样可以减少客户端的网终带宽使用。块副本在放置的时候,为保证数据可用性和最大化地使用网络带宽,会将副本放置在不同机架上,并优先考虑磁盘利用率低的杋器。当硬件故障或数据不可用造成数据块的副本数目达不到3份的时候,数据块会被重新复制。为保证数据的完整性,每块数据在写入时会同时计算一个校验值,与数据同时写入磁盘。当读取数据块的时候,块服务器会再次计算恔验值与之前存入的值是否相同,如果不同就说明数据出现了错误,需要从其他副木重新读取数据。在线应用对盘古提出了与离线应用不同的挑战:OSS、OTS要求低吋延数据读写,ECS在要求低吋延的同吋还需要具备随机写的能力。针对这些需求,盘古实现了事务日志文件和随机访问文件,用以支撑在线应用。其中,日志文件通过阿里云allyn. com打造数据分享第一平台多种方法对时延进行了优化,包括设置更高的优先级、由客户端直接写多份拷贝而不是用传统的流水线方式、写入成功,不经过 Master确认等。随机访问文件则允许用户随机读写,同时也应用了类似日志文件的时延优化技术。35.资源管理和任务调度(伏羲)伏羲(Fuxi)是飞天内核中负责资源管理和任务调度的模块,同时也为应用开发提供了一套编程基础框架。伏羲同时支持强调响应速度的在线服务和强调处理数据吞吐量的离线任务。在伏羲中,这两类应用分别简称为 Service和Job在资源管理方面,伏羲主要负责调度和分配集群的存储、计算等资源给上层应用;管理运行在集群节点上任务的生命周期;在多用户运行环境中,支持讣算额度、访问控制、作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。在任务调度方面,伏羲囿向海量数据处理和大规模计算类型的复杂应用,提供了一个数据驱动的多级流水线并行计算框架,在表述能力上兼容MapReduce l12」、Map- Reduce-erge等多种编程模式;自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成;具有高可扩展性,能够根据数据分布优化网终开销。伏羲中应用了“ Master/ Worker”工作模型。其中, Master负责进行资源中请和调度、为 Worker创建工作计划(Plan)并监控 Worker的生命周期, Worker负责执行具体的工作计划并及时向 Master汇报工作状态( Status)。此外, Master支持多级模式,即一个 Master可以隶属于另外一个 Master之下伏羲 Master负责整个集样资源管理和调度,处理Job/ Service启动、停止Failover等生命周期的维护。同时伏羲 Master支持多用户额度配冒、Job/ Service的多优先级设置和动态资源抢占逻辑,可以说是飞天的“大脑”伏羲对资源调度是多维度的,可以根据CPU、内存等系统资源,以及应用自定义的虚拟资源对整个机群进行资源分配和调度土伯(Tubo)是部署在每台由伏羲管理的机器上的后台进程,负责收集并向伏羲 Master报告本机的状态,包括系统资源的消耗、 Master或 Worker进程的运行、等待、完成和失败事件,并根据伏羲 Master或者Job/ Service master阿里云allyn. com打造数据分享第一平台的指令,启动或杀死指定的 Master或 Worker进程。同时土伯还负责对计算机健康状况进行监控,对异常 Worker(比如内存超用)进行及时的清理和汇报对于在线服务( Service),由伏羲 Master负责 Service master的启动与状态监控,处理相应 Service master的资源申请请求。 Service master负责管理Service Worker的任务分配、生命周期管理以及 Failover的管理。对于离线任务(Job),伏羲 Master负责 Job Master的启动与状态监控,处理相应 Job master的资源申请凊求。 Job master根据用户输入的Job描述文件,将仼务分解成一个或以上的Task,每个Task的资源申请、 Task Worker的调度和生命周期维护由 Task master负责3.5.1.在线服务调度在飞天内核中,每个 Service都有一个 Service master和多个不同角色(Role)的 Service worker,它们一起协同工作来完成整个服务的功能。 ServiceMaster是伏羲 Master管理下的子 Master( Child master),它负责这个 Service相关的资源申请、状态维扩以及故障恢复,并定期与伏羲 Master进行交互,确保整个 Service正确、正常地运行。每个 Service Worker的角色和执行的动作,都是由用户来定义的每个 Service Worker负责处理一个到多个数据分片( Partition),同一时刻一个分片只会被分型到一个 Service Worker处理。将数据分割成为互不相关的分片,然后将不同分片给不同 Service worker来处理是构建大规模应川服务的关键特性。数据分片是一个抽象的概念,在不同的应川中有不同的含义。在服务运行的过程中,每个 Seryice的数据分片的数和内容都是可以动态变化的,应用程序可以根据实际需要对数据分片动态地进行加载(Load)、卸载( Unload)、分裂( Split)和迁移( Migrate)等操作。3.5.2.离线任务调度在飞天中,一个离线任务(Job)的执行过程被抽象为一个有向无环图( Directed Acyclic graph,简称DAG):图上每个顶点对应一个Task,每条边对应一个 Pipeline。个连接的两个Task的 Pipeline表示前个Task的输出
- 2021-05-07下载
- 积分:1
-
基于Xgboost的商业销售预测
基于Xgboost的商业销售预测,以德国Rossmann商场的数据为例,通过对数据的探索性分析,以相关背景业务知识体系为基础,通过可视化分析,提取隐含在数据里的特征,使用性能较优的Xgboost方法进行规则挖掘,取得较好效果。第3期饶泓等:基于 Boost的商业销售预测277·(3)eta:收缩步长,即学习速率,取值范围是,3.1数据来源默认为0.3。在更新叶子节点的时候,权重乘以本文所有数据均来自 Haggle中的 Rossmanneta,以避免在更新过程中的过拟合。商店销售额数据集。 Rossmann是商人 Dirk ross(4) max _ depth:每棵树的最大深度,取值范围mann创立的德国首家平价日用品商店,现在的是,默认为6。树越深,越容易过拟合。Rossmann公司逼布欧洲7个国家,分店达100多(5) subsample:训练的实例样本占整体实例样家。论文通过位于德国的1115所 Rossmann连锁本的比例取值范围是(0.1],默认为1。值为0.5商店的历史数据预测未来48天商店的销售额时意味着 Boost随机抽取一半的数据实例来生成Haggle给出了三个数据集: train、test、 store,分树模型,这样能防止过拟合别是训练集测试集和商店基本信息的数据集,对训(6) colsample bytree:在构建每棵树时,列(特练集建模训练,对测试集进行预测。征)的子样本比,参数值的范围是(0,1]数据集基本信息如下(7) objective:默认为reg: linear;(1)训练集 train.csv:时间范围为2013年01月(8)sccd:随机数种子,为确保数据的可重现01日到2015年07月31日,共942天,1017209条性,默认为0。数据。2.2K折交叉验证方法(K一CV(2)测试集test.csv:时间范围为2015年08月论文采用K折交叉验证方法。将原始数据0日到2015年09月17日,共48天,41088条数分为K个子集,每个子集分别验证一次,剩余的K据组子集作为训练数据,这样可得到K组训练集(3)商店基本信息数据集 store.csv:1115条数和测试集以最终的分类平均精度作为性能指标。据,共1115家商店的信息。在实际应用中,K值一般大于或等于2,需要建立K3.2数据的可视化分析及原始特征提取个模型来进行K折交叉验证的实验,并计算K次为了获取影响销售额的基本数据特征,论文对测试集的平均辨识率Gaggle提供的 Rossmann数据集进行了可视化分K折交叉验证的结果能较好说明模型效果,有析,提取原始特征集。效地避免欠拟合与过拟合。在 Boost中,通过(1)顾客数和销售额之间的关系xgb.cv函数来做交叉验证。从图1中可以看出,顾客数和销售额之间存在2.3独热编码(One- hot encoding紧密的正相关关系。由于 Boost仅适用于处理数值型向量,因此处理训练集和测试集时需要将所有其它形式的数10.0据转换为数值型向量,本文采用独热编码将特征值转专换为数值。50独热编码也称一位有效编码,即对于任意时间任意给定的状态,状态向量中只有一位为1,其余6各位为0,将n类特征值转化成n位二进制数串,将顾客数特征的每个对应类设置为1。独热编码将每一个特图1顾客数与销售额的关系曲线征的个取值通过独热编码后转换成了n个二元特(2)促销对销售的影响的可视化分析征,通过该方法将特征转变成稀疏矩阵6。独热编图2和图3中 Promo取1表示当天有促销活码能够解决分类器不好处理属性数据的问题并在动取0表示没有促销活动。从图中可以看出促销一定程度上扩充了特征活动对顾客数并没有太大影响,但销售量却明显提3数据预处理高了,即促销活动并没有吸引更多的顾客,但提高了顾客的购买力,从而提高了销售额。通过查询原始为了获取数据中的有效特征,论文采用探索性数据发现没有促销的情况下顾客平均消费8.94欧数据分析方法对数据进行可视化分析获得数据分元,有促销活动的情况下平均消费10.18欧元布特征,理解原始数据的基本特征,发现数据之间的(3)星期( DayOf Week)对销售影响的可视化分潜在模式.找出数据中的有效特征析21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net278南昌大学学报(理科版)2017年40000表2商店薮据基本特征集30000特征名称含义值批20000ore商店号取值:1到1115商店类型10000商店类别分类:逢础类met最近的党争对手的距薮卷:桊商店0离里有761个商店有PromoCompetition-图2促销对销售额的影响Open SinceMonth竞争对手开张的月份月份Open since year竞争对手开张的年份年份数据6000P持续性的促销活动0:无,1:有的4000Prom2 Since Week开始参加Pomo2促销日历上的第几周数的日历周值2000Pomo2 Sincerer开始参加Pm2i年份数据PromoPromoInterval参加Pomn2促销开始Jan,Apr,Jo)e的月份列表Feb, May, Aug, Nov".图3促销对顾客数的影响Mar, Jun, Sept, Dec从图中可以看出,星期日的销售额中位数和上不同的分类特征在训练集和测试集中的比例见四分位数远远高出正常营业日,但是下四分位数却表3~6低于正常营业日,即有些商店星期日营业额高于平表3Open特征取值比例时,但也有一部分商店的销售额低于正常营业日。从图中也可以看出,从周一到周六,周一的销售额偏16.99高一些,星期六的销售额偏低一些test/yo14.5585,4440000表4Prom特征取值比例30000Pramo0凝train61.8538,15批2000test/%50.4239.5810000表5 Stateholiday特征取值比例y星期几1.990.660.40图4销售额在星期1~7中的分布情况test/%99.560.44由于篇幅的关系,对数据的可视化分析不表6 Schoolholiday特征取值比例列岀。根据这些数据的可视化化析,我们提取出如Schoclholiday表1所示和表2所示的训练数据和测试数据原始特test/%55.6544.35征集以及商店数据基本特征集。表1数据原始特征集3.3数据预处理持征名称含义3.3.1数据清洗为获得可训练用数据,我们对原tcre有店号取值:1到1115始数据进行清洗,具体过程如下:DayOfWeek星期几取值:1到7(1)标记异常数据。如商店是开门的,但是销Date时间如2013-01-01Sales销售额数值售额为零的数据为异常数据Customers顾客数数值(2)对训练集的 Sales销售额字段取对数,设置是否开店关店,1:开店为 Saleslog字段;P当天是否有促销0:无促销,1:促销0:非假日,a:公共假日;b:(3)缺失值用一1填充;State Holiday假日复活节,c:圣诞节(4)合并训练集和测试集,添加Set字段,用以SchoclHoliday学校假日0非假日,1:假日分训练集和测试集,值1为训练集,0为测试集;(3)数值化分类特征值。原始数据集中, State21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net第3期饶泓等:基于 Boost的商业销售预测holiday分类特征取值为0、a、b、c,无法代入模型计算因此重新编码为0、1、2、3; Store Type分类特4实验结果及分析值为a、b、c、d, Assortment分类特征值为a、b、c,采4.1实验条件用同样方法用整型数据重新编码(1)软件环境(6)分解特征。将原始数据集中Date特征分(a)操作系统: Windows7x64解为 DatcDay、 Datc Wcck、 DatcMonth、 Datc ycar(b)开发平台: Python2.7+R3.4.2DateDay OfYear5个特征(c)第三方库: Python: numpy+ pandas+(7)增加字段 PateNt,即Date转换为整型的 atplotlib I xgboost;R3.4.2库: data table|gg形式lot2tlubridate-zoo-dplyr+scales+xgboost+(8)规范化特征表达。对 Competition- forecast glmnetpen sinceRer和 CompetitionOpenSinceMonth字(2)硬件环境段合并成普通年月的表达,并转化为整型;将Pro处理器:Iner(R)Core(TM)i3-4160CPUcmoZsincc ycar和 Promo2 Since wcck字段合并成普3.60GHz通年月的表达,并转化为整型,增加字段内存:8GBPromo2 SinccInt4.2单 Boost模型()删除偏差大于2.5的异常数据。对特征工程后的所有特征用 Boost模型进行(10)删除存在异常的数据点,如图5所示的异训练,参数如表7所示。常数据。表7单 Boost模型参数25000参数值参数值15000thread500M4M小人Activereg: linear subsamplegrounds20000colsample bytearly stop. round250004.3组合模型0%时你以根据模型的作用将模型分为三类:商店模式模型、数据合并模型、混合模型。商店模式模型:下面采用单个模型是对每个商图5异常数据店进行单独拟合。这类模型关注商店各自的特性,3.3.2特征处理论文根据相关信息背景对数据但是它也错过了可在其他相似商店的模式中获取的进行特征处理:信息(1)增加字段 Competition OpenInt(1)线性模型lm拟合趋势,不带特征交互的(2)添加一些额外的特征,如商店的位置特征 Boost模型拟合残差StoreState发薪日效应特征 PayDay(在一个月的第(2)线性模型lm拟合趋势,带特征交互的Ⅹg个工作日设置特征值为3在随后的两天设置为 boost模型拟合残差2、1)(3)线性模型lm拟合趋势,不同参数值的(3)增加商店平均每天的销售额 Sales PerDay、 glmnet模型拟合残差平均每天的顾客数 CustomersPerDay、平均每天每(4)tslm模型拟合趋势丨季节性,Ⅹ gboost模位顾客的销售额 SalesPerCustomers Per Day作为新型拟合残差。的特征。(5)tslm模型拟合趋势十季节性, glmnet模型(4)增加特征组合,如: store; DayofWeek,拟合残差store: Dayofweek: Promo等等。(6)tslm模型拟合趋势十季节性,Ⅹ gboost模型+ gemnet模型拟合残差。(7)每个商店直接用Ⅹ gboost模型拟合残差。21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net·280·南昌大学学报(理科版)2017年这些模型中,含有 Boost模型的模型参数设1.5- A. train-rmspe- B. train-rmspe置如表8,其中模型7中参数 rounds值设为500。1.0-A.validation-rmspe-B validation表8组合 Boost的模型参数0.5参数值0150030004500600075009000参数值RMSPEreg: linear eta0.013C0max _ depth图6在训练集 train和验证集 validation上的 RMSPE值colsamplc bytrcc0.8subsample3.95图7给出了 Boost模型中非组合特征的重要数据合并模型:下列模型使用合并有 store数度得分,从图中可以看出时间类特征和有关竞争对据集和trai训练集的数据集。各个模型的参数设手的特征得分非常髙,这意味着这些特征对模型具置如表9-11有非常大的影响。表9没有特征工程的 Boost模型DateWeek参数参数CompetitionopenIntreg: lineareta0.01SalesperDayPromorounds3000max _depthcolsample bytreesubsampleAssortment 152100000020000003000000F score特征重要度表10有特征工程的 Boost模型图?特征重要度得分参数参数值bjectivereg: linear eta为了对比各模型的泛化效果,我们给出了单类模型(线性模型LM、时间序列线性模型TSLM、基4000subsoIl0.9于 Lasso和 Elastic net正则广义线性模型 glmnet、early stop. round100cclsample bytree极端梯度上升模型ⅹ gboost)和它们之间的组合模型在测试集上 RMSPE值,从而评价模型在测试集表11153个特征十特征交互的 Xgboost模型上的泛化能力。如表13所示参数值参数表13各模型 RMSPE值比较objectivereg: linear etaC.015max depth18模型RMSPE值.20657300CLM一简单的特征处理rounds. 1l.7TSLM+筒单的特征处理cCanvTree0.12751early stop. round100random forest-简单的特征处理glmnet+简单的特征工程3.11974组合模型:通过组合数据合并模型来获取跨多个商Boost十简单的特征工程0.11839店之间共同的特质。模型的残差用商店模式模型中Boost+特征工程Boost+ glmnet+特征工程0.11262的模型来拟合,从而获得每个商店的特质。用Igloos+ glmnet+tslm+lm+特征工程0.1114Gprcomp函数从数据中提取50个主成分,并用Xg从表中可以看出,Ⅹ ghost单模型的能力就优bost模型来拟合、计算残差。模型说明如下:于其它模型,在进行了简单特征工程后, Boost(1)使用线性模型lm拟合趋势,带特征交互的和 gemnet模型相比, Boost模型依然效果更好。glmnet模型+ Boost模型拟合残差,最后我们结合TSLM|LM在处理趋势和季节性上(2)使用tslm拟合趋势和季节性,带特征交互的优势,采用集成方法对 Xgboost+ glmnet进行组的 Boost模型拟合残差。合得出优化模型Ⅹ gboost+ glmnet+tslm+lm+特图6给出模型在训练集和验证集上的 RMSPE征工程, RMSPE值得到较大提升,泛化性能最优的变化过程,横坐标是次数,纵坐标是 RMSPE的值A是人工删除了异常点的数据中的异常数据5结论并没有删除。可以发现在训练集上训练的前500次本论文研究基于 Boost方法对实体零售业销RMSPE的值就迅速的降低到0.2,然后在1750次售额进行预测。论文以德国零售业 Rossmann公就在0.1左右了,可以看出在训练集上效果很好。司1115家实体门店的商场信息和销售数据为薮据21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net第3期饶泓等:基于 Boost的商业销售预测281·源,采用 Boost方法对公司销售额进行预测。参考文献通过在特征工程中对原始数据进行特征提取、L1」赵啸彬.基于数据挖掘的零售业销售预测LD.上海:选择和构建,筛选岀用于训练的特征属性;对比Xα上海交通大学.2010boost、随机森林、 GLMNET以及IM、TSIM模型2 CHEN T,HET. Higgs Boson Discovery with boosted等不同方法对销售额的预测结果,表明 Xgboosτ方TreesLCI.JMLR: Workshop and Conference Proceed法无论是训练速度还是在 RMSPE评价标准上都具2015.42:6980有明显的优势。3 ROBERT E. Banfield, Lawrence (. Hall. Kevin WBowyer. W. P. Kegelmeyer, A Comparison of Decision为了进一步提高 Boost预测模型的精度和泛Tree Ensemble Creation Techniques LI]. IEEE Trans-化能力,本文通过大量的特征工程,尝试多种模型的actions on Pattcrn Analysis and machinc intelligence集成学习方法和参数调优,利用 GLMNET和Xg2007,29(1):173-180boost模型拟合残差,并结合IM、TSLM在趋势和[]李航.统计学习方法[M]北京:清华大学出版社,李节性预测的优点,获得组合优化模型。实验表明2012该组合模型在性能上优于单一 Boost预测模型。[5]闻玲·移动平均季节模型在商品销售收入预测中的应这种基于Xⅹ gboost的组合模型不仅适用于对德AJ. Market Modernization, 2010(28):43-45国零售业销售额的预测还可以将此方法应用于国6黄伟陶俊才.一种基于k- means聚类和关监督学习内零售实体业甚至电商平台的销售额预测,对于提的医学图像分割算法[J].南吕大学学报(理科版),2(14,33(1):31-35高商店的运营生产模式、日常管理、价格管理、配送[7 RICE J Mathematical Statics and Data Analysis[M]方式及精准营销具有重要的意义cand Edition, Plymouth: Duxbury Press, 2006: 221-21994-2017ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
- 2021-05-06下载
- 积分:1
-
各种潮流计算方法的matlab代码
各种方式如牛顿拉夫逊法,PQ解耦法,保留非线性法等的潮流计算代码,可供学习和使用
- 2020-12-06下载
- 积分:1
-
《Zemax激光光学设计实例应用——自学案例汇编》之<Zemax光纤输出光斑整形光源的选择问题(非序列模式)>
简介:这份材料是作者自学Zemax光学设计及在实践中应用的案例汇编,提供初学者使用软件作光学系统设计练习,整个过程需要Zemax光学系统设计软件。使用的软件版本为比较常见的2005或2009。因两个版本在某些菜单列表和窗口形式上的些许差异,读者需自行对比测试。最开始的一些例子是基于目前比较常见的教材和习作而进行的细化论述,以丰富本文内容同时对初学者入门更有帮助。作者才疏学浅,不保证该文本的科学性和有效性,其主要作用在于帮助自己对知识进行积累、回顾和追溯。文中会对各个实例的关键位置进行尽量详细的叙述,以达到尽可能全面地掌握知识的目的。本文基于理论与实践的结合,不仅描述如何设计一套光学系统,并且讨Zemax激光光学设计实例应用—自学案例汇编FN∏A TWUZ图18-43D光路结构图(混合序列模式)为了减少麻烦,用不着重新在非序列模式中编辑所有组件;我们可以将上述例子直接转换到非序列模式下。步骤为,主菜单 Tools→ MIsce1 aneous→ Convert to NsC Group,在弹出的对话框中,选择要转换的序列范围,比如,这里是从 Surface2到 Surface13,同时注意勾选 Convert file to non- sequenti al mode,确定后即可转换为非序列模式,透镜元件都在。不过,你会发现,原来已有的非序列组件不能转换过来,自动消失了。不过没关系,重新编辑缺失的组件即可。如图18-5所示,添加一个圆柱体(光纤)组件,再添加若干个探测器(方便自己观察的位置即可)BI Non-Sequential Component EditorEdit Solves Errors Detectors Database Tools ViEW Helpobject Typecomment2P351t1hMaterial Front FZ LengthBack rinder volume.050standard I erF1510.70N-5F64R.00冂.000.250standard LerF1511.820N一LAKs.50n6250Toroid a Lers surfaces00Q2.530standard Lerssurfaces45,440D.00Qtandard Lers surfaces4,3200。000standard Lers surfaces47.3z0BA/.0005,350Detector民ect116.000Detector Fect5.200200图18-5非序列光学组件列表接下米,我们米重点说一说光源的选择问题。因为光源的选择会明显影响仿真的实际效果。这里,我们需要个发散型的光源,发散角基本要和光纤的数值孔径相同,光源放在光纤前端——入射端。非序列光源组件有多种类型叫选,包括椭圆形光源 Source e1 lipse半导体光源 Source diode等等。这些可改置发散角的光源是否都满足要求呢,我们要看《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编看这些光源通过光纤组件之后输出一段距离光线的分布情况和聚焦的情况。我们首先选择椭圆形光源 Source e11ipse作为输入光源,放在光纤输入端。表面上看,椭圆形光源 Source e11ipse是一个面光源,可以分别设置两个半轴长度,但实际也是无穷远点光源。要设置光源的发散角,则需要改变发光源的位置,从无穷远改为有限距离。obiectcomment z Position Material*LayoutSourcepie50.020500000Power (wat.. wavenumber color# x Half wi.. Y Half wi.source Di..1.0000.0200.0200.100图18-6椭圆光源参数设置如图18-6所示设置光源参数,类型 object Type选择 Source e11ipse,位置zPoSItion设为-50.02,绘图光线数目 Layout rays设为50,分析光线数目 AnalysisRayS改为500000,半轴长度(相当于光阑) X Half width、 Y Half width均设为0.02(小于光纤半径),光源距离 Source distance设为0.1,其他参数默认即可。如此设置,光源距离和光阑尺寸的配合,恰好获得数值孔径NA为0.2的光源。然后在光纤输岀端、距离光纤端面0.5mm的位置放置一个探测器,检测输出光线分布情况,探测器像素500,尺寸要比预测光斑尺寸略大一些(一般2倍即可)设置完华,打开3D光路结构图,如图18-7所示。可见与图18-4所示的混合序列模式没有明显区别,除了绘图光线均匀性的区别,非序列模式中绘图光线为随机分布方式,而序列模式中绘图光线为均匀分布方式将图像局部放大,观察光纤输入端和输出端,注意光线是否有溢出或者发散角与设想的是否一致等等,分别如图18-8和18-9所示。因为,笔者实测发现一个问题,减小光纤直径,到一定程度之后,就会影响输出端的光线数值孔径,似乎一部分发散角大的光线被消去,输出的光线数值孔径变小了。但是,这时如果将光纤长度缩短到一定程度后,输出光线的数值孔径又能恢复正常。这个问题具体是由什么原理、原因造成的,口前还不知道。也就是说,用这个圆柱体cy1 inder yo lume来模拟光纤,需要注意育径-长度比例,否则丢失信息,读者注意。《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编图18-73D光路结构图(非序列模式图18-83D光路结构图-光纤前端(非序列模式)《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编图18-93D光路结构图-光纤出端(非序列模式)接着,打开探测器观察窗口,再打开光线追迹控制器,追迹所有探测器光线。这里,我们放置了两个探测器,分别在光线输出端口和光线聚焦位置。先看光纤输出端的光线分布,如图18-10所示为相干模式下,光纤输出端附近的光斑形状及光线密度分布情况,从图上看,分布不是很均匀,但大体还是可以看出光斑整体轮廓效果:;再切换到非相干模式下,如图18-11所示,我们看到这时光线分布严重不均匀,甚至光斑轮廓都看不到了,这显然已经和实际经验相去甚远了。133,S1l5宁,四了了4:1F315宁,H4,529,总92H,3屮DETEC T0R工MRGE: COHEEENT工RRFD工FNCED: YHG旺 AM BELTVERT SIST日正,屮日國翼的,题 H NILLLHETERXELS 500WX 591 H. TOTAL HITS =499993FHc:1,用92《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编图18-10探测器光线分析-光线输出端(相干模式)291625222三51292H1DETECTOR工HGE: INCOHERENT RR工HNE正囚,"HM工ET防.PIEs5EW5〗H.卫THT=曾們EF工RRR工RNCE40TE+004 HATTSCH 2TOTHL POWERi 9 9998E-00L HTT5图18-11探测器光线分析-光线输出端(非相干模式)121,5L,2272,55四DETE匚TDR工NRGE: COHERENT工 =EDLNCEND: HG BERM ELTWERY STSTEMTUE MAY正 ETECTOR 9. NSCG SLRFRCE正EW2@H山工TE,FE§5W5H,TfHT=2PEF TRRAOTFNCE i 12785E+00L ATTSCH"?OTAL POWER2.5占5E-2 MATTS图18-12探测器光线分析-聚焦光斑(相干模式)《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编r94:15屮714,72535,32555,123827E58 8317ETEGTUE工MRGE: INCOHEENT RRH工RNCELD: YAG BERM DELIVERY SYSTE1RCE 1SLZE 4I LX 21DE5 H MILLLHE TER PLNELS 59 5X 505 H. OTAL HTs =197978CE::60:m2TOTHL FILER图18-13探测器光线分析-聚焦光斑(非相干模式)再看另外一个探测器,光线经过透镜光学系统整形聚焦后的光斑形状和光线分布情况,相干模式和非相干模式分别如图18-12和18-13所示。同样,相干模式虽然分布也不均匀但基本还能看出光斑轮廓为以椭圆光斑;而非相干模式下,光线分别很不均匀,看上去光斑形状也不是椭圆形,而是一个变形了的菱形。于是,笔者怀疑光源的选择和设置可能不人合理。可能是由于光源本质还是一个点光源,即使通过光纤(圆柱体)后光线也没能有效匀化所致。那么,换一个光源类型,比如半导体光源 Source diode会不会更好一些。如图18-14所示,光源类型选择 Source diode,位置 z Postion设为-50.02,绘图光线数目Layout rays设为50,分析光线数目 Analysis Rays设为500000,发散角X- Di vergence、Y- DI vergence均设为12(匹配光纤数值孔径),其他参数默认即可。如此设置,获得的数值孔径NA差不多也为0.2的光源ε然后同样在光纤输出端、距离光纤端面0.5mm的位置放置一个探测器,检测输岀光线分布情况,探测器像素500,尺寸要比预测光斑尺寸略大一些(一般2倍即可)。更新3D光路结构图,放大观察光纤入射端和输出端的光线情况,分别如图18-15和18-16所示,可见都还比较正常,没有溢出光线,输出发散角也比较合理。《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编object TypeComment Position Material+ I ayout.*Analysi.Source diode0,U∠0object Type Astigmatismx-Diver ge.X-superGa.Y-Diverge.Y-superGasource D1 odel0.0D012.000.0112.0000.01图18-14导体光源参数设置图18-153D光路结构图-光纤前端图18-163D光路结构图-光纤输出端《 Matlab辅助激光光学分析与应用》作者出品Zemax激光光学设计实例应用—自学案例汇编311,忌HL428,总5732屮9,"F31之18,28187,1H6」5s.92712,3白占2,3日318H1JE TEG TOR工MRGE:Cu仨RENT工 CERO LHNGELD: YAG BERM DELIVERY SYSTE1灯T职R1, NSCE RFACE L江正区W翼四,HM工能防,PXL5E的日H.ILHT=8工RRRL工FNCE:3,1L8HE+2H^2TOTHL PERB,5551E-图18-17探测器光线分析-光线输出端(相干模式)H⑦13屮131忌3L7s叫sDETECTOR工MRGE:工 COHEZET工RRR囗工FCEHG BERM DELIVERY SYSTE正 TECTOR10. NSCG EURFACE LX,啦H工能TE,PX555H而HT=第83工 H:z:22SrCH+图18-18探测器光线分析-光线输出端(非相干模式)《 Matlab辅助激光光学分析与应用》作者出品
- 2020-12-06下载
- 积分:1
-
usb-can labview 二次开发例子
基于labview的 usb-can上位机二次开发具体例子,里面包含具体代码,可以根据例子进行更改得到自己想要的上位机
- 2020-12-10下载
- 积分:1
-
基于MATLAB语音信号去白噪声、高斯白噪声分析的源程序
基于MATLAB语音信号去白噪声、高斯白噪声分析的源程序,将白噪声中的1/10改成1/50就可滤除白噪声,高斯白噪声的就不用改了!
- 2020-12-05下载
- 积分:1
-
QC-LDPC.zip
已经运行好的QC-LDPC编码程序,直接MATLAB打开就能仿真,里面每一句话都有详细的解释,适合新手学习。
- 2021-05-07下载
- 积分:1
-
关于mipi DSI接口的介绍(官方全英文资料)
关于mipi DSI接口的介绍(官方全英文资料),主要适用于mipi接口屏幕的驱动。→→→
- 2021-05-06下载
- 积分:1