登录
首页 » Others » 阿里云-飞天开放平台技术白皮书.pdf

阿里云-飞天开放平台技术白皮书.pdf

于 2021-05-07 发布
0 303
下载积分: 1 下载次数: 1

代码说明:

阿里云计算为中国第一大公有云平台,云计算产品服务完全基于自主知识产权,先后获 85 项国家技术专利,获得国家发改委的云计算专项资金支持。阿里云飞天开放平台是在数据中心的大规模 Linux 集群之上构建的一套综合性的软硬件系统,将数以千计的服务器联成一台“超级计算机”,并且将这台超级计算机的存储资源和计算资源,以公共服务的方式,输送给互联网上的用户或者应用系统。阿里云致力于打造云计算的基础服务平台,注重为中小企业提供大规模、低成本的云计算服务。阿里云的目标是通过构建飞天这个支持多种不同业务类型的公有云计算平台,帮助中小企业在云服务上建立自己的网站和处理自己的业务流阿里云allyn. com打造数据分享第一平台飞天开放平台技术白皮书1.概述阿里云计算为中国第一大公有云平台,云计算产品服务完全基于自主知识产权,先后获85项国家技术专利,获得国家发改委的云计算专项资金支持。阿里云飞天开放平台是在数据中心的大规模 Linux集群之上构建的一套综合性的软硬件系统,将数以千讣的服务器联成一台“超级讣算机”,并且将这台超级计算机的存储资源和计算瓷源,以公共服务的方式,输送给互联网上的用户或者应川系统阿里云致力于打造云计算的基础服务平台,注重为中小企业提供大规模、低成本的云计算服务。阿里云的目标是通过构建飞天这个支持多种不同业务类型的公有云计算平台,帮助中小企业在云服务上建立自己的网站和处理自己的业务流程,帮助开发者向云端开发模式转变,用方便、低廉的方式让互联网服务全面融入人们的生活,将网络经济模式带入移动互联网,构建出以云计算为基础的全新互联网生态链。在此基础上,实现阿里云成为互联网数据分享第一平台的目标。2.体系架构如图2.1所示是飞天的体系架构图。整个飞天平台包括飞天内核(图2中黄色组件)和飞天开放服务(图2.1中蓝色组件)两大组成部分。飞天内核为上层的飞天开放服务提供存储、计算和调度等方面的底层支持,对应于图2.1中的协调服务、远程过程调用、安全管理、资源管理、分布式文件系统、任务调度、集群部署和集群监控模块飞天开放服务为用户应用程序提供了存储和计算两方面的接口和服务,包括弹性计算服务( Elastic Compute service,简称ECS)、开放存储服务(OpenStorage service,简称0SS)、开放结构化数据服务( Open table service,简称0TS)、关系型数据库服务( Relational database service,简称RDS)和开放数据处理服务( pen Data processing Service,简称ODPS),并基于弹性讣算服务提供了云服务引擎( Aliyun cloud engine,简称ACE)作为第三方应用阿里云allyn. com打造数据分享第一平台开发和Web应用运行和托管的平台。服务引擎ACE弹性计算关系型数开放存储开放构化开放数据据库服务数括服务处理服务RDSODPS分布式立科系统(盡白)任务调度(伏〕远程过程调用【夸父安全管理钟馗)分布协同服(女赐(伏)Linux集群数据飞天平台飞天内核飞大内核包含的模块可以分为以下儿部分:分布式系统底层服务:提供分布式环境下所需要的协调服务、远程过程调用、安全管理和资源管理的服务。这些底层服务为上层的分布式文件系统、任务调度等模块提供支持。分布式文件系统:提供一个海量的、可靠的、可扩展的数据存储服务,将集群中各个节点的存储能力聚集起来,并能够自动屏蔽软硬件故障,为用户提供不问断的数据访问服务。支持增量扩容和数据的自动平衡,提供类似于P0sSIX的用户空间文件访问API,攴持随机读写和追加写的操作仼务调度:为集群系统中的任务提供调度服务,同时支持强调响应速虔的在线服务( Online service)和强调处理数据吞吐量的离线任务( BalchProcessing job)。自动检测系统中故障和热点,通过错误重试、针对长尾作业并发备份作业等方式,保证作业稳定可靠地完成。集群监控和部署:对集群的状态和上层应川服务的运行状态和性能指标进行监控,对异常事件产生警报和记录;为运维人员提供整个飞天平台以及上层应用的部署和配置管理,支持在线集群扩容、缩容和应用服务的在线升级。阿里云allyn. com打造数据分享第一平台3.分布式系统底层服务31.协调服务(女娲)女妫(Nuwa)系统为飞天提供高可用的协调服务( Coordination service),是构建各类分布式应用的核心服务,它的作用是采用类似文件系统的树形命名空来让分布式进程互相协同工作。例如,当集群变更导致特定的服务被迫改变物理运行位置时,如服务器或者网终故障、配置调整或者扩容时,借助女可以使其他程序快速定位到该服务新的接入点,从而保证了整个平台的高可靠性和髙可用性。女娲基于类 Paxos协议[15],由多个女娲 Server以类似文件系统的树形结构存储数据,提供高可用、高并发用户请求的处理能力。女娲的目录表小一个包含文件的集合。与Unix中的文件路径一样,女娲中路径是以“/”分割的,根目录( Root entry)的名字是“/”,所有目录的名字都是以“/”结尾的。与Unix文件路径不一样之处在于:女娲中所有文件或日录都必须使用从根目录开始的绝对路径。由于女娲系统的设计目的是提供协调服务,而不是存储大量数据的,所以每个文件的内容( Value)的大小被限制在IMB以内。在女娲系统中,每个文件或目录都保存有创建者的信息。一旦某个路径被用户创建,其他用户就可以访问和修改这个路径的值(即文件内容或目录包含的文件名)。女娲攴持 Publish/ Subscribe模式,其中一个发布者、多个订阅者(OnePublisher/ Many Subscriber)的模式提供了基本的订阅功能:另外,还可用通过多个发布者、多个订阅者( Many Publisher/ Many Subscriber)的方式提供分布式选举( Distributed election)和分布式锁的功能。再举一个使用女娲来实现负载均衡的例子:提供某一服务的多个节点,在服务启动的时候在女娲系统的同一日录下创建文件,例如, server1创建文件nuwa:// cluster/ myservice/ server1”, server2在同一目录下创建“nuwa:// cluster/ myservice/ server2”。当客户端使用远程过程调用的时候」首先列举女娲服务中“nuwa:// cluster/ myservice”目录下的文件,这样就可以荻得 server1和 server2,客户端随后可以从中选择一个节点发出自己的请求阿里云allyn. com打造数据分享第一平台从而实现负载均衡。32.远程过程调用(夸父)在分布式系统中,不同计算机之间只能通过消息交换的方式进行通信。显式的消息通信必须通过 Socket接口编程,而远程过程调用( Remote procedureCall,简称RPC[9])可以隐藏显式的消息交换,使得程序员可以像调用本地函数一样来调用远程的服务夸父( Kuafu)是飞天内核中负责网络通信的模块,它提供了一个RPC的接,简化编写基于网络的分布式应用。夸父的设计目标是提供高可用(7x24小时)、大吞吐量( Gigabyte)、高效率、易用(简明APⅠ、多种协议和编程接口)的RPC服务。RPC客户端( RPC CLient)通过URI指定请求需要发送的RPC服务端( RPC Server)的地址,目前夸父支持两种协议形式。TCP:例如,tep:// fooserver01:9000●Ⅶuwa:例如,nuwa:/nuwa01/ Fooserver与用流( stream)传输的TCP通信相比,夸父通信是以消息( Message)为单位的,支持多种类型的消息对象,包括标准字符串std:: string和基于td:map实现的若干 string键值对。夸父RPC同时攴持异步( asynchronous)和同步( synchronous)的远程过程调用形式。异步调用:RPC函数调用吋不等接收到结果就会立即返回;用户必须通过显式调用接收函数取得请求结果。●同步调用:RPC函数调用时会等待,直到接收到结果才返回。在实现中,同步调用是通过封装异步调用来实现的。在夸父的实现中,客户端程序通过 Unix domain socket与本机上的一个夸父代理( Kuafu proxy)连接,不同计算机之间的夸父代理会建立一个TCP连接这样做的好处是可以更高效地使用网络带宽,系统可以支持上千台计算机之间的互联需求。此外,夸父利用女娲来实现负载均衡;对大块数据的传输做了优化与TCP类似,夸父代理之问还实现了发送端和接收端的流控( Flow Coηtrol)机制阿里云allyn. com打造数据分享第一平台33.安全管理(钟馗)钟馗( Zhongkui)是飞天内核中负责安全管理的模块,它提供了以用户为单位的身份认证和授权,以及对集群数据资源和服务进行的访问控制。用户的身份认证( Authentication)是于密钥机制的。用户对资源的访问控制是基于权能( Capability)机制进行授权( Authorization)的Capability是用于访问控制的一种数据结构,它定义∫对一个或多个指定的资源(如目录、文件、表等)所具有的访问权限。用户访问飞天系统的资源时必须持有 Capability,否则即视为非法。打个比方,如果把 Capability理解为地铁票,乘坐地铁(对地铁的一种访问方式)的时候必须要有 Capability,即地铁票。密钥对是基于公开密钥方法的,包括一个私钥和相对应的公钥。在飞天系统中,密钥对用于数字签名服务,以保证 Capability的不可伪造。换句话说,私钥用于生数字签名(如签发 Capability),公钥用于验证数字签名的有效性(如验证签发过的 Capability的有效性)考虑到网络通信时任何通信节点都是不可信的,所以即使是飞大自身模块内部之间的通信也同样是需要认证和授权的,而且验证的机制也完全一样。34.分布式文件系统(盘古)盘古( Pangu)是一个分布式文件系统,盘古的设计目标是将大量通用机器的存储资源聚合在一起,为用户提供大规模、高可靠、高可用、高吞吐量和冋扩展的存储服务,是飞天内核中的一个重要组成部分。大规模:能够支持数十PB量级的存储大小(1PB-1000T3),总文件数量达到亿量级。数据高可靠性:保证数捃和元数据( Metadata)是持久保存并能够正确访问的,保证所有数据存储在处于不同机架的多个节点上面(通常设置为3)。即使集群中的部分节点岀现硬件和软件故障,系统能够检测到故障并自动进行数据的备份和迁移,保证数据的纹全存在5阿里云allyn. com打造数据分享第一平台服务高可用性:保证用户能够不中断地访问数据,降低系统的不可服务时间。即使岀现软硬件的故障、异常和系统升级等情况,服务仍可正常访问。髙昋吐量:运行时系统Ⅰ/0吞吐量能够随机器规模线性增长,保证响应时间高可扩展性:保证系统的容量能够通过增加机器的方式得到白动扩展,卜线札器存储的数据能够自动迁移到新加入的节点上同时,盘古也能很好地支持在线应用的低延时需求。在盘古系统中,文件系统的元数据存储在多个主服务器( Master)上,文件内容存储在人量的块服务器( Chunk server)上。客户端程序在使用盘古系统时,首先从主服务器获取元数据信息(包括接下来与哪些块服务器交互),然后在块服务器上直接进行数据操作。由于元数据信息很小,大量的数据交互是客户端直接与块服务器进行的,因此盘占采用少量的主服务器来管理元数据,并使用 Paxos协议[15]保证元数据的致性。此外,块大小被设置为64MB,进一步减少了元数据的大小,因此可以将元数据全部放到内存里,从而使得主服务器能够处理大量的并发请求块服务器负责存储大小为64B的数据块。在向文件写入数据之前,客户端将建立到3个块服务器的连接,客户向主副本( Replica)写入数据以后,由主副本负责向其他副本发送数据。与直接由客户端向三个副本写入数据相比,这样可以减少客户端的网终带宽使用。块副本在放置的时候,为保证数据可用性和最大化地使用网络带宽,会将副本放置在不同机架上,并优先考虑磁盘利用率低的杋器。当硬件故障或数据不可用造成数据块的副本数目达不到3份的时候,数据块会被重新复制。为保证数据的完整性,每块数据在写入时会同时计算一个校验值,与数据同时写入磁盘。当读取数据块的时候,块服务器会再次计算恔验值与之前存入的值是否相同,如果不同就说明数据出现了错误,需要从其他副木重新读取数据。在线应用对盘古提出了与离线应用不同的挑战:OSS、OTS要求低吋延数据读写,ECS在要求低吋延的同吋还需要具备随机写的能力。针对这些需求,盘古实现了事务日志文件和随机访问文件,用以支撑在线应用。其中,日志文件通过阿里云allyn. com打造数据分享第一平台多种方法对时延进行了优化,包括设置更高的优先级、由客户端直接写多份拷贝而不是用传统的流水线方式、写入成功,不经过 Master确认等。随机访问文件则允许用户随机读写,同时也应用了类似日志文件的时延优化技术。35.资源管理和任务调度(伏羲)伏羲(Fuxi)是飞天内核中负责资源管理和任务调度的模块,同时也为应用开发提供了一套编程基础框架。伏羲同时支持强调响应速度的在线服务和强调处理数据吞吐量的离线任务。在伏羲中,这两类应用分别简称为 Service和Job在资源管理方面,伏羲主要负责调度和分配集群的存储、计算等资源给上层应用;管理运行在集群节点上任务的生命周期;在多用户运行环境中,支持讣算额度、访问控制、作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。在任务调度方面,伏羲囿向海量数据处理和大规模计算类型的复杂应用,提供了一个数据驱动的多级流水线并行计算框架,在表述能力上兼容MapReduce l12」、Map- Reduce-erge等多种编程模式;自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成;具有高可扩展性,能够根据数据分布优化网终开销。伏羲中应用了“ Master/ Worker”工作模型。其中, Master负责进行资源中请和调度、为 Worker创建工作计划(Plan)并监控 Worker的生命周期, Worker负责执行具体的工作计划并及时向 Master汇报工作状态( Status)。此外, Master支持多级模式,即一个 Master可以隶属于另外一个 Master之下伏羲 Master负责整个集样资源管理和调度,处理Job/ Service启动、停止Failover等生命周期的维护。同时伏羲 Master支持多用户额度配冒、Job/ Service的多优先级设置和动态资源抢占逻辑,可以说是飞天的“大脑”伏羲对资源调度是多维度的,可以根据CPU、内存等系统资源,以及应用自定义的虚拟资源对整个机群进行资源分配和调度土伯(Tubo)是部署在每台由伏羲管理的机器上的后台进程,负责收集并向伏羲 Master报告本机的状态,包括系统资源的消耗、 Master或 Worker进程的运行、等待、完成和失败事件,并根据伏羲 Master或者Job/ Service master阿里云allyn. com打造数据分享第一平台的指令,启动或杀死指定的 Master或 Worker进程。同时土伯还负责对计算机健康状况进行监控,对异常 Worker(比如内存超用)进行及时的清理和汇报对于在线服务( Service),由伏羲 Master负责 Service master的启动与状态监控,处理相应 Service master的资源申请请求。 Service master负责管理Service Worker的任务分配、生命周期管理以及 Failover的管理。对于离线任务(Job),伏羲 Master负责 Job Master的启动与状态监控,处理相应 Job master的资源申请凊求。 Job master根据用户输入的Job描述文件,将仼务分解成一个或以上的Task,每个Task的资源申请、 Task Worker的调度和生命周期维护由 Task master负责3.5.1.在线服务调度在飞天内核中,每个 Service都有一个 Service master和多个不同角色(Role)的 Service worker,它们一起协同工作来完成整个服务的功能。 ServiceMaster是伏羲 Master管理下的子 Master( Child master),它负责这个 Service相关的资源申请、状态维扩以及故障恢复,并定期与伏羲 Master进行交互,确保整个 Service正确、正常地运行。每个 Service Worker的角色和执行的动作,都是由用户来定义的每个 Service Worker负责处理一个到多个数据分片( Partition),同一时刻一个分片只会被分型到一个 Service Worker处理。将数据分割成为互不相关的分片,然后将不同分片给不同 Service worker来处理是构建大规模应川服务的关键特性。数据分片是一个抽象的概念,在不同的应川中有不同的含义。在服务运行的过程中,每个 Seryice的数据分片的数和内容都是可以动态变化的,应用程序可以根据实际需要对数据分片动态地进行加载(Load)、卸载( Unload)、分裂( Split)和迁移( Migrate)等操作。3.5.2.离线任务调度在飞天中,一个离线任务(Job)的执行过程被抽象为一个有向无环图( Directed Acyclic graph,简称DAG):图上每个顶点对应一个Task,每条边对应一个 Pipeline。个连接的两个Task的 Pipeline表示前个Task的输出

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • IRI2012电离层模型 matlab代码
    IRI2012电离层模型 International Reference Ionosphere (IRI) ModelComputes the International Reference Ionosphere (IRI), which is an internationally recognized model for various ionospheric properties. I would call it more of a hack than a true IRI implementation as it works by querying the online inter
    2020-11-28下载
    积分:1
  • 基于SVM与人工神经网络的车牌识别C++实现
    基于SVM与人工神经网络的车牌识别算法,使用了OpenCV的图像处理函数,在VS2013平台上实现
    2020-12-03下载
    积分:1
  • 风控建模等奖
    使用拍拍贷数据,建模全过程,从数据预处理开始到最后的模型比较。仅用于交流学习。队伍介绍队名“不得仰视本王”,队伍由五个小伙伴组成,我们是在一个类以的比赛(微额借款用户人品预测大赛)认识的,对数据挖掘竹热爱让我们走到了一起,以下是成员简介:姓名学校、学历比赛经历匚陈靖」中国科学技术大学研二天泡科学家总分第三,微额借贷用户人品预测大赛季军朱治亮浙江大学研二淘宝穿衣搭配比赛李军,微额借贷用户人品预测大赛李军质耀重庆邮电大学研二微额借贷用户人品预测大赛冠军匚赵蕊」重庆邮电大学研微额借贷用户人品预测大赛亚军黄伟鹏北京大学研一微额借贷用户人品预测大赛冠军解决方案概述2.1项目介绍与问题分析拍拍贷“魔镜风控系统”从平均400个数据维度评估厍户当前的信用状态,给每个告款人打出当前状态的信用分,在此基础上再结合新发标的信息,打出对于每个标约6个月内逾期率的预沨,为没资人提供关键的决策依据。本次竞赛目标是根据用户历史行为数据来颈测用户在六来6个月内是否会逾期还款的概率。问题转换成2分类问题,评估指标为AUC,从 Master, LogInfo, Update Info表中构建恃征,考虑评估指标为AUC,其本质是排序优化问题,所以我们在模型顶层融合也使用基于排序优化的 RANK AVG融合方法。2.2项目总体思路本文首先从数据清洗开始,介绍我们对缺失值的多维度处、对离群点的剔除方法以及对字符、空格等的处理;其次进行特征工程,包括对地理位置信息的特征构建、成交玉间特征、类别特征编码、组合特征构建、 Lpdatelnfo和 Log Info表的特征提取等;再次进行特征选择,我们采用了 boost, boost的训练过栏即对特征重要性的排序过程;然后处理类别的不平衡度,由于赛题数据出现了类不平衡的情况,我们采用了代价敏感学习和过采样两和方法,重点介绍我们所使用的过采样方法;最后一部分是模型设计与分析,我们采用了二业界广泛应用的逻辑回归模型、数据挖掘比赛大杀器 ghost.,创新性地揆索了large- scale sⅧm的方法在本赛题二的应用,玟得了不错的效果,此外还介绍了模型融合方、数据清洗3.1缺失值的多维度处理在征信领域,用户信总的完善程度可能会影响该层户的信用评级。一个信息完苦程度为100%的户比起完善程度为50%的用户,会更加容易官核通过并得到借款。从这一点亡发,我们对缺失值进行了多维度的分析和处理按列(属性)统计缺失值个数,进一步得到各列的缺失比率,下图(图1)显示了含有缺失值的属性和相应的缺失比率sing rate of Attributes图1.属性缺失比枣WeblogInfo_1和 WeblogInfo3的缺失值比率为97%,这两列属性基本不携带有用的信息,直接剔除。 Uscr Info_11、 Userinfo_12和 Uscr info_13的缺失值比率为63%,这三列属性是类别型的,可以将缺失值用-1垣充,相当于“是否缺失”当成另一种类别。其他缺失值比卒较小的数值型属性用中值填充按行统计每个样本的属性缺矢值个数,将缺失值个数从小到大排序,以序号为横坐标,缺失值个数为纵坐标,画出如下散点图(图2)test set16016014014C12012Cw9mczE100400060008000Order Numbe(sort ircreasinglyOrde Nt mber(sort increasing ly)图2.样本属性缺失个数对比 trainset和 testset上的样本的属性缺失值个数,可以发现其分有基本一致,但是trainset上出了几个缺失值个数特别多的样本(红框区域内),这几个样本可以认为是离群点,将其剔除另外,缺矢值个数可以作为一个特征,衡量用户信息的完善程度。3.2剔除常变量原始数据宁有190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变亿很小的特征,下表(表1)列出的15个特征是标准差接近于0的,我们剔了这15维特征表1.剔除数值特征标准差属性标准差属性标准差属忾标准差Webloglnfo_10 0.0707 WeblogInfo_41 0.0212 Webloglnfo_490.0071Webloglnfo_23.0939 WeblogInfo_43 0.0372 Webloglnfo_5200512Webloglnfo_31.0828 Webloglnfo_44.0166 Webloglnfo_5400946Webloglnfo_32 0.0834 Webloglnfo_46.0290 WeblogInfo_5500331Webloglnfo_40.0666 Webloglnfo_47 0.0401 WeblogInfo_58006093.3高群点剔除在样本空间中与其他样本点的一般行为或特征不一致的点称为离群点,考虑到离群点的异常特征可能是多维度的组合,我们通过分析样本属性的缺矢值个数,剔除了极少量的离群点(见3.1节)此外,我们还采用了另外一种简单有效的方法:在原始数捶上训练ⅹ gboost,用得到的xgb模型输出特征的重要性,取最重要的前20个特征(如图3所示),统计每个栏本在这20个特征上的缺失值个数,将缺矢值个数大于10的样本作为离群点。ThrciParty Ifn PeriodIntrAparty nto HerodThrcPorty hfo Penod3ardiParty hfo Period?ThirdParty Info Penod图3.Xgb特征重要性通过这个方法,易除了400多个样水。这些样在重要特征上的取值是缺失的,会使得模型学习变得因难,从这个角度妖说,它们可以看成是离群点,应剔除掉。3.4其他处理(1)字符大小写转换Userupdate Info表宁的 Userupdate Info1字段,属性取值为英文字符,包含了大小写,如Q"和”qQ",很玥显是同一和取值,我们将所有字符统一转换为小写(2)空格符处理Mastor表中 UserInfo9字段的取值包含了空格字符,如“中国移动”和“中国移动”它们是同一种取值,需要将空格符去除。(3)城市名处理Userinfo_8包含有“重庆”、“重庆市”等取僬,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉“市”之后,城市数由600多下降到400多。四、特征工程4.1地理位置的处理对地理位置信(类别型变量)最简单的处理方式是独热编码(one- hot encoding),但是这样会得到很高维的稀疏特征,影响糢型的学习,我们在独热编码旳基础上,做了特征选择。下面介绍具体的方法。赛题数据提供了用户的地挛位置信息,包括7个字段: Userinfo2、 Userinfo4、UserInfo7、 UserInfo8、 UserInfo I9、 UserInfo20,其中 UserInfo_7和 UserInfo19是省份信息,其余为城市信息。我们统计了每个省份和城市的违约率,下图以 Userinfo_7为例图1.省分违约率可视化图5可视化了每个省份的违约率,颜色越深代表违约率越大,其中违约率最大的几个省份或直辖市为四川、湖南、湖北、吉林、天津、山东,如下图所示:图5.违约深突出省份可视化因此我们可以构建6个二值特征:“是否为四川省”、“是否为湖南省”...“是否为山东省”,其取值为或1。其实这相当于对地理位置信息做了独热编码,然后保留其中有判别性的菜些列。这里 UserInfo_7何含32和取值,编码后可以得到32维的稀疏特征,而我们只保留其宇的6维以上我们是通过人工的分析方法去构延二值特征,在处理省份信息时还是匕较直观的,但是处理城市信息,比如 Userinfo2,包含了33个减市,就没有那么直观了。为了得到有判别性的二值特征,我们首先对 Userinfo2进行独热编码,得到333维的二值特征,然后在这333维稀疏特征上训练ⅹgb模型,再根据xgb输出的特征重要性刷选二值痔征,以下是选取到的部分二值特征(对应的城市):“淮纺市”、“九江市”、“三门峡市”、“汕头市”、“长春市”、“铁岭市”、“济菊市”、“成都市”、“淄博市”、“牡丹江市”。按城市等级合并类别型特征取值个数太多时,独热编码后得到太高维的稀疏特征,除了采用上面提到的特征选择方法外,我们还使用了合并变量的方法。按照城市等级,将类别变量合并,例如线城市北京、上海、广州、深圳合并,赋值为1,同样地,二线城市合并为2,三线城市合并为3>经纬度特征的引入以上对地理位置信息的处理,都是基于类别型的,我们另外收集了各个城市的经纬度,将城市名用经纬度替换,这样就可以将类别型的变量转化为数值型的变量,比如北京市,用经纬度(39.92,116.46)替换,得到北纬和东经两个数值型特征。加入经纬度后,线下的cross validation有千分位的提升。城市特征向量化我们将城可特征里的城市计数,并取Log,然后等值离散化到610个区间内。以下图为例,将 serino2这个特征里面的325个城市离散为一个6维向量。向量“100000”表示该城位于第一个区间。线下的 cross validation有千分位的提升。Loglui2 num)6.城市特征离散化地理位置差异特征如图8所示,1,2,1,6列郗是城市。那么我们构建一个城市差异的特征,比妇diff_12表示1,2列的城市是否相同。如此构建 diff l2,diff_14,diff_l6,diff_24,diff26,diff46这6个城市差异的特征。线下的 cross validation有千分位的提升。⊥aJse⊥nfa2 userinfo4 Userinfo7 Userinfo8 Userinfo19uer⊥nf。201C013郴州1C020惠州1C033零1c035深圳东东东东建东福建省10038济104连云港远言港带1C042德州1c043青岛聊拔东自聊城市46深圳汕广东广东省汕尾市105所多工新乡图7.地理位置差异样例4.2成交时间特征按日统计训练集中每天借贷的成交量,正负样本分别统计,得到如下的曲线图8,横坐标是日期(20131101至20141109),纵坐标是每天的借贷量。蓝色由线是违约的样本每天的数量(为了对比明显,将数量乘上了2),绿色曲线对应不违约的样本train set1200count o10008004002广外从20030350Date20131101~20141109图8.每日借贷量统计可以发现拍拍贷的业务量总体是在埤长的,而违约数量一开始也是缓慢增长,后面基本保持不变,总体上违约率是平稳甚至下降的。在横坐标300~350对应的日期区间,出现了些借贷量非鸴大的时间苄点,这些可能隐减着苿些信息,我们尚未挖掘出来。考虑到违约率跟时间线有关,我们将戒交时间的字段 Listinginfc傲了几种处理,一和是直接将其当做连续值特征,也就是上图对应的横坐标,另一和是离散化夂理,每10天作为一个区间,乜就是将日期0`10离散化为1,日期1120离散化为2.4.3类别特征的处理除了上面提到的对菜些类别特征进行特殊处理外,其他类别特征都做独热编码。44组合特征Xgboost的训练完成后可以输出特征的重要性,我们发现第三方数据特征ThirdParty Info Period XX”的 feature score比较大(见图3),即判别性比较高,于是用这部分特征构建了ξ合特征:将特征两两相除得到7000个特征,然后使用 boost对这7000多个特征单独训练模型,训练完成后得到特征重要性的排序,取其中top500个特征线下cv能达到0.73+的AUC值。将这500个特征添加到原始特征体系中,线下cv的AC值从0.777捉高到0.7833。另外,也组合了乘法特征(取对数):10g(x*y),刷选出其中的270多维,加入到原始特征休系中,单模型cv又提高到、0.785左右。4.5 Upadte Info表特征根据提供的修改信息表,我们从中抽取了用户的修改信息特征,比如:修改信息次数,修改信息时间到成交时间的跨度,每和信息的修改次数等等特征。46 LogInfo表特征类似地,我们从登录信息表里提取了用户的登录信息特征,比如登录天数,平均登录间隔以及每种操作代码的次数等47排序特征对原始特征中190维数值型特征接数值从小到大进行排序,得到190维排序特征。排序特征对异常数据有更强的鲁棒性,使得模型更加稳定,降低过拟合的风险。五、特征选择在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、排序特征、类别稀疏侍征、 updateinfo和1 oginfo相关的特征等,所有特征加起来将近1500维,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法赏用的有如PCA,tSNE等,这类方法的计算复杂度比较高。并且根据以往经验,在数据挖掘类的匕赛中,PCA或t-SNE效果仨往不好。除了釆用降维算法之外,也可以通过特征选择来降低特征维度。特征选择的方法很多:最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1,L2)、基于模型的特征排序方法。比较高效的是最后一种,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,医此我们采用这和方法,基于 boost来做特征选择, xgboost模型洲练完成后可以输岀特征的重要性(见3.3图),据此我们可以保留TopN个特征,从而达到特在选择的目的。
    2020-06-23下载
    积分:1
  • MAAB建模规范4.01版
    The MathWorks Automotive Advisory BoardThe MathWorks Automotive Advisory Board (MAAB) was originally established to coordinate feature requests from several key customers in the automotive industry. The inaugural meeting in July 1998 involved Ford, Daimler Benz, and Toyota.The MAAB is an independ
    2020-12-08下载
    积分:1
  • 二进制转换,原码,反码,补码的学习
    二进制转换十进制例:  01100100 =100  第0位:0*2^0=0  第1位:0*2^1=0  第2位:1*2^2=4  第3位:0*2^3=0  第4位:0*2^4=0  第5位:1*2^5=32  第6位:1*2^6=64  第7位:0*2^7=0         4 32 64=100八进制转换十进制例:  1507=839  第0位:7*8^0=7  第1位:0*8^1=0  第2位:5*8^2=320  第3位:1*8^3=512         7 320 512=839十六进制转换十进制例:  2AF5=10997  第0位:5*16^0=5  第1位:F*16^1=240  第2位:A*16^2=2560  第3位:2*16^3=8192         5 240 2560 8192=10997十进制转换八进制例:  120=170  120 120/8 15 0  15  15/8  1  7  1   1/8   0  1十进制转换二进制和十进制转换八进制一样只是把除数变成2。十进制转换十六进制例:  120=78  120 120/16 7 8  7   7/16   0 7二进制转换十六进制例:  二进制转换十六进制是以4位一段分别转换为十六进制。  权值:23=8,22=4,21=2,20=1  所以:1111=F 二进制                  十进制               十六进制 1111            8 4 2 1=15                      F 1110            8 4 2 0=14                      E ......1111 1101 , 1010 0101 , 1001 1011  F    D  ,   A    5  ,   9   B原码:    一个整数,按照绝对值大小转换成二进制,成为原码。  例:00000000 00000000 00000000 00000101 是5的原码反码:   将二进制数按位取反,所得的新二进制数称为原二进制数的反码。   取反操作指:1变0;0变1例:    00000000 00000000 00000000 00000101每一位取反,得11111111 11111111 11111111 11111010   称:00000000 00000000 00000000 00000101是11111111 11111111 11111111 11111010的反码补码:     反码加1称为补码    也就是说,要得到一个数的补码,先得到反码,然后将反码加上1,所得数称为补码例:00000000 00000000 00000000 00000101是11111111 11111111 11111111 11111010的反码   那么,补码位:11111111 11111111 11111111 11111010 1=11111111 11111111 11111111 11111011
    2015-04-09下载
    积分:1
  • 基于RANSAC算法的贝赛尔曲线拟合
    随机生成五百个点作为初始数据,根据RANSAC算法,对初始数据进行拟合,寻找一条最能表示这五百个点的贝赛尔曲线。
    2020-11-27下载
    积分:1
  • BP神经网络法确定工材料评价指标的权重
    BP神经网络法确定工程材料评价指标的权重
    2020-12-07下载
    积分:1
  • USB CDC方面的协议文档
    USB CDC方面的协议文档,1.1版本,从事USB CDC开发人员可参考!
    2020-12-08下载
    积分:1
  • 倒立摆源码
    倒立摆源码程序,注释很详细,是学习倒立摆原理,PID算法很好的参考资料。代码书写规范,注释详细。
    2020-12-11下载
    积分:1
  • matlabGUI和DSP28335SCI通信
    这个是matlabGUI做的监控界面,可以一次性发送多个数据,下位机可以实时传递数据给上位机,并在上位机实时绘图,并且DSP是浮点数形式发送数据的,所以监控界面可以显示正负数和小数,这个压缩包 包含matlab的.m文件.fig文件和ccs的.c文件,内容充实,并且直接可以运行,.m文件写的是sin函数,监控界面可以实时绘出sin图形,压缩包附有截图。
    2020-11-28下载
    积分:1
  • 696518资源总数
  • 106182会员总数
  • 24今日下载