登录
首页 » Others » 仓库管理系统数据库报告(包括SQL语句)

仓库管理系统数据库报告(包括SQL语句)

于 2020-12-11 发布
0 186
下载积分: 1 下载次数: 1

代码说明:

仓库管理系统数据库(包括SQL语句)设计报告,有源代码,E-R图等等

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • KNN疾病预测算法Demo
    该资源是利用KNN算法对数据进行分类,以excel文件作为输入,能够针对患者的病症,得出他是否患有该病(准确率在70%左右)。有兴趣的童鞋可以下载看看哦!
    2020-12-09下载
    积分:1
  • 基于压缩感知BP,BP,OMP,StOMP二维图像比较
    基于压缩感知BP,BP,OMP,StOMP二维图像比较,里面有详细的代码以及三者算法之间的图像对比。
    2020-07-02下载
    积分:1
  • VS2012 MFC小序 简易网络聊天室
    在VS2012下用MFC写成的简易网络聊天室程序,包含的知识点有ODBC连接MySql数据库、CSocket类的运用等,对于mfc新手是个不错的学习资源(如果项目无法在VS2012下运行,有可能是因为VS版本不匹配(由于之前是先用VS2013写的再转到VS2012),请对着项目右键,然后点属性,找到配置属性,将常规中的平台工具集选择为Visual Studio 2012 (v110),应用即可)
    2020-12-05下载
    积分:1
  • Mimics17中文培训手册.pdf
    这本培训手册是为了帮助用户顺利地开始Mimics软件的使用而编写的,并不能够代替Materialise公司提 供的培训。 这本培训手册在不同的练习中使用了 Mimics 17.0 的模块,如果没有相关模块的使用权无法完成练习。 请注意: 这本培训手册的使用以熟悉Windows系统操作技能为前提Materialise software目录Mmcs培训手册公告BBBB暑 NeAA日品EB园 8NaNANOEN冒品 RaRE曹BB总BBBB即总 98D6NNENnAMms0筒介Mimics模块导入图像5练1.导人如imap图像6练习2:导入DCOM图像…导航&项目管理器,77是BBB品B日BB日B品 0n00EDdD自2B日出BBBB自BBB目B自BBB国BBB即D日BBD国国练习,导航2仟务1.一键导航、放大缩小、平移…12任务2.快捷键的使用…13任务3帮助文档练习2.项日管理器,…14任务1.熟悉项目管理器的使用.14任务2.视窗操作.14任务3.体渲染15/测量工具9练习1.测量工只20任务1.距离测量.20任务2.角度测量任务3.测量的导出着国面21任务4.密度测量.21练习2.剖面线练习3.评注22基本阈值分割&三维模型操作,,25练习1.能部的分割.26任务1阈值分割(使用剖面线任务2.计算三维模型27任务3.区城增长28练习2.分离动脉…网值法任务1.阙值分割(使用剖面线)和区域增长30任务3.计算三维模型.…练习3.分离动脉∥33动态区域增长法33任务1.动态区域增长…33练习4.三维导航团道任务1.一键导航、敖大缩小、移、旋转……35任务2.使用快捷方式进行导疽.36练↓5.从骨盆上分离脊推37练习6.三维工具……40练习7.提取膝关#443D性套索功能任务1:使用3D磁性套索提取胫骨导出功能www.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise software练习1.导出切层50任务1.导出DCOM任务2.导出BMP.50任务3.导出电影.50练习2.导出S752高级分割53练习1.分离脑组织…任务1.修剪感兴趣的区域…….54任务2.形态学操作:消蚀.….55任务3.在三维视下编辑mask.57任务4.形态学操作:膨胀…57仟务5.千动编辑59任务6.多层编辑…60MedcADB即即BB身总BDB即原总自D即国B国即即DBB即 anDOng90且BBBD63练习1.通过多义线拟合球体练习2.通过多义线拟合表面66任务1.拟合股骨主干的表面任务2.拟合大转了的表面67练习3动脉中心线69任务1计算中心线9任务2.中心线测量70仟务3.中心线末端切面∴71任务4.分支分组仟务5.对控制点的操作…72于术模拟…74练习1.使用多义下面切割练习2.植入体评价练习3调整入体的位练习4评价骨量179FEA…,,n,,,n,n82练习1.股骨的网格优化83任务1.打开网格优化器…83任务2.股骨的几何简化83任务3.检查网格.……,85任务4优化三均片质量任冬5.生成体网格……∴88练小2.赋材质……90练3.并流形装配.97任务1.创建非流形装配91仟务2.优化网格93任务3.创建体K格.95仟务4.分离非流型装配以及导出网格文件恭喜您98Mimics nnovation Suite用户俱乐部98www.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise softwareMmis简介Mimics是一个迕接二维图像数据(CT,MRl,工业扫描数据.)和三维工程学应用的图像处理工具。应用领域包括:解剖学测量、三维分析、有限元分析(FEA)、客制化植入体或装置设计、加法制造(也被称为维打印)以及手术计划和模拟通过使用 Mimics的图像分割方法,用户能够从医学数据中选择特点的感兴趣区域,将结果计算成精确的三维模型。Mimics的功能模垬为用户提供了其它应用领域的接口。这意味着 Mimics的功能可以方便的根据用户的需要进行组合。另外, Mimics是 Mimics innovation suite的一部分,这一套装也包括了3mabc0。在套装中, Mimics被用来生成精确的三维模型,之后3-ma加被用来在解剖学模型的基础上进行设计和网格操作。因比3-ma极大稈度的扩展了 Mimics在基于解剖数据的工程学方面的应用的可能性Mimics被广泛的应用在骨科、颌面外科以及心血管行业的学术及商业硏究领域Mimics的主要优势:Mimics界面友好容易掌握。快遮的分割工具(基于阈值和轮廓)和精确的三维计算保证了快捷的取道精细的三维模型Mimics在|sO环境下开发,只有CE和FDA市场认证Mimics基于市场要求持续开发,每年有两个版本的更新。当 Mimics和3- matic被联合应用时,用户可以直接在STL文件的基础上进行设计和网格操作尤需逆向工程。这使用户可以:基于解剖数据改进植入体o设计客制化的植入体和手术导板● Mimics的开发商 Materialise是创新软件和加法制造技术的世界领跑者。www.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise softwarem/模块Mimics包括多个模块。下方的图片给出了基础模块与功能模块之间的链接,以及)要的应用领域。ImportMimics @Innovation SuiteExportMimicsFEAMedCADSurgicalRP-sliceSimulationCAD3- matic②MATLAB BImpartsStatisticestanPoint cloudAnalysisEngineeringPoint cloudManufacturing(RP/CAMywww.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise software导入图像这一章的练习公帮助您了解如何导入bmp图像以夂对图像尺寸进行修改如何自动导入D|COM数据■确认图像方向注意Mimics不仅支持 Dicom格式数据,而且能够直接导入扫描原始数据。这些数据可以通过硬盈、光盘或磁盘导入。 Mimics也支持BMP,JPEG以及TFF格式文件的导入。源文件可以通过在 importwizard的第一步选择, force manual import"的方式手动导入在开始之前保证您已经安装了培训数据 Training Data2011.eXe、头影测量数据库以及牵引器数据库。您可以在培训光盘中找到这些安装程序。www.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise software练习1.导入bma图像从主工具栏中选择 new project wizardSelet the media or files tha contain the images x irpotDICOM Input Application (D-AFavoritesDriversIrldyeRuuLaMedDataA.UDotascts山 extra datasetsImportTEST. RTTMAPD DICOM簧 Add : o feveritearget folder: 3: SUpportRobert Atwooda mercer aw inport show Import logCarTEl2.浏览 Training Data文件夹( CMed DataTraining Data),选择 BITMAP文件夹。点击Mex3.在 Image properties窗口标示出扫描分辨率。像素大小为256μm,层距为4mm。然后选择Mexwww.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise softwareNew project w zardMcnary ncad=d (conmprc33cc/uncomprcaacd): 128 Mb/256 Mb Mcrory availzbc: 20E2 Mbv7023277sia+S vL_/62341/b_akIa +000.8(-J00 bmpv70234770ad+00160-00v76234776axi+00200-00.mv76237681+002C00bm画7.8C- 00.hmnv762]4768i5+00360-00.brpv/6234baxa+004-.mpv7624776ai+048C-hrmnvi70234770ad+002C-00uv76234776ai110056C00.bmv7623763x8+0060000mp76)3x776xia+0-0mp画w70234770did+008C-00Jmp烟v762]4768+00720-00mp1A1,∩ nTEr nn LSorting orde- custom-15775sh?informatonK701∞Y7z40mnkmPatent name n/a□ Forcc sotropi: samplingrebate n/o4.在下个窗口 Edit images,您可以涠过调节图像周围的线框的大小来对该项目进行修剪。dit imag esf vol maco/caac #l ixel mappingMin X 30x MaK< X 51Min Y 115MinZ o px Msx Z 511 psInput: 512* 512 x :12 Output 182x 213x 51?100, JUUUOUPlxel sze:1.fUlllt:1Skip mages: JInput: 402? Outut: 402x 21Jx512www.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米Materialise software5.在这个窗口,您也可以编辑像素映射图的属性。完成编辑后,点击Mex6.在方向窗口标示出图像的方向。点击OK打开 Mimics项目,您就可以开始进行图像分割了!Check orientationverify if the proposed or entatior is correctDizor mage orien ation: xXXCurrent orientationR吕T0BA□Risht-dick on an orientation character to chance it.OK Cancel Hepwww.materialise.comMaterialise China- 1803, No 800, DongfangRoad-Shanghai-Chinamimics@materialise.com.cnMaterialisedriving your innovations米
    2020-12-11下载
    积分:1
  • 黄国酬 dw2xls 最新版.rar
    【实例简介】包括: 报表组件功能说明 dw2xls.pbl dw2xlsDemo.pbl ttf16.ocx PB9版本
    2021-11-27 00:31:29下载
    积分:1
  • STM32 SPI方式驱动SH1106 OLED屏幕
    STM32驱动SH1106OLED屏幕的源代码,在中景园模块上成功调试运行。这个不是中景园屏幕提供的源代码,不会出现字体显示不完全的现象
    2020-12-07下载
    积分:1
  • Gabor小波+PCA+LDA特征提取方法的人脸表情识别
    基于Gabor小波+PCA+LDA特征提取方法的人脸表情识别 论文机电技术2011年12月(k)(×()4eXp|-0.5(0(4)-2×3.1415926)×U第四步:初始模型确定下来以后,采用则将该待识别人脸表情判别为第讠类表情Baum- Welch算法对参数进行重估计,选代调整模人脸表情实验及分析型参数以达最优化。这样就完成了训练建模工作,获得了在粗分本文在JAFE( Japanese Female Facial Expre-类层次下代表7种人睑表情的IMM模型sion)表情数据库中进行实验。 JAFFE人脸表情库a1=(A,B,)(=1,2,…,7)10个人,共213幅图像组成,每人都包含愤怒、23HMM人脸表情分类厌恶、恐惧、髙兴、悲伤、惊讶和中性7种表情,对待识别的人脸表情图像,按本节22中模型每人每种表情2~4幅,每和表情共有27幅本文实验与 Mihcac等的测试方法相似,把数训练步骤的第一步获得观察向量O,然后计算观据库中的210图像分成3个部分,每个部分包含察向量O与已训练好的HMM模型A1=(A,B,z)10个人,且每个人包含7幅不同表情图像,每次使的似然概率P(O|λ)(=,2,…,7)。通过用其中的一个部分训练各个表情的HMM模型,剩Forward-Backward算法来计算似然概率,如果下的两个部分用来测试。循环操作3次,然后对这P(O|A1),i∈(1.2,…,)在P(OA)(=1,2,…,7)3次取平均值,得出表情识别率。本方法获取的表中最人,即情识别率见表1P(Ol, )=max p(ola)表1人脸表情识别结果愤怒厌恶恐惧高兴中性悲伤惊讶识别率/愤怒厌恶恐惧5591高兴中性悲伤0201100095.00020惊讶05693.33整体识别率92.14从表1中可以看出,本方法可以获得较好的表高的问题,提出了一种新的人脸表情识别方法。情识别率,但是,从实验中也可发现,不管是有本方法通过更加有效的 Gabor小波+PCA+LDA表没有减少分类类别数,实验中始终存在误识别。情特征提取方法,然后结合IMM模型建立7个对从实验数据斥中发现,悴中杲些人的种表情变化应基本表情+中性表情的模型,进行识别分类,并不明显,即使人眼也无法确定其表情类别,以并且取得了92.14%的整体识别率。同时,在实验致算法在识别时出现错误。中发现,由于人脸实验数据库中某些人的7种表情4结论变化并不明显,即使人眼也无法确定其表情类别,以致算法在识别时出现错误。本文针对目前人脸衣情的整体识别卒普遍不(下转第35页)21994-2015ChinaacAdemicJOurnalElcctronicPublishingHousc.Allrightsrcscrved.http://www.cnki.nct第6期林彩邴等:磁流变阻尼器减振系统的分数阶微分方程硏究35[2] DROZDOVAD Mechanicsofviscoelasticsolids[M]. New York: John Wiley &Sons Ltd, 1998: 21-65B3 LAKES RS. Viscoelastic solids[M]. London: CRC Press, 1998: 63-1104 Stanway R, Sproston, J L, Stevens N (i. Non-liner modeling of an electrorheological vibration damper.J. Electrostatics,1987,20[S]周强,瞿伟廉.磁流变阻尼器的两种力学模型和试验验证[.地震工程与工程振动,2002,22(40.[6] Gamoto DR, Filisko F E. Dynamic mechanical studies of electrorheological materials moderate frequencies. J. Rheology,991,35(3).[刀]汪建晓,孟光.磁流变阻尼器用于振动搾制的理论及实验研究J.振动与冲击,2001,20(2)[8 Wen Y K. Method of random vibration of hysteretic systems[J. Journal of Engineering Mechanics Division, ASCE102(EM2),19769SpencerJr. BF, Dyke SJ, Sain M K, Carlson, J.D. Phenomenological model of a magnetorheological damper. JEngrg. MechASCE.1997,123[10]薛定宇陈阳泉高等应用数学问题的 MATLAB解[M清华大学出版社,2010[l]l云,谭半.磁流变阻尼控制理论与技术[M科学出版社2007[1】]王振滨曹广义分数微积分的两种系统建模方汏系统仿真学报,2004,6(4:810-81上h与比比比比匙比比知5印(上接第20页)参考文献[1] ZHAO Quan-you, PAN Bao-chang, PAN Jian-jia, et al. Facial expression recognition based on fusion of Gabor and LBPfeaturesLA] In: Proceedings of the 2008 International Conference on Wavelet Analysis and Pattern Recognition[C), HongKong,IEEE,2008(8):362-367[2] Tang Fang-qi, Deng Ben-zai. Facial Expression Recognition using AAM and Local Facial Features [A]. In: Proceedings ofthe Third International Conference on Natural Computation[C], Haikou, China, IEEE, 2007(8): 632-635[3]陈培俊基于静态图像的人脸表情识别研咒[M成都:西南交通大学,2007[4] Lades M, Vorbruggen JC, Buhmann J. Distortion invariant object recognition in the dynamic linkarchitecture[J].IEEE Transactions on Computers, IEEE, 1993, 42(3): 300-311[5]彭辉张长水荣钢等基于KL变换的人脸自动识别方法清华大学学报(自然科学版),2007,37(6):6770[6]Duda RO, Hart PE, Stork DG Pattern Classification(second edition). New York: Wiley, 20017]李云霞,李治柱,吴亚栋基于HMM的关键词识别系统计算机工程,2004,30(7):130-132谨致作者敬请本刊作者允诺:稿件中没有侵犯他人著作权或其它杈利的内容并且文责自负:投寄给本刊的槁件(论文、图表、照片等)自发表之日起,其专有出版权和网络传播权即授于本刊,并许可本刊在本刊网站或本刊授权的网站上传播及屮国核心期刊(遴选)数据库、屮国学术期刊综合评价数据库、屮文科技期刊数据库、屮国台湾华艺数据库全文收录。对上述合作若有异议者,烦请来时向本刊申明,未作申明者,本刊将视为同意,谢谢合作。并致诚挚敬意。《机电技术》编辑韶21994-2015ChinaacAdemicJOurnalElcctronicPublishingHousc.Allrightsrcscrved.http://www.cnki.nct
    2020-12-06下载
    积分:1
  • STM32F103RB ILI9481屏代码
    STM32F103RB ILI9481屏 320*480 基本操作代码 库函数 IO操作
    2020-12-02下载
    积分:1
  • 人工智能(哈工大)-赵铁军-2009 ppt
    8个部分共9章,覆盖了人工智能研究的核心内容8个部分9章是:人工智能概述—第1章 第1部分搜索(问题求解)—第2章 第2部分逻辑与推理—第3章 第3部分知识表示—第4章 不确定性推理—第5章 第4部分学习—第6章 第5部分自然语言理解简介—第7章 第6部分规划简介—第8章 第7部分多Agent系统—第9章 第8部分
    2020-11-29下载
    积分:1
  • 风控建模等奖
    使用拍拍贷数据,建模全过程,从数据预处理开始到最后的模型比较。仅用于交流学习。队伍介绍队名“不得仰视本王”,队伍由五个小伙伴组成,我们是在一个类以的比赛(微额借款用户人品预测大赛)认识的,对数据挖掘竹热爱让我们走到了一起,以下是成员简介:姓名学校、学历比赛经历匚陈靖」中国科学技术大学研二天泡科学家总分第三,微额借贷用户人品预测大赛季军朱治亮浙江大学研二淘宝穿衣搭配比赛李军,微额借贷用户人品预测大赛李军质耀重庆邮电大学研二微额借贷用户人品预测大赛冠军匚赵蕊」重庆邮电大学研微额借贷用户人品预测大赛亚军黄伟鹏北京大学研一微额借贷用户人品预测大赛冠军解决方案概述2.1项目介绍与问题分析拍拍贷“魔镜风控系统”从平均400个数据维度评估厍户当前的信用状态,给每个告款人打出当前状态的信用分,在此基础上再结合新发标的信息,打出对于每个标约6个月内逾期率的预沨,为没资人提供关键的决策依据。本次竞赛目标是根据用户历史行为数据来颈测用户在六来6个月内是否会逾期还款的概率。问题转换成2分类问题,评估指标为AUC,从 Master, LogInfo, Update Info表中构建恃征,考虑评估指标为AUC,其本质是排序优化问题,所以我们在模型顶层融合也使用基于排序优化的 RANK AVG融合方法。2.2项目总体思路本文首先从数据清洗开始,介绍我们对缺失值的多维度处、对离群点的剔除方法以及对字符、空格等的处理;其次进行特征工程,包括对地理位置信息的特征构建、成交玉间特征、类别特征编码、组合特征构建、 Lpdatelnfo和 Log Info表的特征提取等;再次进行特征选择,我们采用了 boost, boost的训练过栏即对特征重要性的排序过程;然后处理类别的不平衡度,由于赛题数据出现了类不平衡的情况,我们采用了代价敏感学习和过采样两和方法,重点介绍我们所使用的过采样方法;最后一部分是模型设计与分析,我们采用了二业界广泛应用的逻辑回归模型、数据挖掘比赛大杀器 ghost.,创新性地揆索了large- scale sⅧm的方法在本赛题二的应用,玟得了不错的效果,此外还介绍了模型融合方、数据清洗3.1缺失值的多维度处理在征信领域,用户信总的完善程度可能会影响该层户的信用评级。一个信息完苦程度为100%的户比起完善程度为50%的用户,会更加容易官核通过并得到借款。从这一点亡发,我们对缺失值进行了多维度的分析和处理按列(属性)统计缺失值个数,进一步得到各列的缺失比率,下图(图1)显示了含有缺失值的属性和相应的缺失比率sing rate of Attributes图1.属性缺失比枣WeblogInfo_1和 WeblogInfo3的缺失值比率为97%,这两列属性基本不携带有用的信息,直接剔除。 Uscr Info_11、 Userinfo_12和 Uscr info_13的缺失值比率为63%,这三列属性是类别型的,可以将缺失值用-1垣充,相当于“是否缺失”当成另一种类别。其他缺失值比卒较小的数值型属性用中值填充按行统计每个样本的属性缺矢值个数,将缺失值个数从小到大排序,以序号为横坐标,缺失值个数为纵坐标,画出如下散点图(图2)test set16016014014C12012Cw9mczE100400060008000Order Numbe(sort ircreasinglyOrde Nt mber(sort increasing ly)图2.样本属性缺失个数对比 trainset和 testset上的样本的属性缺失值个数,可以发现其分有基本一致,但是trainset上出了几个缺失值个数特别多的样本(红框区域内),这几个样本可以认为是离群点,将其剔除另外,缺矢值个数可以作为一个特征,衡量用户信息的完善程度。3.2剔除常变量原始数据宁有190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变亿很小的特征,下表(表1)列出的15个特征是标准差接近于0的,我们剔了这15维特征表1.剔除数值特征标准差属性标准差属性标准差属忾标准差Webloglnfo_10 0.0707 WeblogInfo_41 0.0212 Webloglnfo_490.0071Webloglnfo_23.0939 WeblogInfo_43 0.0372 Webloglnfo_5200512Webloglnfo_31.0828 Webloglnfo_44.0166 Webloglnfo_5400946Webloglnfo_32 0.0834 Webloglnfo_46.0290 WeblogInfo_5500331Webloglnfo_40.0666 Webloglnfo_47 0.0401 WeblogInfo_58006093.3高群点剔除在样本空间中与其他样本点的一般行为或特征不一致的点称为离群点,考虑到离群点的异常特征可能是多维度的组合,我们通过分析样本属性的缺矢值个数,剔除了极少量的离群点(见3.1节)此外,我们还采用了另外一种简单有效的方法:在原始数捶上训练ⅹ gboost,用得到的xgb模型输出特征的重要性,取最重要的前20个特征(如图3所示),统计每个栏本在这20个特征上的缺失值个数,将缺矢值个数大于10的样本作为离群点。ThrciParty Ifn PeriodIntrAparty nto HerodThrcPorty hfo Penod3ardiParty hfo Period?ThirdParty Info Penod图3.Xgb特征重要性通过这个方法,易除了400多个样水。这些样在重要特征上的取值是缺失的,会使得模型学习变得因难,从这个角度妖说,它们可以看成是离群点,应剔除掉。3.4其他处理(1)字符大小写转换Userupdate Info表宁的 Userupdate Info1字段,属性取值为英文字符,包含了大小写,如Q"和”qQ",很玥显是同一和取值,我们将所有字符统一转换为小写(2)空格符处理Mastor表中 UserInfo9字段的取值包含了空格字符,如“中国移动”和“中国移动”它们是同一种取值,需要将空格符去除。(3)城市名处理Userinfo_8包含有“重庆”、“重庆市”等取僬,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉“市”之后,城市数由600多下降到400多。四、特征工程4.1地理位置的处理对地理位置信(类别型变量)最简单的处理方式是独热编码(one- hot encoding),但是这样会得到很高维的稀疏特征,影响糢型的学习,我们在独热编码旳基础上,做了特征选择。下面介绍具体的方法。赛题数据提供了用户的地挛位置信息,包括7个字段: Userinfo2、 Userinfo4、UserInfo7、 UserInfo8、 UserInfo I9、 UserInfo20,其中 UserInfo_7和 UserInfo19是省份信息,其余为城市信息。我们统计了每个省份和城市的违约率,下图以 Userinfo_7为例图1.省分违约率可视化图5可视化了每个省份的违约率,颜色越深代表违约率越大,其中违约率最大的几个省份或直辖市为四川、湖南、湖北、吉林、天津、山东,如下图所示:图5.违约深突出省份可视化因此我们可以构建6个二值特征:“是否为四川省”、“是否为湖南省”...“是否为山东省”,其取值为或1。其实这相当于对地理位置信息做了独热编码,然后保留其中有判别性的菜些列。这里 UserInfo_7何含32和取值,编码后可以得到32维的稀疏特征,而我们只保留其宇的6维以上我们是通过人工的分析方法去构延二值特征,在处理省份信息时还是匕较直观的,但是处理城市信息,比如 Userinfo2,包含了33个减市,就没有那么直观了。为了得到有判别性的二值特征,我们首先对 Userinfo2进行独热编码,得到333维的二值特征,然后在这333维稀疏特征上训练ⅹgb模型,再根据xgb输出的特征重要性刷选二值痔征,以下是选取到的部分二值特征(对应的城市):“淮纺市”、“九江市”、“三门峡市”、“汕头市”、“长春市”、“铁岭市”、“济菊市”、“成都市”、“淄博市”、“牡丹江市”。按城市等级合并类别型特征取值个数太多时,独热编码后得到太高维的稀疏特征,除了采用上面提到的特征选择方法外,我们还使用了合并变量的方法。按照城市等级,将类别变量合并,例如线城市北京、上海、广州、深圳合并,赋值为1,同样地,二线城市合并为2,三线城市合并为3>经纬度特征的引入以上对地理位置信息的处理,都是基于类别型的,我们另外收集了各个城市的经纬度,将城市名用经纬度替换,这样就可以将类别型的变量转化为数值型的变量,比如北京市,用经纬度(39.92,116.46)替换,得到北纬和东经两个数值型特征。加入经纬度后,线下的cross validation有千分位的提升。城市特征向量化我们将城可特征里的城市计数,并取Log,然后等值离散化到610个区间内。以下图为例,将 serino2这个特征里面的325个城市离散为一个6维向量。向量“100000”表示该城位于第一个区间。线下的 cross validation有千分位的提升。Loglui2 num)6.城市特征离散化地理位置差异特征如图8所示,1,2,1,6列郗是城市。那么我们构建一个城市差异的特征,比妇diff_12表示1,2列的城市是否相同。如此构建 diff l2,diff_14,diff_l6,diff_24,diff26,diff46这6个城市差异的特征。线下的 cross validation有千分位的提升。⊥aJse⊥nfa2 userinfo4 Userinfo7 Userinfo8 Userinfo19uer⊥nf。201C013郴州1C020惠州1C033零1c035深圳东东东东建东福建省10038济104连云港远言港带1C042德州1c043青岛聊拔东自聊城市46深圳汕广东广东省汕尾市105所多工新乡图7.地理位置差异样例4.2成交时间特征按日统计训练集中每天借贷的成交量,正负样本分别统计,得到如下的曲线图8,横坐标是日期(20131101至20141109),纵坐标是每天的借贷量。蓝色由线是违约的样本每天的数量(为了对比明显,将数量乘上了2),绿色曲线对应不违约的样本train set1200count o10008004002广外从20030350Date20131101~20141109图8.每日借贷量统计可以发现拍拍贷的业务量总体是在埤长的,而违约数量一开始也是缓慢增长,后面基本保持不变,总体上违约率是平稳甚至下降的。在横坐标300~350对应的日期区间,出现了些借贷量非鸴大的时间苄点,这些可能隐减着苿些信息,我们尚未挖掘出来。考虑到违约率跟时间线有关,我们将戒交时间的字段 Listinginfc傲了几种处理,一和是直接将其当做连续值特征,也就是上图对应的横坐标,另一和是离散化夂理,每10天作为一个区间,乜就是将日期0`10离散化为1,日期1120离散化为2.4.3类别特征的处理除了上面提到的对菜些类别特征进行特殊处理外,其他类别特征都做独热编码。44组合特征Xgboost的训练完成后可以输出特征的重要性,我们发现第三方数据特征ThirdParty Info Period XX”的 feature score比较大(见图3),即判别性比较高,于是用这部分特征构建了ξ合特征:将特征两两相除得到7000个特征,然后使用 boost对这7000多个特征单独训练模型,训练完成后得到特征重要性的排序,取其中top500个特征线下cv能达到0.73+的AUC值。将这500个特征添加到原始特征体系中,线下cv的AC值从0.777捉高到0.7833。另外,也组合了乘法特征(取对数):10g(x*y),刷选出其中的270多维,加入到原始特征休系中,单模型cv又提高到、0.785左右。4.5 Upadte Info表特征根据提供的修改信息表,我们从中抽取了用户的修改信息特征,比如:修改信息次数,修改信息时间到成交时间的跨度,每和信息的修改次数等等特征。46 LogInfo表特征类似地,我们从登录信息表里提取了用户的登录信息特征,比如登录天数,平均登录间隔以及每种操作代码的次数等47排序特征对原始特征中190维数值型特征接数值从小到大进行排序,得到190维排序特征。排序特征对异常数据有更强的鲁棒性,使得模型更加稳定,降低过拟合的风险。五、特征选择在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、排序特征、类别稀疏侍征、 updateinfo和1 oginfo相关的特征等,所有特征加起来将近1500维,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法赏用的有如PCA,tSNE等,这类方法的计算复杂度比较高。并且根据以往经验,在数据挖掘类的匕赛中,PCA或t-SNE效果仨往不好。除了釆用降维算法之外,也可以通过特征选择来降低特征维度。特征选择的方法很多:最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1,L2)、基于模型的特征排序方法。比较高效的是最后一种,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,医此我们采用这和方法,基于 boost来做特征选择, xgboost模型洲练完成后可以输岀特征的重要性(见3.3图),据此我们可以保留TopN个特征,从而达到特在选择的目的。
    2020-06-23下载
    积分:1
  • 696518资源总数
  • 106155会员总数
  • 8今日下载