剔除测量数据中异常值的若干方法
剔除测量数据中异常值的若干方法,第1期何平:剔除测量数据中异常值的若干方法21表3n,a相应的Y值3.91-00.010.010.6790.576190.4620.889).765120.6420.5460.5350.4500.7800.642130.6150.52l210.5240.44060.6980.560140.6410.5460.5140.4300.6370.507150.616230.50580.6830.554160.5950.5070.4130).406100.447180.5610.475表4Z,与n值的对应关系3458902131415161820301050zc1.381.541.651.731.801.881.921.962.002.032.072.102.132.152.202.242.392.492.58表51组测量数据(已按顺序从小到大排好)810t20.3020.3920.3920.3920.4020.4020.4]20.4120.4220.4220.4220.4320.4320.4320.43查表3得到临界值Y。(15,0.05)=0.525,根据也都有其局限性。例如:所有的准则都是以数据按正态狄克逊准则,由于Y2>%(15,0.05),故t值是异常分布为前提的,当偏离正态分布时,判断的可靠性将受值,应予舍弃。影响。还有几个准则对n值的要求也各有不同:当大样程序框图如图3所示本测定时,使用莱因达准则最适合,但当小样本测定24肖维勒准则应用软件流程图及实例时,则一般推荐使用格拉布斯准则和狄克逊准则。而肖计算算术平均值t=20.405维勒准则在某种程度上讲仅仅是莱因达准则的补充计算剩余误差v及均方差a=0.01498在实际测量中,一般取测量次数n=5~20次,特从表4中查得相应的Z值(n=15,故Z2=2.13)别精密的测量,也很少超过100~200次。因此,使用根据肖维勒准则检测l1是否为异常值以上各种准则时,必须注意测量次数的限制。对于莱因1-t|=0.105达准则、一般建议测量次数大于或等于50次,而对于而Zσ=2.13×0.01498≈0.03191格拉布斯准则和狄克逊准则,则建议小于或等于20次。但这一区别并不是十分严格的由于|1-t1>z,则t1值异常,应予舍弃。程序框图对小样本来说,由于格拉布斯准则能给出较严格如图4所示。的结果,狄克逊准则无需计算X和o,方法简便,且23几种方法的进一步讨论者的概率意义明确。因此,它们能较好地适用于采样次从以上的应用情况来看,似乎各种准则的应用实数不太多的一般测量列践都很一致,但这只是个特例,并没有普遍性。举这个设X为N(0,1),在1个大小为n的子样中混入例子,只为了更好地说明几种准则都能得到很好的应个Y:N(μ,δ)的子样。有研究结果表明:格拉布用。需要指出的是,以上各准则都是人为主观拟定的,斯方法的检出概率P略高于狄克逊方法的检出概率直到目前为止,还没有统一的规定,因此,它们的应用PD,如表6所示:(N(0,1)叫作标准正态分布)o1994-2012ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net2航空计测技术第15卷STARTSTARTSTARTSTART输入数据输入数据输入数据输入数据计算算术平均值入计x根据n值,及均方根偏差从表2中计算出相应y计算算术平均值计算剩余误差;,计算T值并选定均方根偏差σ危险率a选定危险率a计算剩余误差v,均方根偏差判别粗大误差查表得相应的(n,a)从表3中查出%(n,a)值从表4中查出相应Z值打印输出结果判别数据是否为异常?判别敦据是否异常判别粗大误差ENDExDENDEND图1莱因达准则应图2格拉布斯准则图3狄克逊准则应图4肖维勒准则应用程序框图应用程序框图用程序框图用程序框图表6P与PD的比较舍。但是,对待粗大误差,除从测量结果中及时发现和利用剔除原则鉴别外,更重要的是提高工作人员的技术a(%)水平和工作责任心,不要在情绪不宁和极度疲劳的情况5.01.0下,进行重要的测量工作。另外,要保证测量条件的稳定,防止因环境条件剧烈变化而产生的突变影响。只有δ11221122这样,才能提高测量的精度,得到满意的测量结果PG(%)10.240.429.854.22.515.712.731.3参考文献PD(%)9.335.726.850.02.212.910.526.31梁晋文等编著.误差理论与数据处理.北京:中国计由于混入的Y不一定是子样中最大的数据,所以,量出版社,1989实际检出效果还要高一些2何国伟编著,误差分析方法.北京:国防工业出版社,4结束语3王文松.测量列中离群值的判断.电测与仪表,1992,从以上论述可以看出,在进行测量数据处理时,可11)以应用各种准则进行粗大误差判别,以决定数据的取o1994-2012ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
- 2021-05-06下载
- 积分:1
2012年全国大学生数学建模竞赛A题一等奖论文
2012年全国大学生数学建模竞赛A题一等奖论文。高教社杯全国大学生数学建模竞赛编号专用页赛区评侧编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):全国统编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于数理分析的葡萄及葡萄酒评价体系摘要葡萄酒的质量评价是硏究葪萄酒的一个重要领域,目前葡萄酒的质量主要由评酒师感官评定。但感官评定存在人为因素,业界一自在尝试用葡萄的理化指标或者葡萄洏的理化指标定量评价葡萄洒的质量。本题要求我们根据葡萄以及葡萄酒的相关数据建模,并研究基」理化指标的葡萄酒评价体系的建立对于问题一,我们首先用配对样品t检验方法研究两组评酒员评价差异的显著性,将红葡萄酒与白葡萄酒进行分类处理,用SPSS软件对两组ⅳ酒员的评分的各个指标以及总评分进行了配对样本t检验。得到的部分结果显示:红葡萄酒外观色调、香气质量的评价存在显著性差异,其他单指标的评价不存在显著差异白葡萄、红葡萄以及整休的评价存在显著性差异接着我们建立了数掂可信度评价模型比较两组数据的可信性,将数据的可信度评价转化成对两组评酒员评分的稳定性评价。首先我们对单个评酒员评分与该组所有评酒员评分的均值的偏差进行了分析,偏差不稳定的点就成为噪声点,表明此次评分不稳定。然后我们用两组评酒员评分的偏差的方差衡量评酒员的稳定性。得到第2组的方差明显小于第1组的从而得出了第2组评价数据的可信度更高的结论。对于问题二,我们根据酿酒葡萄的理化指标和葡萄酒质量对葡萄进行了分级。方面,我们对酿酒葡萄的级理化指标的数据进行标准化,基于主成分分析法对其进行了因子分析,并且得到了27种葡萄理化指标的综合得分及其排序(见正文表5)。另一方面,我们又对附录给出的各单指标百分制评分的权重进行评价,并用信息熵法重新确定了权重,用新的权重计算出27种葡萄酒质量的综合得分并排序(见正文表6)。最后我们对两个排名次序用基于模糊数学评价方法将葡萄的等级划分为1-5级(见正文表8)。对于问一,首先我们将众多的葡萄理化指标用主成分分析法综合成6个主因子,并将葡萄等级也列为主因子之一。对葡萄的6个主因子,以及葡萄酒的10个指标用SPSS软件进行偏相关分析,得到酒黃酮与葡萄的等级正相关性较强等结论。之后对相关性较强的主因子和指标作多元线性回归。得到了葡萄酒10个单指标与主因了之间的多元回归方程,该回归方程定量表示两者之间的联系对于问题四,我们首先将葡萄酒的理化指标标准化处理,对葡萄酒的质量与荀萄的6个主因子和葡萄酒的10个单指标作偏相关分析,并求出多元线性回归方程。该方程就表示了葡萄和葡萄酒理化指标对葡萄酒质量的影响。之后,我们通过通径分析方法中的逐步回归分析得到葡萄与葡萄酒的理化指标只确定了葡萄酒质量信息的47%。从而得出了不能用葡萄和葡萄酒的理化指标评价葡萄酒的质量的结论。接着我们还采用通径分析屮的间接通径系数分析求出各自变量之间通过传递作用对应变量的影响,得到单宁与总酚传递性影响较强等结论最后,我们对模型的改进方向以及优缺点进行了讨论。关键词:配对样本t检验数据可信度评价主成分分析模糊数学评价综合评分信息熵偏相关分析多元线性回归1问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒荀萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件中给岀∫某年份一些葡萄酒的评价结果,并分別给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。我们需要建立数学模型并且讨论下列问题:1.分析附件1中两组评洒员的评价结果有无显著性差异,并确定哪一组的评价结果更可信。2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用荀萄和葡萄酒的理化指标来评价葡萄酒的质量2模型的假设与符号的约定2.1模型的假设与说明(1)评酒员的打分是按照加分制(不采用扣分制);(2)假设20名评酒员的评价八度在同一区间(数据合理,不需要标准化)(3)每位评酒员的系统误差较小,在本问题屮可以忽略不计(4)假设附件中给出的葡萄和荀萄酒理化指标都准确可靠。2.2符号的约定与说明符号符号的意义原假设显著性概率第1组评酒员对第号品种葡萄酒评分的平均值,第2组评洒员对第号品种葡萄酒评分的平均值第一组评酒员对指标评分的偏差的方差,第二组评酒员对指标评分的偏差的方差,=…,第1组10位评酒员对号酒样品第项指标评分的平均分第组第号评酒员对号酒样品第项指标评分与平均值的偏第1组第号评酒员对其项指标评分与平均值的偏差的平均第2组第个评酒员的总体指标偏差的方差重新确立的第项指标的权重第2组10个评酒员的总体指标偏差的方差评酒员指标的平均评分,=葡萄的第项指标,葡萄的第项因子,=葡萄酒的第项理化指标3问题一的分析与求解3.1问题一的分析题冂要求我们根据两组评酒员对27种红葡萄洒和28种白葡萄泙的10个指标相应的打分情况进行分析,并确定两组评酒员对葡萄酒的评价结果是否有显著性差异,然后判断哪组评酒员的评价结果更可信初步分析可知:由于评酒员对颜色、气味等感官指标的衡量人度不同,因此两组评酒员评价结果是否具有显著性差异应该与评价指标的类型有关,不同的评价指标的显著性差异可能会不同。同时,由于红葡萄酒和白葡萄酒的外观、口味竽指标羔异性较大,处理时需要将白葡萄酒和红葡萄酒的评价结果的显著性差昦分开讨论。基于以上分析,我们可以分别两组品尝同一种类酒样品的评酒员的评价结果进行两两配对,分析配对的数据是否满烂配对样品t检验的前提条件,而且根据常识可知评酒员对同一种酒的同一指标的评价在实际中是符合t检验的条件的。接着我们就可以对数据进行多组配对样品的t检验,从而对两组评洒员评价结果的显著性差异进行检验。由于对同一酒样品的评价数据只有两组,我们只能通过评价结果的稳定性来判定结果的可靠性。而每组结果的可靠性乂最终决定于每个评酒员的稳定性,因此将问题转化为对评酒员稳定性的评价。3.2配对样品的t检验简介统计知识指出:配对样本是指对冋一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试所得的两组数据。在本问中我们可以把配对样品理解为有27组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据,两组屮各个指标的数据为每组评酒员对该指标打分的平均值配对样品的t检验可检测配对双方的结果是否具有显著性差异,因此就可以检验出配对的双方(第一组与第二组)对葡萄酒的评价结果是否冇差异性型对样品t检验具有的前提条件为:(1)两样品必须配对(2)两样品来源的总体应该满足正态性分布。配对样品t检验基本原理是:求出每对的差值如果两种处理实际上没有差异,则差值的总体均数应当为0,从该总体中抽出的样本其均数也应当在0附近波动;反之,如果两种处理有差异,差值的总体均数就应当远离0,其样本均数也应当远离0。这样,通过检验该差值总体均数是否为0,就可以得知两种处理有无差异。该检验相应的假设为:=,两种处理没有差別,4≠两和处理存在差别3.3葡萄酒配对样品的t检验问题一中配对样品为27组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据,其中两组中各个指标的数据为各组10个评酒员对该指标打分的平均值。该问题中的10个指标分别为:外观澄清度、外观色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感持久性、口感质量、平衡/总休评价。根据t检验的原理,对荀萄酒配对样品进行t检验之前我们要对样品进行正态性检验。首先我们根据附件一并处理表格中的数据,得到配对样品的两组数据,绘制红葡萄酒配对样品表格部分数据如表1表1红葡萄酒配对样品数据表澄清度澄清度平衡/整平衡/整(1组均值)(2组均值)体评价(1组体评价(2组均值)均值)2.3.18.4红29.6红263.63.78.8红273.73.78.8白葡萄酒配对样品表格部分数据如表2:表2白葡萄酒配对样品数据表澄清度澄清度平衡/整平衡/整(1组均值)(2组均值)体评价(1组体评价(2组均值)均值)白17.78.4白22.93.19.1日26白273.778.8从上表中我们能看出,将白葡萄酒和红葡萄酒中的每个指标分别进行样品的配对后,每一个指标的配对结果有27对,每一对的双方分别是1组和2组的评酒员对该指标的评分的平均值。3.3.1样本总体的K-S正态性检验配对样品的t检验要求两对应样品的总体满足正态分布,则总体中的样品应该满足正态性或者近似正态性,样本的正态性检验如卜以红葡萄酒的澄清度的27组数据为例分析:利用SPSS软作绘制两样品的直方图和趋势图如图1所示:图1红葡萄酒澄清度两组数据自方图我们假设两组总体数据都服从态分布,利用SPSS软件进行KS忙态性检验的具体结果见附录2.3。两组数据的近似相伴概率值P分别为0.239和0.329,大于我们一般的显著水平0.05则接受原来假设,即两组红葡萄酒的澄清度数据符合近似正态分布同理可用SPSS软件对其他指标的正态性进行检验,得到结果符合实际猜想,都服从近似正态分布。3.3.2葡萄酒配对样品t检验步骤两种葡萄酒的处理过程类似,这里我们以对红葡萄酒谜价结果的差异的显著性分析为例。step1:我们以第一组对葡萄酒的评价结果总体服从正态分布〃σ,以第二组对葡萄酒的评价结果总体服从正态分布μσ。我们已分别从两总体中获得了抽样样本和,并分别进行两样品相互配对。(具体数据见附录2.1)Step2:;引进一个新的随机变量,对应的样本为将配对样本的t检验转化为单样本t检验Step3:建立零假设4=,构造t统计量;Step4:利用SPSS进行配对样品t检验分析,并对结果做出推断3.4显著性差异结果分析3.3.1红葡萄酒各指标差异显著性分析由SPSS软件对红葡萄酒各指标的配对样品讠枍验后,得到各指标的显著性概率分布表。(结果如表3所示)表3红葡萄酒酒各指标显著性概率P指标外观澄清度外观色调香气纯正度香气浓度‖香气质量P0.6140.0020.1510.1000.010指标口感纯正度口感浓度口感持久性口感质量平衡/整体P0.4370.1580.2510.0550.674由统计学知识,如果显著性概率P显著水平α,则不能拒绝零假设,即认为两总体样本的均值不存在显著差异。则根据表3可得:两组评酒员对红葡萄酒各项指标的评价中除外观色调、香气质量存在显著性差异以外,其他8项指标都无显著性差异。3.3.2白葡萄酒各指标差异显著性分析代入白葡萄酒的评价数据,重复以上步骤,得到白荀萄酒各指标的显著性概率分布表。(结果如表4所示)表4白葡萄酒各指标显著性概率P分布表指标外观澄清度外观色调香气纯正度香气浓度香气质量P0,2990.0890.930.2380.714指标口感纯正度口感浓度口感持久性口感质量平衡/整体0,0000.0050.8630.0000.00l分析表4可得:两组评酒员对白葡萄酒各项指标的评价中只有凵感纯正度」感浓度、凵感质量、平衡/整体评价存在显著性差异,其他6项指标都无显著性差异3.3.3葡萄酒总体差异显著性分析(1)红葡萄酒总体差异显著性分析该问题的附件中已经给出了10项指标的杈重,因此将10项指标利用加权合并成总体评价。对于红葡萄酒两组评价结果构造两组配对t检验。得到显著性概率P=0.030
- 2020-12-04下载
- 积分:1