登录
首页 » Others » 剔除测量数据中异常值的若干方法

剔除测量数据中异常值的若干方法

于 2021-05-06 发布
0 722
下载积分: 1 下载次数: 5

代码说明:

剔除测量数据中异常值的若干方法,第1期何平:剔除测量数据中异常值的若干方法21表3n,a相应的Y值3.91-00.010.010.6790.576190.4620.889).765120.6420.5460.5350.4500.7800.642130.6150.52l210.5240.44060.6980.560140.6410.5460.5140.4300.6370.507150.616230.50580.6830.554160.5950.5070.4130).406100.447180.5610.475表4Z,与n值的对应关系3458902131415161820301050zc1.381.541.651.731.801.881.921.962.002.032.072.102.132.152.202.242.392.492.58表51组测量数据(已按顺序从小到大排好)810t20.3020.3920.3920.3920.4020.4020.4]20.4120.4220.4220.4220.4320.4320.4320.43查表3得到临界值Y。(15,0.05)=0.525,根据也都有其局限性。例如:所有的准则都是以数据按正态狄克逊准则,由于Y2>%(15,0.05),故t值是异常分布为前提的,当偏离正态分布时,判断的可靠性将受值,应予舍弃。影响。还有几个准则对n值的要求也各有不同:当大样程序框图如图3所示本测定时,使用莱因达准则最适合,但当小样本测定24肖维勒准则应用软件流程图及实例时,则一般推荐使用格拉布斯准则和狄克逊准则。而肖计算算术平均值t=20.405维勒准则在某种程度上讲仅仅是莱因达准则的补充计算剩余误差v及均方差a=0.01498在实际测量中,一般取测量次数n=5~20次,特从表4中查得相应的Z值(n=15,故Z2=2.13)别精密的测量,也很少超过100~200次。因此,使用根据肖维勒准则检测l1是否为异常值以上各种准则时,必须注意测量次数的限制。对于莱因1-t|=0.105达准则、一般建议测量次数大于或等于50次,而对于而Zσ=2.13×0.01498≈0.03191格拉布斯准则和狄克逊准则,则建议小于或等于20次。但这一区别并不是十分严格的由于|1-t1>z,则t1值异常,应予舍弃。程序框图对小样本来说,由于格拉布斯准则能给出较严格如图4所示。的结果,狄克逊准则无需计算X和o,方法简便,且23几种方法的进一步讨论者的概率意义明确。因此,它们能较好地适用于采样次从以上的应用情况来看,似乎各种准则的应用实数不太多的一般测量列践都很一致,但这只是个特例,并没有普遍性。举这个设X为N(0,1),在1个大小为n的子样中混入例子,只为了更好地说明几种准则都能得到很好的应个Y:N(μ,δ)的子样。有研究结果表明:格拉布用。需要指出的是,以上各准则都是人为主观拟定的,斯方法的检出概率P略高于狄克逊方法的检出概率直到目前为止,还没有统一的规定,因此,它们的应用PD,如表6所示:(N(0,1)叫作标准正态分布)o1994-2012ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net2航空计测技术第15卷STARTSTARTSTARTSTART输入数据输入数据输入数据输入数据计算算术平均值入计x根据n值,及均方根偏差从表2中计算出相应y计算算术平均值计算剩余误差;,计算T值并选定均方根偏差σ危险率a选定危险率a计算剩余误差v,均方根偏差判别粗大误差查表得相应的(n,a)从表3中查出%(n,a)值从表4中查出相应Z值打印输出结果判别数据是否为异常?判别敦据是否异常判别粗大误差ENDExDENDEND图1莱因达准则应图2格拉布斯准则图3狄克逊准则应图4肖维勒准则应用程序框图应用程序框图用程序框图用程序框图表6P与PD的比较舍。但是,对待粗大误差,除从测量结果中及时发现和利用剔除原则鉴别外,更重要的是提高工作人员的技术a(%)水平和工作责任心,不要在情绪不宁和极度疲劳的情况5.01.0下,进行重要的测量工作。另外,要保证测量条件的稳定,防止因环境条件剧烈变化而产生的突变影响。只有δ11221122这样,才能提高测量的精度,得到满意的测量结果PG(%)10.240.429.854.22.515.712.731.3参考文献PD(%)9.335.726.850.02.212.910.526.31梁晋文等编著.误差理论与数据处理.北京:中国计由于混入的Y不一定是子样中最大的数据,所以,量出版社,1989实际检出效果还要高一些2何国伟编著,误差分析方法.北京:国防工业出版社,4结束语3王文松.测量列中离群值的判断.电测与仪表,1992,从以上论述可以看出,在进行测量数据处理时,可11)以应用各种准则进行粗大误差判别,以决定数据的取o1994-2012ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论


0 个回复

  • 中国地图(shp)含河流、湖泊等信息
    用于GIS制图中中国地图的绘制地图,含河流、湖泊等信息多个图层
    2020-11-28下载
    积分:1
  • EM算法详细例子及推导
    EM算法详细例子及推导数θ),那么对于上面的实验,我们可以计算出他们出现我们观察到的结果即0=(5,9,.8,4,7,20=(B,A,A,B,4)的概率函数P(X=x10),2z)⑨)就叫做θ的似然函数。我们将它对θ求偏导并令偏导数为0,就可以得到如的结果P(X=x0,=20))=(;P(z=A)3(1-P(z=A)2C10(1-64)10A(1-6C104(1-0(1-6B)C106n(1-6我们将这个问题稍微改变一下,我们将我们所观察到的结果修改一…下我们现在只知道每次试验有几次投掷出正面,但是不知道每次试验投掷的是哪个硬币,也就是说我们只知道表中第一列和第三列。这个时候我们就称Z为隐藏变量( Hidden variable),X称为观察变量( Observed variable)。这个时候再来估计参数θ4和θB,就没有那么多数据可供使用了,这个时侯的估计叫做不完整数据的参数估计。如果我们这个时候冇某种方法(比如,正确的猜到每次投掷硬币是A还是B),这样的话我们就可以将这个不完整的数据估计变为完整数据估计当然我们如果没有方法来获得更多的数据的话,那么下面提供了一种在这种不完整数据的情况下来估计参数θ的方法。我们用迭代的方式来进行:(1)我们先赋给θ一个初始值,这个值不管是经验也好猜的也好,反正我们给它一个初始值。在实际使用中往往这个初始值是有其他算法的结果给岀的,当然随机给他分配一个符合定义域的值也可以。这里我们就给定64=0.7,6B=0.4(2)然后我们根据这个来判断或者猜测每次投掷更像是哪枚硬币投掷的结果。比如对于试验1,如果投掷的是Δ,那么出现5个止面的概率为C10×0.75×(1-07)5≈0.1029:;如果投掷的是B,出现5个正面的概率为C105×0.43×(1-0.4)5≈0.2007;基于试验1的试验结果,可以判断这个试验投掷的是使币A的概率为0.10290.10290.2007)-0.389是B的概率为02007(0.1029+0.2007)06611。因此这个结果更可能是投掷B出现的结果(3)假设上一步猜测的结果为B,A,A,B,A,那么恨据这个猜测,可以像完整数据的参数仙计一样(公式2重新计算的值这样一次一次的迭代2-3步骤直到收敛,我们就得到了θ的估计。现在你可能有疑问,这个方法靠谱么?事实证明,它确实是靠谱的。期望最大化算法就是在这个想法上改进的。它在估计每次投掷的硬币的吋候,并不要确定住这次就是硬币A或者B,它计算岀来这次投掷的硬币是A的概率和是B的概率;然后在用这个概率(或者叫做Z的分布)来计算似然函数。期望最大化算法步骤总结如下:F步骤先利用旧的参数值〃计算隐藏变量Z的(条件)分布P(万=2|Xn2),然后计算logP(,X=m)的期望B(o(2,X=x)=∑∑P(Z=别X=)P(Z=X=x)其中θ是当前的值,而θ是上一次迭代得到的值。公式中已经只剩下θ一个变量了,θ是一个确定的值,这个公式或者函数常常叫做Q函数,用Q(6,6)来表示。M步骤极大化Q,往往这一步是求导,得到由旧的θ值′米计算新的θ值的公式aQ总结一下,期望最大化算法就是先根据参数初值估计隐藏变量的分布,然后根据隐藏变量的分布来计算观察变量的似然函数,估计参数的值。前者通常称为E步骤,后者称为M步骤3数学基础首先来明确一下我们的目标:我们的目标是在观察变量X和给定观察样本:1,x2,…,rn的情況下,极大化对数似然函数(=>nP(X2=x;)(5)其中只包含观察变量的概率密度函数P(X2=2)=∑P(X=n,=)这里因为参数θ的写法与条件概率的写法相同,因此将参数θ写到下标以更明确的表述其中Z为隐藏随机变量,{}是Z的所有可能的取值。那么6)=∑h∑P(X=x,z=2)∑h∑。Px=x这里我们引入了一组参数(不要怕多,我们后面会处理掉它的)a,它满足可能的;,0;∈(0,1和∑;a=1到这里,先介绍一个凸函数的性质,或者叫做凸函数的定义。∫(x)为凸函数,=1,2,…,m,A∈[0,1∑1A对∫(x)定义域中的任意n个m1,x2,…,xn有f(∑Aa)≤∑mf(xr)i=1对于严格凸函数,上面的等号只有在x1=2xn的时候成立。关于凸函数的其他性质不再赘述。对数函数是一个严格凸数。因而我们可以有下面这个结果0)=∑hn∑≥∑∑ah(X=2n,2=C现在我们根据等号成立的条件来确定a;即P(X=x,Z=2)C(10)其中c是一个与j无关的常数。因为∑,=1,稍作变换就可以得到P(X;=x;)现在来解释下我们得到了什么。c;就是Z=2;在X=x;下的条件概率戌者后验概率。求α就是求隐藏随机变量Z的条件分布。总结一下目前得到的公式就是)-∑∑P(Xi=i,Z(12)直接就极大值比较难求,EM算法就是按照下面这个过程来的。它就是大名鼎鼎的琴生( Jensen)不等式(1)根据上一步的θ来计算α,即隐藏变量的条件分布(2)极大化似然函数来得到当前的的估计3.1极大似然估计好吧,我觉得还是再说说极大似然估计吧。给定一个概率分布D,假设其概率密度函数为f,其中f带有一组参数6。为了估计这组参数6,我们可以从这个分布中抽出一个具有n个采样值的X1,X2,…,Yn,那么这个就是n个(假设独立)同分布随机变量,他们分别有取值x1,x2…,xn,那么我们就可以计算出出现这样一组观察值的概率密度为lI f(ai)(13)对于f是离散的情况,就计算出现这组观察值的概率10)注意,这个函数中是含有参数0的。0的极大似然估计就是求让上面似然函数取极大值的时候的参数O值。般来说,会将上面那个似然函数取自然对数,这样往往可以简化计算。记住,这样仅仅是为了简化计算。取了自然对数之后的函数叫做对数似然函数。ln()=∑lnf(n)因为对数是一个严格单调递增的凹函数,所以对似然函数取极人值与对对数似然函数取极大值是等价的。3取了对数之后还可以跟信息熵等概念联系起来4关于凸函数有很多种说法,上凸函数和下凸函数,凸函数和凹函数等等,这里指的是二阶导数大」(等」)0的一类函数,而凹函数是其相反数为凸数的一类函数32期望最大化算法收敛性如何保证算法收敛呢?我们只用证明l(04+1)≥1(00)就可以了l(0(t11)∑∑(+1)1PX=x;2=2)(+(t+1∑∑nf(X=x;,z=z;)(+1)(t)o(tn /(r=i,Z=2(t)≥∑∑ahn(t)7(0其中第一个人于等于号是因为只有当a取值合适(琴生不等式等号成立条件)的时候才有等号成立,第二个人于等于号正是M步骤的操作所致。这样我们就知道l(θ)是随着迭代次数的增加越来越人的,收敛条件是值不再变化或者变化幅度很小。4应用举例4.1参数估计很直接的应用就是参数估计,上面举的例子就是参数估计42聚类但是如果估计的参数可以表明类别的话,比如某个参数表示某个样本是否属于某个集合。这样的话其实聚类问题也就可以归结为参数估计问题。References[]最大似然估计[oNline].Availablehttp://zh.wikipediaorg/wiki.%E6%9c%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1[2] Ceppellini, r, Siniscalco, M.& Smith, C.A. Ann. Hum. Genet. 20, 97-115(1955)3 Hartley, H. Biometrics 14, 174-194(1958)4 Baum, L.E., Petric, T, Soulcs, G.& Weiss, N. Ann. Math. Stat 41, 164-171(1970)[ 5] Dempster, A P, Laird, N.M., Rubin, D B.(1977). "Maximum Likelihoodfrom Incomplete Data via the em algorithm. Journal of the royal statis-tical Society Series B(Methodological)39(1): 1-38. JSTOR 2984875 MR0501537[6]Whatistheexpectationmaximizationalgorithm[oNline].Avaiable:http//ai. stanford. edu/-chuongdo/papers/em tutorial pdf[7TheEmAlgorithmOnline.Availablehttp://www.cnblogs.com,jerrylead/ archive/2011/04/06/2006936html
    2020-12-07下载
    积分:1
  • stomp算法matlab实现
    stomp算法matlab实现。分布贪婪算法,用于稀疏信号恢复。
    2020-12-12下载
    积分:1
  • 常用加密算法AES、RSA、DES、MD5、TEA、SHA1、SHA256的C语言源码
    里面的源码已经验证过,可以正常使用
    2020-12-06下载
    积分:1
  • 最大功率跟踪(扰动观察法和电导增量法)
    扰动观察法:PO80025.mdl是温度保持25℃不变,0.1s时光照强度由1000W/m2瞬间下降到800W/m2的情况;PO100045.mdl是光照强度保持1000W/m2不变,0.1s时温度由25℃瞬间上升到45℃的情况;电导增量法:IC80025.mdl是温度保持25℃不变,0.1s时光照强度由1000W/m2瞬间下降到800W/m2的情况;IC100045.mdl是光照强度保持1000W/m2不变,0.1s时温度由25℃瞬间上升到45℃的情况.
    2020-12-12下载
    积分:1
  • 微信开发获取用户信息
    个人测试,通过微信公众号获取微信用户openID或其详细信息
    2020-12-05下载
    积分:1
  • MATLAB基于肤色模型和模板匹配的人脸定位检测
    毕设做的人脸检测,用的是matlab,首先进行了模板匹配的模板制作。在进行模板匹配。
    2020-11-30下载
    积分:1
  • NSST(非下采样剪切波变换)matlab工具箱
    NSST变换,可用于图像融合,分割等方面
    2020-07-03下载
    积分:1
  • jpeg FPGA代码
    基于FPGA的JPEG图像压缩芯片设计 -FPGA-based JPEG image compression chip design
    2020-11-30下载
    积分:1
  • 利用SPSS拟合非线性回归模型
    通过SPSS软件在人口预测的应用,讲述非线性回归分析的步骤,图文并茂。
    2020-11-03下载
    积分:1
  • 696518资源总数
  • 105205会员总数
  • 10今日下载