统计学bootstrap.ppt

资源ID：184532 资源大小：1.35MB 全文页数：55页
资源格式： PPT 下载积分：10金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要10金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

统计学bootstrap.ppt

1上节课内容总结n统计推断基本概念n统计模型：参数模型与非参数模型n统计推断/模型估计：点估计、区间估计、假设检验n估计的评价：无偏性、一致性、有效性、MSEn偏差、方差、区间估计nCDF估计：n点估计、偏差、方差及区间估计n统计函数估计n点估计n区间估计/标准误差n影响函数nBootstrapnBootstrap也可用于偏差、置信区间和分布估计等计算2本节课内容n重采样技术（resampling）nBootstrapn刀切法（jackknife）3引言n 是一个统计量，或者是数据的某个函数，数据来自某个未知的分布F，我们想知道的某些性质（如偏差、方差和置信区间）n假设我们想知道的方差n如果的形式比较简单，可以直接用上节课学习的嵌入式估计量作为的估计n例：，则n ，其中 n ，其中n问题：若的形式很复杂（任意统计量），如何计算/估计？()1,.,nnTg XX=nTnT( )FnTV( )FnTV( )FnTV( )nnFTV11nniiTnX-=( )2FnTns=V()( )( )22,xdF xxdF xsmm=-=蝌( )2nnFTns=V()221nniiXXns=-( )FnTV4Bootstrap简介nBootstrap是一个很通用的工具，用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出，用于计算任意估计的标准误差n术语“Bootstrap”来自短语“to pull oneself up by ones bootstraps” （源自西方神话故事“ The Adventures of Baron Munchausen”，男爵掉到了深湖底，没有工具，所以他想到了拎着鞋带将自己提起来）n计算机的引导程序boot也来源于此n意义：不靠外界力量，而靠自身提升自己的性能，翻译为自助/自举n1980年代很流行，因为计算机被引入统计实践中来5Bootstrap简介nBootstrap：利用计算机手段进行重采样n一种基于数据的模拟（simulation）方法，用于统计推断。基本思想是：利用样本数据计算统计量和估计样本分布，而不对模型做任何假设（非参数bootstrap）n无需标准误差的理论计算，因此不关心估计的数学形式有多复杂nBootstrap有两种形式：非参数bootstrap和参数化的bootstrap，但基本思想都是模拟6重采样n通过从原始数据进行n次有放回采样n个数据，得到bootstrap样本n对原始数据进行有放回的随机采样，抽取的样本数目同原始样本数目一样n如：若原始样本为n则bootstrap样本可能为()1,.,nXXX=()1*,.,nbXXX=()12345,XXXXXX=()*123545,XXXXXX=()*213145,XXXXXX=7计算bootstrap样本n重复B次，n1. 随机选择整数，每个整数的取值范围为1, n，选择每个1, n之间的整数的概率相等，均为n2. 计算bootstrap样本为：nWeb上有matlab代码：nBOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,nhttp:/www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.htmlnMatlab函数：bootstrp1 n1,.,nii()*1,.,iinXXX=8Bootstrap样本n在一次bootstrap采样中，某些原始样本可能没被采到，另外一些样本可能被采样多次n在一个bootstrap样本集中不包含某个原始样本的概率为n一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632，另外0.368的样本没有包括()11,1,.10.368njiXXjnen-骣?=-换桫PiX9模拟n假设我们从的分布中抽取IID样本，当时，根据大数定律，n也就是说，如果我们从中抽取大量样本，我们可以用样本均值来近似n当样本数目B足够大时，样本均值与期望之间的差别可以忽略不计()( ),11BPnn bnnbTTtdGtTB=?EnT,1,.,nn BTTnT( )nTEnT( )nTEnGnGB10模拟n更一般地，对任意均值有限的函数h，当有n则当时，有n用模拟样本的方差来近似方差()()()( )(),11BPn bnnbh Th t dGth TB=?E()()()( )22,11BPn bnnnnbTTTTTB=-?=EV( )nTV()()2,n bn bnh TTT=-B11模拟n怎样得到的分布？n已知的只有X，但是我们可以讨论X的分布Fn如果我们可以从分布F中得到样本，我们可以计算n怎样得到F？用代替（嵌入式估计量）n怎样从中采样？n因为对每个数据点的质量都为1/n n所以从中抽取一个样本等价于从原始数据随机抽取一个样本n也就是说：为了模拟，可以通过有放回地随机抽取n个样本（bootstrap 样本）来实现1*,.,nXX()1*,.,nnTg XX=1*,.,nnXXFnTnFnFnFnF1,.,nXX12Bootstrap：一个重采样过程n重采样：n通过从原始数据进行有放回采样n个数据，得到bootstrap样本n模拟：n为了估计我们感兴趣的统计量的方差/中值/均值，我们用 bootstrap样本对应的统计量（bootstrap复制）近似，其中()1,.,nXXX=( )()1,.,nnTgg XX=X( )* ,1111BBn bootn bbbbTTgBB=邋X( )(),1,*,.,n bbn bbTg Xg XX=()1,*,.,bn bbXXX=1,.,bB=13例：中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.74()14.134.641.743.503bootMean=+=14Bootstrap方差估计n方差： n其中n注意：F为数据X的分布，G为统计量T的分布n通过两步实现：n第一步：用估计 n插入估计，积分符号变成求和n第二步：通过从中采样来近似计算nBootstrap采样+大数定律近似()()22,TTntdGtsm=-( )2FnTTns=V()TntdGtm=( )()2*,1111, nBBnn bnnn bFbbTTTTTBB=-=邋V( )FnTV( )nnFTV( )nnFTVnF15Bootstrap：方差估计nBootstrap的步骤：n1.画出n2.计算n3.重复步骤1和2共B次，得到n4.（大数定律）2*,1111Bnbootn bn rbrvTTBB=骣=-桫邋（计算boostrap样本）（计算boostrap复制）*1,.,nnXXF:()*1,.,nnTg XX=*,1,.,nn BTT16例：混合高斯模型：n假设真实分布为n现有n=100个观测样本：( )()()2: 0.21,20.86,1FF XNN=+5,m=()1100,.,XXX=4.997,nX =( )()2221 nniniXXXns=-V直接用嵌入式估计结果：0.0484=7.0411 4.8397 5.3156 6.7719 7.06165.2546 7.3937 4.3376 4.4010 5.17247.4199 5.3677 6.7028 6.2003 7.57074.1230 3.8914 5.2323 5.5942 7.14793.6790 0.3509 1.4197 1.7X =585 2.4476-3.8635 2.5731 -0.7367 0.5627 1.6379-0.1864 2.7004 2.1487 2.3513 1.4833-1.0138 4.9794 0.1518 2.8683 1.62696.9523 5.3073 4.7191 5.4374 4.61086.5975 6.3495 7.2762 5.9453 4.69936.1559 5.8950 5.7591 5.2173 4.99804.5010 4.7860 5.4382 4.8893 7.29405.5741 5.5139 5.8869 7.2756 5.84496.6439 4.5224 5.5028 4.5672 5.87186.0919 7.1912 6.4181 7.2248 8.41537.3199 5.1305 6.8719 5.2686 5.80555.3602 6.4120 6.0721 5.2740 7.23297.0912 7.0766 5.9750 6.6091 7.21354.9585 5.9042 5.9273 6.5762 5.37024.7654 6.4668 6.1983 4.3450 5.3261轾犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏臌17例：混合高斯模型（续）n用Bootstrap计算统计量的方差：n1. 得到B=1000个bootstrap样本，其中n2. 计算B=1000个bootstrap样本对应的统计量的值n 3. ()1,100,*,., 1, ., bbbXXXbB=*11000,.,XX,*11n bn bi bniTXXn=nnTX=(),2*,1111,n bnBnbootnn rbrvXXXXBB=-=邋*1005.001,X=0.0489,bootv=与直接用嵌入式估计得到的结果比较：4.997,nX =20.0484,s=0.221bootbootsev=20.22ses=18Bootstrap：方差估计n真实世界：nBootstrap世界：n发生了两个近似n近似的程度与原始样本数目n及bootstrap样本的数目B有关()11,.,.,nnnnFXXTg XX揶=()*11,.,.,nnnnFXXTg XX揶=( )()( )()11nOnOBFnnbootFTTv=?VV19Bootstrap：方差估计n在方差估计中，可为任意统计函数n如均值（混合高斯模型的例子）n中值（伪代码参见教材）n偏度（例子参见教材）n极大值（见后续例子）nn除了用来计算方差外，还可以用作其他应用nCDF近似、偏差估计、置信区间估计nT20CDF近似n令为的CDFn则的bootstrap估计为()()nnGtTt=?PnTnG()()*,11Bnn bbGtI TtB=?21偏差估计n偏差的bootstrap估计定义为：nBootstrap偏差估计的步骤为：n得到B个独立bootstrap样本n计算每个bootstrap样本对应的统计量的值n计算bootstrap期望：n计算bootstrap偏差：( )( )*bootnFnnBiasTTT=-E*1,.,BXX( )(),1,*,.,n bbn bbTg Xg XX=*,11nnn rrTTB=( )*nbootnnBiasTTT=-*bX22例：混合高斯模型： n标准误差估计n在标准误差估计中，B为50到200之间结果比较稳定n偏差估计4.997nX =bootsebootBias( )*FXE23Bootstrap置信区间n正态区间：n简单，但该估计不是很准确，除非接近正态分布n 百分位区间：，对应的样本分位数n还有其他一些计算置信区间的方法n如枢轴置信区间：()*212,nCTTaa-=2nTzseanT*,1,.,nn BTT()*1222,2,nCTTTTaa-=-24例：Bootstrap置信区间n例8.6：Bootstrap方法的发明者Bradley Efron

注意事项

本文（统计学bootstrap.ppt）为本站会员（p**）主动上传，第壹文秘仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第壹文秘（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。