统计学bootstrap.ppt
《统计学bootstrap.ppt》由会员分享,可在线阅读,更多相关《统计学bootstrap.ppt(55页珍藏版)》请在第壹文秘上搜索。
1、1上节课内容总结n统计推断基本概念n统计模型:参数模型与非参数模型n统计推断/模型估计:点估计、区间估计、假设检验n估计的评价:无偏性、一致性、有效性、MSEn偏差、方差、区间估计nCDF估计:n点估计、偏差、方差及区间估计n统计函数估计n点估计n区间估计/标准误差n影响函数nBootstrapnBootstrap也可用于偏差、置信区间和分布估计等计算2本节课内容n重采样技术(resampling)nBootstrapn刀切法(jackknife)3引言n 是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道 的某些性质(如偏差、方差和置信区间)n假设我们想知道 的方差n如
2、果 的形式比较简单,可以直接用上节课学习的嵌入式估计量 作为 的估计n例: ,则n ,其中 n ,其中n问题:若 的形式很复杂(任意统计量),如何计算/估计?()1,.,nnTg XX=nTnT( )FnTV( )FnTV( )FnTV( )nnFTV11nniiTnX-=( )2FnTns=V()( )( )22,xdF xxdF xsmm=-=蝌( )2nnFTns=V()221nniiXXns=-( )FnTV4Bootstrap简介nBootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出,用于计算任意估计的标准误差n术语“B
3、ootstrap”来自短语“to pull oneself up by ones bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)n计算机的引导程序boot也来源于此n意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自举n1980年代很流行,因为计算机被引入统计实践中来5Bootstrap简介nBootstrap:利用计算机手段进行重采样n一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对
4、模型做任何假设(非参数bootstrap)n无需标准误差的理论计算,因此不关心估计的数学形式有多复杂nBootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟6重采样n通过从原始数据 进行n次有放回采样n个数据,得到bootstrap样本n对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样n如:若原始样本为n则bootstrap样本可能为()1,.,nXXX=()1*,.,nbXXX=()12345,XXXXXX=()*123545,XXXXXX=()*213145,XXXXXX=7计算bootstrap样本n重复B次,n1. 随机选
5、择整数 ,每个整数的取值范围为1, n,选择每个1, n之间的整数的概率相等,均为n2. 计算bootstrap样本为:nWeb上有matlab代码:nBOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,nhttp:/www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.htmlnMatlab函数:bootstrp1 n1,.,nii()*1,.,iinXXX=8Bootstrap样本n在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可
6、能被采样多次n在一个bootstrap样本集中不包含某个原始样本 的概率为n一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括()11,1,.10.368njiXXjnen-骣?=-换桫PiX9模拟n假设我们从 的分布 中抽取IID样本 ,当 时,根据大数定律,n也就是说,如果我们从 中抽取大量样本,我们可以用样本均值 来近似n当样本数目B足够大时,样本均值 与期望 之间的差别可以忽略不计()( ),11BPnn bnnbTTtdGtTB=?EnT,1,.,nn BTTnT( )nTEnT( )nTEnGnGB10模拟n更一般地,对任
7、意均值有限的函数h,当 有n则当 时,有n用模拟样本的方差来近似方差()()()( )(),11BPn bnnbh Th t dGth TB=?E()()()( )22,11BPn bnnnnbTTTTTB=-?=EV( )nTV()()2,n bn bnh TTT=-B11模拟n怎样得到 的分布?n已知的只有X,但是我们可以讨论X的分布Fn如果我们可以从分布F中得到样本 ,我们可以计算n怎样得到F?用 代替(嵌入式估计量)n怎样从 中采样?n因为 对每个数据点 的质量都为1/n n所以从 中抽取一个样本等价于从原始数据随机抽取一个样本n也就是说:为了模拟 ,可以通过有放回地随机抽取n个样本(
8、bootstrap 样本)来实现1*,.,nXX()1*,.,nnTg XX=1*,.,nnXXFnTnFnFnFnF1,.,nXX12Bootstrap:一个重采样过程n重采样:n通过从原始数据 进行有放回采样n个数据,得到bootstrap样本n模拟:n为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstrap样本对应的统计量(bootstrap复制) 近似,其中()1,.,nXXX=( )()1,.,nnTgg XX=X( )* ,1111BBn bootn bbbbTTgBB=邋X( )(),1,*,.,n bbn bbTg Xg XX=()1,*,.,bn bbXXX
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 bootstrap