《社会调查研究抽样.ppt》由会员分享,可在线阅读,更多相关《社会调查研究抽样.ppt(49页珍藏版)》请在第壹文秘上搜索。
1、n一、抽样的概念与作用n二、概率抽样的原理与程序n三、概率抽样方法n四、非概率抽样方法n五、样本规模与抽样误差一、抽样的概念与作用n1、抽样的概念(1)个体:又称分析单位,是一项调查中所要研究的对象,是收集信息的基本单位。(2)总体:是构成它的所有个体的集合。用N表示。 区分研究总体与调查总体(3)样本:是从总体中按一定方式抽取的一部分个体的集合。用n表示。n(4)抽样:从总体中按一定方式选取样本的过程。n(5)抽样单位:一次直接的抽样所使用的基本单位。n(6)抽样框:又称抽样范围,一次直接抽样时总体中所有抽样单位的名单。 (7)参数值 (8)统计值是关于总体中某一变量的综合描述是关于样本中某
2、一变量的综合描述 用希腊字母表示 用罗马字母表示 理论值 经验值 不变的 可变的 未知的 已知的n(9)抽样误差:在用样本统计值去推论总体参数值时总会存在着偏差即抽样误差。n(10)置信水平与置信区间:置信水平也叫置信度,是总体参数值落在样本统计值某一区间内的概率。这一区间称为置信区间。n2、抽样的作用总体抽取样本样本推断总体n1984年美国总统选举预测与实际结果比较里根蒙代尔时代64%36%今日美国63%37%纽约时代周刊61%39%新闻周刊59%41%华盛顿邮报57%43%哈里斯民意测验56%44%罗珀民意测验55%45%实际投票结果59%41%n3、抽样的类型概率抽样: 它是依据概率论的
3、基本原理,按照等概率的原则进行的抽样。 它能避免抽样过程的人为误差,较好的保证样本的代表性。非概率抽样: 它是依据研究者的主观意愿或方便与否等因素来抽样。 它不考虑抽样中的等概率原则,往往产生较大的误差,样本的代表性较差。抽样方法概率抽样简单随机抽样系统抽样分层抽样整群抽样多段抽样非概率抽样偶遇抽样判断抽样定额抽样雪球抽样二、概率抽样的原理与程序n1、抽样的基本原理同质性和异质性。随机抽取放回抽样与不放回抽样。2、抽样分布是总体中各元素的观测值所形成的相对频次分布(百分比分布); 分布通常是未知的;可以假定它服从某种分布 。总体分布从总体中抽出一个容量为n的样本,由这n个观测值所形成的相对频次
4、分布; 也称经验分布; 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。 样本分布n在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频次分布; n是一种理论分布;n随机变量是样本统计量;样本统计量; 样本均值, 样本比例,样本方差等n结果来自容量相同容量相同的所有所有可能样本;n是进行推断的理论基础,也是抽样推断科学性的重要依据。抽样分布抽样分布的形成过程以样本均值的抽样分布为例样本均值的抽样分布样本均值的抽样分布3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有
5、可能的所有可能的n = 2 的样本(共的样本(共16个)个)样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)n3、抽样的程序(1)界定总体(2)制定抽样框 (3)决定抽样方案(4)实际抽取样本(5)评估样本质量三、 概率抽样n1、简单随机抽样又称纯随机抽样,是对总体中所有个体按完全符合随机原则的方法抽取样本,即抽样时不进行任何分组、排列,使总体中的所有个体都同样有被抽中的机会。n随机数字表是由计算机生成的由0-9组成的表。较大的随
6、机数字表有美国兰德公司1955年编制出版的100万数字的表和肯德尔与史密斯1938年编制出版的10万数字表。 例例:某单位有某单位有528人人,欲随机抽取欲随机抽取10人调查人调查 1、确定抽样框,并将总体中所有个体按、确定抽样框,并将总体中所有个体按 顺序编号。顺序编号。 2、根据总体规模的位数来确定从随机、根据总体规模的位数来确定从随机 数字表中选取几位数码。数字表中选取几位数码。 3、以总体规模为标准,对随机数字表、以总体规模为标准,对随机数字表 中的数码逐一衡量取舍。中的数码逐一衡量取舍。 4、根据样本规模的要求选出足够的数、根据样本规模的要求选出足够的数 码个数。码个数。 5、根据随
7、机数字表中选中的数码,到、根据随机数字表中选中的数码,到 抽样框中找相对应的个体。抽样框中找相对应的个体。 00-0405-0910-1415-190001020304050607080910544631538985941611490521941417283571778340950829959675422662852054075669440816199932694070000158482064157176766590518850824141128610651877192065210806298816616455659n简单随机抽样的特点:A.当总体中所含个体数目太多时,费时、工作繁杂、费用高。
8、B.在构成总体的个体差异不大时比较有效,总体异质性高时误差较大。n2、系统抽样又称等距抽样或机械抽样。它是把总体中的个体编号排序后,再计算出某种间隔,按照这个固定间隔抽取个体的号码来组成样本的方法。n操作步骤:A、将总体中的每个个体编号排列,制定抽样框。B、计算抽样距离。K=N/nC、在最前面k个个体中采用简单随机抽样法抽取一个样本(编号为A)作为等距抽样随机的起点。D、自A开始,每隔K个个体抽取一个个体,编号分别为A,A+K,A+2K,A+3K,A+(n-1)K。E、将这n个个体合起来即为该总体的样本。n例:设某大学有例:设某大学有12000名学生,决定采名学生,决定采用等距抽样法从中抽取用
9、等距抽样法从中抽取200名学生。名学生。A、计算计算K=12000/200=60B、用简单随机抽样法在前用简单随机抽样法在前60个学生中抽取第一个学生,设个学生中抽取第一个学生,设其序号为其序号为12。C、样本为第样本为第12、72、132号学生。号学生。若第若第199个学生的号码是个学生的号码是11952,第,第200个号码为个号码为13。n等距抽样的特点:易于实施,工作量少。样本在总体中分布更均匀,抽样误差小于或等于简单随机抽样。n等距抽样的前提:总体随机排列。n3、分层抽样又称类型抽样,它是先将总体中的所有个体按照某种特征或标志划分成若干类型或层次,然后在各个类型或层次中采用简单随机抽样
10、或等距抽样法抽取一个子样本,最后将这些子样本合起来就是总体的样本。 n分层抽样的特点点:(1)当一个总体内部分层明显时,能克服简单随机抽样和等距抽样的缺点。(2)在不增加样本规模的前提下降低抽样误差,提高抽样精度。(3)有些研究不仅要了解总体的情况,还要了解某些类别的情况。n分层的标准以要分析和研究的主要变量或相关变量作为分层标准。以保证各层内部同质性性强、层间异质性强为原则。以那些有明显层次区分的变量作为分层变量。4、整群抽样 又称聚类抽样,是将总体按照某种标准划分为一些子群,每个子群作为一个抽样单位,用随机的办法从中抽取若干子群,将抽出的子群的所有个体合起来就是总体的样本。n整群抽样与分层
11、抽样的区别样本抽取方法不同。子群划分的原则不同。 整群:群间同质性高,群内异质性高。 分层:层间异质性高,层内同质性高。适用总体不同。 整群:适用于界定不清的总体。 分层:适用于界定分明的总体。n整群抽样的特点:(1)可以通过变换抽样单位扩大抽样范围。(2)节约成本。(3)样本分布不均匀,代表性较差。总体5、多段抽样:又称多级抽样,是按抽又称多级抽样,是按抽样单位的隶属关系,把抽样过程分为几样单位的隶属关系,把抽样过程分为几个阶段进行。个阶段进行。n优点:节约成本,适用于范围大、单位多、结构复杂的调查对象。n缺点:误差大。减小多阶段抽样误差的方法:相对增加开头阶段的样本数而适当减少最后阶段的样
12、本数。6、pps抽样n100000户居民,分属200个居委会。从中抽取1000户居民。n方案:从200个居委会中随机抽取20个居委会;在被抽中的20个居委会中,每个居委会随机抽取50户居民。n思考:若甲居委会有800户居民,乙居委会有200户居民。两个居委会的居民被抽中的概率相等吗?甲居委会居民被抽中的概率:20/20050/800=1/160乙居委会居民被抽中的概率:20/20050/200=1/40P(乙)=4P(甲)nPPS抽样:叫做“概率与元素的规模大小成比例的抽样”(sampling with probability proportional to size),适用于总体中元素大小不
13、同,或元素在总体中的地位不同时。n它是以阶段性的(或暂时的)不等概率换取最终的、总体的等概率。从从10个学校共个学校共20000人的总体中,抽取一个容量为人的总体中,抽取一个容量为800的的样本。要求抽取样本。要求抽取8个学校,每个学校个学校,每个学校100人。(人。(K=2500)n学校 人数 累计人数 编号 A 1000 1000 11000 B 1500 2500 10012500 C 2000 4500 25014500 D 4000 8500 45018500 E 2000 10500 850110500 F 3000 13500 1050113500 G 1500 15000 13
14、50115000 H 1500 16500 1500116500 I 500 17000 1650117000 J 3000 20000 1700120000 nPPS抽样的实质:第一个阶段,大的群被抽中的概率大,而小的群被抽中的概率小;第二个阶段,被抽中的大的群中的元素被抽中的概率显然小于被抽中的小的群中的元素。这一大一小,平衡了由于群的规模的不同带来的概率差异。7、户内抽样n是在多段抽样时最后一个阶段的抽样方法,即入户后,从该家庭中抽取一个成年人作为样本。n户内抽样,应使该户家庭所有成年人都具有相等的被抽中的概率。n(1)掷骰子法家庭人口数不能超过6人n(2)生日法第一步,确定一年中的某一
15、天为标准日期。第二步,了解被抽中的家庭户中18岁以上的人口数及各自的生日。第三步,计算每个人的生日距标准日期的天数。第四步,从中选出生日距离标准日期最近的(或最远的)人作为调查对象。n例:一项调查确定的标准日期为8月1日。被抽中的某户家庭有5口人,爷爷、奶奶、爸爸、妈妈和一个上小学的儿子。4个成年人的生日分别为:2.9,9.27,6.18,5.6。4个人的生日距离标准日期的天数分别是172天,57天,43天,86天。爸爸为被抽中的调查对象。四、非概率抽样n偶遇抽样 n判断抽样n定额抽样n滚雪球抽样n 经验确定样本数的范围经验确定样本数的范围总体规模100人以下1001000人10005000人500010000人1万10万人10万人以上样本占总体的比重50%以上50%20%30%20%15%3%5%1%1%以下五、 样本规模与抽样误差n1、影响样本规模确定的因素:1、总体规模2、估计的精确性要求3、总体的异质性程度4、成本n2、样本规模与抽样误差