抽样方案设计
所谓抽样设计,就是依据调查目的,在给定的人力、物力、财力等的条件下,在从一定总体中抽取样本资料以前,预先确定抽样程序和方案,在保证所抽取的样本有充分代表性的前提下,力求取得最经济、最有效的结果。
一般来说,抽样设计的主要内容及步骤如下:
(一)定义目标总体
目标总体是指抽样设计者根据调查目的界定的调查研究对象的集合体。调查目的和范围对定义目标总体具有关键性的作用。目标总体是对整个研究具有重大意义的群体,它们之所以有重要的地位,是因为我们可以从它们身上收集到对研究有关键用途的信息。另外,还有一些因素可能也会影响我们界定目标总体,如研究的主题、时间等。
(二)决定抽样框
目标总体选定后就需要由抽样框执行了。抽样框是抽样调查前在可能条件下作出的抽样单位一览表或一览图,即由抽样单位构成的名录。例如,以宁波市医师为抽样单位,则宁波市医师名册便是抽样框。如果以学校班级为抽样单位,则学校所有班级名册便是抽样框。抽样框既可以是一份包含所有抽样单位的名单,也可以是一张地图或其他适当的形式,如电话簿的列表、餐厅的菜单、包含公司所有客户名单的数据库或是电子数据库的目录等。无论是哪种形式,抽样框中的抽样单位必须是有序的,以便于编号。抽样单位是指在抽取样本前将总体依据一定标准分成若干部分,其中的每一部分称为一个抽样单位。各个抽样单位彼此不能交叉,所有这些抽样单位加总起来构成一个总体。抽样单位由抽样的组织形式决定,如果采用单纯随机抽样形式,抽样单位就是调查对象中的每个个体;如果采用分层抽样形式,抽样单位就是总体中的每个层;如果采用整群抽样形式,抽样单位就是总体中的每个群。
抽样框是组织抽样调查的重要依据,调查者必须对其抱有严谨的态度,认真地收集和编制。因为抽样框一旦有重复和遗漏,必然会直接影响到样本的选取,从而影响到整个抽样工作的质量。
抽样框根据其划分标准的不同,可以在不同层面上进行构建,从而使抽样框呈现不同等级,不同等级的抽样框可以用于各级抽样。
就目前的市场调查现场执行而言,有三种常用的抽样框:地图块、居委会块、居民户。
1.地图块
地图块是指在市场调查所涉及的行政区划范围内,将地图按一定标准划分为若干块,使各块具有相近的居民户数,每一块作为一个基本的抽样单位,各块的总和即为抽样框。地图块抽样框构建常用的方法有两种:一种是“行政区划法”,即以区、街道(镇)等作为基本抽样单位构建抽样框;另一种是“道路地块法”,即以道路、河流、铁路等明显的线状标志物为界限划定各个抽样单位。这种区划法的优点在于可以较合理地划定地图块的大小,如按该地图块内的人口密度确定地图块面积的大小等等,从而使各地图块内的居民户数达到基本相同,使样本单位之间具有可比性。据统计,在实际中采用道路地块法抽样时,由于拒访、行业限制、拆迁、界限不清等原因,约有1/3的居民户不能访问,故在实际确定每地块居民户数时,应考虑以上因素。
2.居委会块
居委会块是指以居委会所辖地域作为抽样的基本单位,其总体即构成抽样框。
3.居民户
居民户是指以某区域住户名单为抽样的基本单位,其总体即构成抽样框。这里所指的名单不一定是居住户的姓名,而有可能是居住户的门牌号、室号。这一形式的抽样框往往缺乏现成的资料,需要连续地进行资料积累和完善,并且不断地进行修订。
(三)抽样调查的组织形式和抽样方法的选择
为了控制抽样误差,提高抽样效果,需要根据调查任务及调查对象的具体情况,从各种抽样调查的组织形式及抽样方式中有针对性地进行选择,以便使样本能充分地反映总体,并便于组织实施,节约人力、物力和时间。
传统的抽样调查的组织形式分为两大类:随机抽样与非随机抽样。随机抽样并不是指随便乱抽样,随机抽样时样本会依据总体出现的几率高低而被多抽到或少抽到;非随机抽样是指不按照几率抽取样本,而由抽样者主观抽取。
抽样方法的种类见表1—5。
表1—5 抽样方法的种类
随机抽样 非随机抽样
简单随机抽样 便利抽样
系统抽样 判断抽样
分层随机抽样 配额抽样
整群抽样 雪球抽样
多阶段随机抽样
1.随机抽样
随机抽样是按随机原则从调研总体中抽取一定数目的样本单位进行调查,以其结果推断总体的一种调研方式。它对调研总体中每一个样本单位都给予平等的抽取机会(即等概率抽取),完全排除了人为的主观因素的选择,这也是它与非随机抽样调研方式的根本区别。
目前,我国市场调研的某些方面采用了随机抽样调研的方式,如居民家庭生活调研、
粮食及重要经济作物的产量调研等,但总的来讲,其应用面还不太广。其实,随机抽样这种调研方式在我国市场调研中有着广泛的应用前景,如城乡居民收支状况与购买力的调研、消费者商品需求量与耐用消费品市场普及率的调研、消费结构与消费倾向的调研、农副产品产量与资源的调研、市场价格与需求弹性的调查分析等专题市场调研均可运用随机抽样的方式进行。
1)简单随机抽样
简单随机抽样也称纯随机抽样,就是在总体单位中不进行任何有目的的选择,完全按随机原则抽取样本单位。纯随机抽样是随机抽样中最简单的一种。由于市场调研的总体范围较广,总体内部各单位之间的差异程度较大,一般不直接使用这种方法抽样,而是与其他抽样方法结合使用。实际使用时,可先利用计算机产生随机数,然后依次于总体中抽取样本单位,直到n个元素被抽取而构成样本。
简单随机抽样的优点:总体名册完整时,样本抽取方便,方法简单。
简单随机抽样的缺点:
①完整总体名册不易取得,或取得成本很大时实行困难。
②当总体样本单位过多时,抽样作业相对不便(如总体名册几万户)。
③样本分配较分散,增加调查行政作业困难(如某地区住户580万户要抽18 000户)。
④当样本单位差异大时,样本代表性恐有不足(如估计所得,抽到高所得或偏低所得)。
简单随机抽样的使用时机:
①总体内样本单位不多且有完备名册可以编号。
②总体内样本单位差异不太大。
2)系统抽样
系统抽样又称等距抽样或机械抽样,是将总体各单位按一定标志顺序排列,然后依固定的顺序和间隔抽取样本单位。排列顺序可以与调研项目无关的标志为依据,即按无关标志排队,如按户口册、姓氏笔画、地理位置等排列;也可以与调研项目直接或间接相关的标志为依据,即按有关标志排队,如在职工家庭收入调查中,先按总收入或平均工资由低到高排队,然后再抽取调研单位。显然,按有关标志排队法要比按无关标志排队法效果好。
系统抽样的步骤包括:
(1)将总体单位排列。
(2)决定抽样区间(总体单位数/样本数)。
(3)在第一个区间采用简单随机抽样法抽出一个单位作为起始点。
(4)取得一个元素后,每隔一个抽样间距抽取一个元素,直到样本数足够为止。
[例]欲自10 000的总体中抽取500个元素,则抽样区间为20(10 000÷500),假设我们以7为第一个元素,则被抽中的单位分别为7、27、47、67……
3)分层抽样
分层抽样也称类型抽样或分类抽样,就是将总体单位按一定标准(调研对象的属性、特征等)分组,然后在各个类型组中用纯随机抽样方式或其他抽样方式抽取样本单位,而不是在总体中直接抽取样本单位。
分层抽样必须注意以下问题:第一,必须有清楚的分层界限,在划分时不致发生混淆;第二,必须知道各层中的单位数目和比例;第三,分层的数目不宜太多,否则将失去分层的特征,不便在每层中抽样。
分层抽样的步骤包括:
(1)确认目标总体。
(2)决定样本数。
(3)决定分层标志。
(4)将总体按照分层标志分成若干类,其中每一类称为一层。
(5)在每一层中随机抽取出足够的样本。
分层抽样的具体做法有以下两种:
其一,等比例分层抽样。这种抽样法就是按照各层中样本单位的数目占总体单位数目的比例分配各层的样本数量。
[例]某教授对甲大学的学生消费倾向产生了兴趣,想对全校学生做抽样调查,总体有5 000人,欲抽样500人,则:
总体 样本
一年级 2 000人 一年级 200人
二年级 1 500人 二年级 150人
三年级 1 000人 三年级 100人
四年级 500人 四年级 50人
其二,不等比例分层抽样,又称分层最佳抽样。这种抽样法不按各层中样本单位数占总体单位数的比例分配各层样本数,而是根据各层的标准差的大小来调整各层样本数目。该方法既考虑了各层在总体中所占比重的大小,又考虑了各层标准差的差异程度,有利于降低各层的差异,以提高样本的可信程度,故也可将不等比例分层抽样称为分层信任程度抽样。
[例]某公司要调研某地家用电器产品的潜在用户,这种产品的消费同居民收入水平有关,因此以家庭收入为分层基础。假定该地居民户即总体单位数为20 000户,已确定调研样本数为200户。家庭收入分高、中、低三层,其中高档收入家庭为2 000户,占总体单位数的比重为10%;中等收入家庭为6 000户,占总体单位数的30%;低等收入家庭为12 000户,占总体单位数的60%。现又假定各层样本标准差为:高档收入家庭是300元,中等收入家庭是200元,低等收入家庭是50元。现要求根据分层最佳抽样法,确定各收入层家庭应抽取的户数各为多少?
为了便于观察,列表1—6如下。
表1—6 调研单位数与样本标准差乘积计算表
家庭收入分层 各层调研单位数
(潜在用户数) 各层的样本标准差 乘积 样本单位数
高 2 000 300 600 000 200×600 000÷2 400 000=50
中 6 000 200 1 200 000 200×1200000÷2400 000=100
低 12 000 50 600 000 200×600 000÷2 400 000=50
合计 20 000 — 2 400 000 —
如果根据等比例分层抽样的话,那么,高档收入家庭的分层样本数为20户(200×10%);中等收入家庭的分层样本数为60户(200×30%);低等收入家庭的分层样本数为120户(200 ×60%)。将前后两种方法抽取的各层样本数做个对比,不难看出,相比于等比例分层抽样法,根据分层最佳抽样法抽取样本,则高档收入家庭的分层样本数增加了30户,中等收入家庭的分层样本数增加了40户;低等收入家庭的分层样本数则减少了70户。由于购买家用电器同家庭收入水平是成正比例变动的,所以,增加高、中档层的样本数,相应减少低档层的样本数,将有利于提高抽样的准确性。
4)整群抽样
整群抽样又称分群抽样,是指将市场调研的总体按一定的标准(如地区、单位)分为若干群,再以随机方式抽取部分群,并对这些抽取出来的群中的单位做全部访问,然后在其中随机抽取部分群体单位进行普查的方法。
分群抽样一般采取两段式抽样法,即先采取纯随机抽样法抽取若干群体,然后对选定的有关群体进行全面调研。
[例]调查某城市居民户的情况拟抽取1 000个样本。假定该市共有500个居委会,每一个居委会平均有100户居民。这样,就可以居委会为单位,采用纯随机抽样法抽出10个居委会,共1 000户,然后把这10个居委会的1 000户视为样本进行普查。
[例]欲调查宁波大学大四学生升学或就业的意愿,假设大四有35个班,从中随机抽取5个班,然后就这5个班的成员做全部访问,此法即为整群抽样法。
在以下两种情况下,研究者可能会采取整群抽样:需要更经济、更有效率时,尤其是总体相当大时;抽样框中,每个单位的资料不是很完整或是不易得到,或使用其他随机抽样法不是那么方便时。
整群抽样的优点包括:
①节省成本和时间。
②抽样架构中每个元素的资料不易得到或不完整时,使用此法会较方便。
整群抽样的缺点包括:
①选样不只一次,依调研目的可能要选两次或三次。
②群体内的元素值通常类似,因此估计量的精确度通常较低。
③分群的大小差异会影响抽样的正确性。
5)多阶段随机抽样
多阶段随机抽样是指分两个及两个以上的阶段从总体中抽取样本的一种抽样调查方法,即先粗分,再细分,然后再微分。此方法在面对大规模抽样时,常结合分层抽样法实施,首先将总体分层后,按比例抽出初步样本;其次再以类聚式方法将样本归类,然后从归类组中随机抽取样本,就是最后进行调查的样本。
[例]欲实施全省性的防治犯罪相关问题之民意调查,就可以采取多阶段随机抽样方法进行:
(1)分层——拟针对的人口为全省居民,按犯罪率程度从各市、县、区依一定比例随机抽出100个单位(各市、县、区均有)。
(2)粗分——在这100个单位中,以镇、街道为类,在同一单位中抽出3个村(居委会)。
(3)细分——这一阶段以户为单位,随机抽出5户作为样本,所以最后样本数为1 500(100×3×5)。
2.非随机抽样
从调研对象总体中按调研者个人经历、方便性及主观判断设定的某个标准抽取样本单位的调研方式,称为非随机抽样调研。这种抽样方式虽然在样本的抽取方法上带有主观性,会对总体推断的可靠程度产生影响,但由于它简便易行,可及时取得所需的信息资料,因此,在市场调研中也常被采用。
非随机抽样的方法主要有便利抽样法、判断抽样法和配额抽样法三种。
1)便利抽样
便利抽样又称为偶遇抽样。顾名思义,即以选样的便利为基础的一种抽样方法。其所得的样本称为便利样本。
[例]调研者在路上或其他地方如快餐店或便利店等,拦下行人进行访问就是一种便利抽样。
[例]一些大城市想做流动人口消费品购买力调研,往往无法采取随机抽样法,而是在车站、码头、机场、旅馆或大商场等处,碰到外地旅客就随便进行询问调查。
[例]宁波市调研人员想了解宁波市民对于规划的万达商圈的停车位的满意程度,所以去访问在商圈附近逛街的市民。
便利抽样的优点是简便易行,能及时获得所需要的信息数据,省时省力,节省调研经费,效率很高,并能为非正式的探索性研究提供很好的数据源。其缺点是取得的样本偶然性很大,存在着选择偏差,如调查者的自我选择偏差、抽样的主观性偏差等,因而样本的代表性较差,调查结果的可信度较低。只有当目标总体各单位间差异不大,即个体同质时,采用便利抽样获取的样本才具有较高的代表性。所以这种抽样方法一般不能用来推断总体,即便利样本不适合于描述性研究和因果关系研究,而比较适合于探索性研究。它可以通过调研发现问题,产生想法和假设,对问卷进行测试。实际操作中,便利抽样多用于探索性调查或正式调查前的预调查。
2)判断抽样
判断抽样也叫目的抽样,是按照调研者的主观经验、判断选定调研单位的一种抽样方法。判断抽样有两种做法:
一种是由专家判断决定所选样本,即选择最能代表普遍情况的群体作为样本,一般选取“多数型”或“平均型”的样本为调研单位。“多数型”的样本是在调研总体占多数的单位中挑选出来的样本;“平均型”的样本是在调研总体中挑选出来的代表平均水平的样本。也就是说,通过构成“平均型”典型样本,可以实现把握目标总体平均水平大体位置的调研目的;通过组成“多数型”(也称众数型)判断样本,可以实现掌握目标总体中多