1. 6.4 抽样的方法

抽样是从研究的总体中按照合理的随机原则抽取部分单位作为样本来进行观察研究,并根据这部分的抽查样本来推断总体,以达到认识总体的目的的一种调查统计方法。首先我们要明确几个大家潜意识都熟知的概念。

总体:我们研究的对象的全部,也称为全样本。

个体:构成总体的每个成员或者每个研究对象。

样本:从总体中抽取出来的个体组成的集合。

抽样常见的方法一般有四种,分别是随机抽样、系统抽样、分层抽样、整群抽样。

随机抽样是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

随机抽样只适用于总体单位数量有限的情况,否则编号工作繁重。对于复杂的总体,样本的代表性也难以保证,不能有效利用总体的已知信息等。在市场调研范围有限,或调查对象情况不明、难以分类,或总体单位之间特性差异程度小的情况下采用此法效果较好。

系统抽样类似于随机抽样,但是当个体较多时,随机抽样太过烦琐,因此可以按照预设的规则,从不同的部分中抽取相应的个体。例如假设抽取若干学生检查学习成绩,可以先按照学号编号,然后确定每隔K个编号抽一个。这种抽样方法简单易行,缺点就是容易出现大的偏差。

分层抽样是先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,最后组成一个样本的方法。分层抽样尽量利用事先掌握的信息,并充分考虑保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。当总体是由差异明显的几部分组成时,往往选择分层抽样的方法。

例如研究某高校的就业率情况,我们可以将高校毕业生分为几个类别,分别是博士生、硕士生和本科生,然后将三个层次都进行抽样,即可获得总样本。

分层抽样有两个明显优点:第一就是在不断增加样本规模的前提下降低了抽样的误差,提高了抽样的精度;另一个优点就是非常便于了解总体内不同层次的情况,便于对总体不同的层次或类别进行单独研究。

整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群,然后对群进行抽样。整群抽样与分层抽样在形式上有相似之处,但实际上差别很大。分层抽样要求各层之间的差异很大,层内个体或单元差异小;而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;分层抽样的样本是从每个层内抽取若干单元或个体构成;而整群抽样则是要么整群抽取,要么整群不被抽取。例如,调查某地区教师的收入水平,可以直接抽查某一所学校的老师的收入水平,以该校作为当地的样本。

这种抽样方法代表性较差,抽样的误差大。因此,不同子群相互之间差异很大,而每个子群内部的差异不大时,适合使用分层抽样的方法;反之,当不同子群之间差别不大,但每个子群内部差异比较大时,则特别适合采用整群抽样的方法。

抽样方法不一样,会导致结果不一样。但是就算抽样方法一样,不同的研究方式,包括对指标的观察不同,也会导致结果不一样。

再回到本章6.1节的案例里,如果A网站用户的平均年龄是20岁,B网站用户的平均年龄也是20岁,我们能否得出一个结论:A、B网站的用户基本上都是同一年龄层的?

这不仅仅是抽样的问题,我们还要关注抽样结果的几个指标:众数、中位数和平均值。

众数是指一组数据中出现最多的数据;中位数是指所有数值排列起来之后,处于数列中间的数值;平均值则是所有数据平均之后的数值。

我们讲用户平均年龄是20岁的话,是指平均值为20岁。但是我们并不能得出A、B两站的用户基本是一个年龄层的。因为年龄结构有较为分散的可能,也有高度集中的可能。如果用户的年龄结构较为集中,我们在做运营的时候就要集中精力考虑主要用户,而不用注意其他年龄段的需求;如果年龄结构较为分散,那么我们可能需要考虑所有年龄段的用户的需求。

Copyright & copy 7dtime.com 2014-2018 all right reserved,powered by Gitbook该文件修订时间: 2018-06-23 10:12:35

results matching ""

    No results matching ""