1、目标总体的确定,北京奔驰有限公司要进行一项用户满意度调查,请问:,狗粮测试的目标总体?,二、确定抽样框架,抽样框架(sampling frame)是抽样总体的可操作性定义,由一份或一组用于识别目标总体的指示说明组成。在编制抽样框架时常见的问题如下(Kish,1965:56-59),均导致抽样框架误差:遗漏遗漏部分样本单位;重复同一样本单位重复出现;混杂抽样框架中包括部分非样本总体成员。,过滤问题,过滤问题,为了确定某一个体是否属于抽样总体,常有必要使用过滤问题。除了某项研究的特殊要求以外,营销研究通常要求研究对象:过去3个月内没有接受任何产品或广告调查;本人及家庭成员不在有关的公司工作。,两个
2、基本概念,抽样的最终目的:通过抽样方法从总体中选择一些要素,并通过对这些要素的描述以精确描述总体的各种特征。要素:收集信息的单位和进行分析的基础要素/分析单位,【例】中国女性减肥品市场细分研究:定义总体,目标总体:2009年中国大中城市女性减肥品的现有消费者和潜在消费者抽样框架:十个代表城市中,A公司销售人员在其产品销售终端可以接触到的年龄在1850周岁之间的女性减肥品现有消费者和潜在消费者,三、抽样设计类型,Non-probability sampling,Cluster,Probability sampling,Multistage area,Stratified,Simple rando
3、m,Systematic,Non-proportion,proportion,sampling,p213,两种抽样类别,概率抽样:社会科学研究中选取大型和具有代表性样本的主要方式非概率抽样,通常用于下列情况:样本量很小时;探索性研究或研究的初始阶段;目标总体成员很少或很难寻找;概率抽样不可能或不合适时,(一)概率样本设计,概率样本设计(probability sample design)采取随机的办法,排除研究人员主观因素的干扰,使样本总体中的每一个成员都有一个事先确定好抽中概率。简单随机抽样系统抽样分层抽样整群抽样,概率抽样的原则和优势,概率抽样的原则:总体中的每个个体被抽取为样本的概率相同
4、。这种抽样具有代表性。具有这一性质的样本称为EPSEM(Equal probability of selection method)样本。概率抽样的优势:比非概率样本对总体更有代表性概率理论使我们能构估计样本的精确度和代表性。,随机抽样,随机抽样是概率抽样过程的核心任何要素都具有等同的、独立于任何其他事件的被抽到的概率如:掷硬币方法:随机数表、电脑程序使用的原因:避免研究者的偏见为进入概率理论提供了契机,1、简单随机抽样,简单随机抽样(simple random sampling)是最基本的概率抽样方法。该抽样方法保证每一抽样单位都有相同的非零抽中概率。若总体为N,样本量为n,则每一抽样单位的
5、抽中概率:p=n/N机读格式的抽样框随机数表的应用:要素的顺序标号从随机数表的任一列某数开始,选取号码的后几位或几位数来抽取。可以随意确定选取数字的顺序,但要始终如一,2、系统抽样,系统抽样(systematic sampling)是随机抽取第一个样本单位,然后每隔k个单位抽取一个。抽样间距:总体大小/样本大小抽样比率:样本大小/总体大小系统抽样时每个样本单位抽中的概率相同,为1/k。个体按某一顺序排列顺序与研究特征无关顺序与研究特征有关,如:行业中按销售额增序排列,信用卡用户(欠款)余额个体排序呈现周期性特征,如:对一个班一个班的方式编排的士兵抽样(班内按级别排),楼宇抽样讨论:什么时候应避
6、免采用系统抽样?,3、分层抽样,分层抽样(straitified sampling)同质总体抽样比异质总体抽样的误差小确保总体内同质的次级集合会被抽出适当数量的要素最终功能在于将总体分成几个同质的次级集合(之间则有异质性),确保每个重要的次级集合终抽出适当数量的样本。先根据分层变量将总体分成不同的层,层中抽样有两种方法:比例分层抽样按该层在总体的相对比例从各团体终抽出样本非比例分层抽样每层抽的样本量与该层的相对量成正比,且与该层个体当中需要研究的特征分布的标准差成比例,分层抽样与配额抽样的区别,4、整群抽样(cluster sampling),不可能或不方便编制一个完整的个体名单形成目标总体的
7、时候,采用。没有总体的个体列表,抽样框架是群要素已经被分为较小的次级团体,而次级团体中的要素名册是存在的或可以列出的。教会成员:全国教会名册单个教会会员名册城市人口:街道样本街道的居住人口名册单阶段整群抽样两阶段抽样的两个步骤:列表名册抽样先分群,然后将不同类别的个体放到一个连续性的表中,在对整个列表进行随机起始的系统抽样适用于各群在量上相等时有点:可行性高,成本低两次抽样误差:群的代表性误差,要素的代表性误差,相互制约(样本量一定)当被抽样的群的规模很大时,应采用修正的抽样设计概率比例抽样。即每个群被选取的概率与其大小成比例。,整群抽样与分层抽样的关键差别1、目的的不同2、操作的不同3、层与
8、群的标准相反,讨论,如果某校有1000名本科生,400名普通硕士生和600名MBA学生,若要比较不同类别学生对教学的满意度,请问:应采用哪种抽样方法?总体满意度应如何计算?,(二)非概率抽样技术,依赖于研究人员的个人判断而非随机原则选择样本个体,事先并不确定每个样本单位被抽中的概率。便利抽样目标式或判断式抽样滚雪球抽样配额抽样,1、方便抽样,例如:学生样本,不加资格认证的商场拦截访问经常使用但非常冒险采取更少冒险性的抽样不可能时,才有其合理性做推论时要非常小心,提醒读者可用于专题组预测试问卷等,2、目标式或判断抽样,便利抽样的一种形式根据对研究目的的判断来选择适当的抽样方法如根据对总体构成要素
9、和研究目标的认识如:试销市场,B2B市场中的采购工程师,法庭上使用的陪审团,3、滚雪球抽样,在特定总体的成员难以找到时,最合适程序:先选择一组最初的调查对象(目标群体少数成员)再向其访谈有关信息要求推荐他们认识的其他总体成员样本方差和成本相对较低如:研究流动劳工、非法移民等,4、配额抽样,强调样本的代表性两个极端的有约束的判断抽样程序:建立描述目标总体特征的不同类别个体的配额每个配额有相应的比例如性别,年龄等根据研究目的从不同配额中抽取样本唯一的要求:个体必须符合控制特征各自相对于总体的比例:同/不同缺陷:配额的框架必须十分精确。但,包括多项控制特征在实际操作红往往比较困难,相关的控制特征经常
10、被忽略。每个配额内的个体是在便利或判断的基础上选出,会存在偏误,【例】中国女性减肥品市场细分研究:样本设计,抽样方法:配额抽样样本城市:北京、广州、深圳、昆明、贵阳、重庆、成都、沈阳、乌鲁木齐、济南样本总量:每个城市100份,共1000份配额:实行现有和潜在消费者配额,城市配额,甄选问卷对抽样配额进行控制。,四、样本量的确定,确定样本量的方法可分为两大类:经验方法:根据业界常规来确定样本的大小统计学方法:根据统计公式计算样本量,确定了所需的样本量后,还要根据以下因素,调整要抽取的样本量:发生率:样本总体中符合条件的百分比完成率:完成访谈的合格对象的百分比,(一)确定样本量的经验方法,最简单的方
11、法是根据研究的类型和经验,以及以下因素确定样本量:决策的重要性;研究的性质;单位成本;发生率和完成率;其它。,表2 营销研究中常用的样本量,可支配预算法,可支配预算法,根据进行某项研究可支配的预算,在扣除其他支出后,按单位样本的成本决定样本量。例:进行某项研究的总预算是50,000元,研究设计、人员培训、问卷测试和数据分析等其它费用共需10,000元,完成每份调查问卷(含数据录入)的平均费用是50元,请问可以抽取多大的样本?,(二)确定样本量的统计学方法,对于概率样本可用统计公式计算所需样本。这时样本量与下列因素有关:样本设计类型;要求的精度;总体内部的同质性;分组的详细程度。,几个概念,参数
12、:对总体中的某变量的概括性描述当从样本开始进行推论时,就是试图用样本观察来估计总体的参数统计推断,概率理论为估测总体参数提供基础统计量:对样本中的某个变量的概括性描述有限总体校正:样本量占总体量10%以上,估计值过高校正因子(N-n)/(N-1)置信区间(confidence interval):对于一个给定的置信水平,真实的总体参数将会落入的范围置信水平(Confidence level):置信区间将包括总体参数的概率例子:95的信心保证样本统计值会落在参数值正负5的范围内,Symbols for Population and Sample Variables,抽样分布,抽样分布:如果根据一
13、个特定的抽样方案,从总体中随机抽取许多独立的样本,其相应的统计结果以一种可知的方式分布在总体参数的附近。10人抽样分布举例样本容量与估计平均值的抽样分布之间的关系均值的抽样分布和比例的抽样分布:对于大样本,正态分布,抽样分布的重要性质,概率理论提供计算公式,估计样本统计值和真实值之间的差距标准差S(标准误):用来衡量抽样结果集中在总体参数的多大范围内均值的标准误:=/n*0.5=s/n*0.5(总体的方差 未知,用统计量估计)比例的标准误:S=(P*(1-P)/n)*0.5(总体比例未知,用样本比例来估计),几个推论,每个例子中的标准误,是总体参数与样本大小的函数总体参数特征的影响样本容量的影
14、响直接影响样本量的是总体中特征的差异性(总体方差或样本方差),以此计算样本量,正态分布、Z值及其应用(P244:附录12A),Z值:抽样分布下任意两点之间的面积用Z值计算Z=(X-u)/某一点的Z值指的是以标准差为单位表示的该点与均值的差值一定比例的样本估计值会落在总体参数值的某个增量内。一个标准误为一个标准误增量单位(34)。正态分布的变量的全距大约是正负3个标准误,对应的均值和Z值为1.0,2.0,3.0的各点之间的双侧面积为68、95、99.9估计标准差:全距/6找出与已知的X或Z值对应的概率找出与已知概率对应的X或Z值,正态概率表,确定样本量的统计学方法:置信区间方法,以传统的统计推断为基础精确度是预先指定的使用标准误公式构建围绕样本均值或比例的置信区间为基础的置信水平与置信区间也提供了决定研究样本大小的基础P231关于抽样结果准确度的所有叙述都必须这两个数值表示,95%Confidence Interval,假设研究人员用一个300 户家庭的简单随机样本估计每月在百货商店购物的指出,并发现该样本的平均家庭月支出182美元,过去的研究指出,总体标准差假定为55美元,估计均值时样本量的确定,对于简单随机抽样:(估计月家庭支出)1.确定允许误差D,d=$5.00 2.确
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1