福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx-资源下载

福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx

1、福州大学至诚学院财经系统计学王慧红老师期末复习资料范围第一章：数据类型和它的基本概念。练习P10统计数据的类型：（1）分类数据：是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。例如，人口按性别分为男、女两类；企业按行业属性分为医药行业、家电行业、纺织品行业等，这些均属于分类数据。可以用数字代码表示各个类别。（2）顺序数据：是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的。例如，将产品分为一等品、二等品、三等品、次品等；考试成绩可以分为优、良、中、及格、不及格等；一个人的受教育程度可以分为小学、初中、高中、大学及以上

2、；一个人对某一事物的态度可以分为非常同意、同意、保持中立、不同意、非常不同意等。也可以用数字代码表示。（3）数值型数据：是按数字尺度测量的观察值，其结果表现为具体的数值。、分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述的，其结果均表现为类别，所以可统称为定性数据或品质数据。数值型数据说明的是现象的数量特征，所以也可称为定量数据或者数量数据。（4）截面数据：是在相同或近似相同的时间点上收集的数据。（5）时间序列数据：是在不同时间收集到的数据。总体和单位相互关联，即若要统计城市交通事故情况，则总体为所有交通事故，单位为每一起交通事故。变量是说明现象某种特征的概念。有（1）分类

3、变量：说明事物类别的一个名称，其取值是分类数据。如“性别”是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。（2）顺序变量：说明事物有序类别的一个名称，其取值是顺序数据。如“产品等级”就是一个顺序变量，其变量值可以为“一等品”、“二等品”、“三等品”、“次品”等；“受教育程度”也是一个顺序变量，其变量值可以为“小学”、“初中”、“高中”、“大学”等。（3）数值型变量：是说明事物数字特征的一个名称，其取值是数值型数据。如“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数值型变量。数值型变量根据取值的

4、不同，又可以分为离散型变量和连续性变量。离散型变量只能取有限个值，可以一一列举，如“企业数”、“产品数量”、“人数”。连续性变量是可以在一个或者多个区间中取任何值的变量，它的取值是连续不断的，不能一一列举。“年龄”、“温度”、“零件尺寸的误差”等都是连续性变量。1. 数据的误差：调查误差：是指在取得样本数据资料过程中产生的误差。这部分误差通常与调查者、回答者、资料搜集方式和问卷等因素有关，它们会形成在调查过程中出现无回答和回答出现偏误等情况，进而形成系统性误差。抽样误差：是由抽样的随机性引起的样本结果与总体真值之间的误差。误差的来源：抽样误差是由抽样的随机性带来的，只要采用概率抽样，抽样误差就

5、不可避免，但可以控制。要求的抽样误差越小，所需要的样本量就越大。（1）样本量越大，抽样误差越小，当样本量大道与总体单位相同时，也就是抽样调查变成普查，这时抽样误差减少到0.（2）总体的变异性越大，即各单位之间的差异越大，抽样误差也就越大；总体的变异性越小，各单位之间越相似，抽样误差也就越小，如果所有的单位完全一样，调查一个就可以精确无误地推断总体，抽样误差也就不存在了。对误差的理解：登记性误差是是调查过程中由于调查者或被调查者的人为因素所造成的误差。可以避免。误差的控制：抽样误差是由抽样的随机性带来的，只要采用概率抽样，抽样误差就不可避免。但抽样误差是可以计算的，允许的抽样误差是多大，取决于对

6、数据精度的要求。一旦这个误差确定下来，就可以采用相应的措施来进行控制。进行控制的一个主要方法是改变样本量，统计方法已经给出了计算样本量的公式（涉及参数估计）。要求的抽样误差越小，所需样本量越大。对非抽样误差的控制可以通过：做好问卷调查设计、调查员的挑选、调查员的培训、督导员的调查专业水平、调查过程控制、调查结果进行检验、评估、现场调查人员进行奖惩的制度，来避免误差。在调查中必须保证数值的正确性。非抽样误差：除抽样误差之外的，由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中：概率抽样，非概率抽样，全面性调查有抽样框误差、回答误差、无回答误差、调查员误差、测量误差第三章：数据

7、的搜集：调查的种类：调查的范围：全面调查：普查、全面统计报表非全面调查：抽样调查、重点调查、典型调查第四章：数据的整理：如何进行分组：单变量值分组：（1）将一个变量值作为一组；（2）适合于离散变量；（3）适合于变量值较少的情况。组距分组：（1）将变量值的一个区间作为一组；（2）适合于连续变量；（3）适合于变量值较多的情况；（4）需要遵循“不重不漏”的原则；（5）可采用等距分组，也可采用不等距分组。第一步：确定组数：不多于10个，3-7之间，一般5组。第二步：确定各组组距：组距是一个组的上限与下限的差。组距( 最大值 - 最小值) 组数。第一组下限应低于最小变量值，最后一组的上限应高于最大变量

8、值。第三步：统计出各组的频数并整理成频数分布表：1. 下限：一个组的最小值2. 上限：一个组的最大值3. 组距：上限与下限之差4. 组中值：下限与上限之间的中点值为解决不重的问题，统计分组时习惯上的规定“上组限不在内”，即党相邻两组上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而算在下一组内。即分组后的变量值x满足a=x5，n(1-p)5，则二项分布可用正态分布近似求解。因而有样本比例分布为：比例的置信区间，即置信区间：总体比例未知，可用样本比例p代替。在1置信水平下，总体比例的置信区间为：例：一项广告活动的跟踪调查，在随机调查的400人中，有240人能记起广告语。试以95的置信水平估

9、计能记起广告语的人所占比例的置信区间。解：已知 n=400 ， p=240/400=0.6，np=2405， n(1-p)=1605，1-=0.95，查表得Z=1.96，则即以95的概率保证，估计能记起广告语的人数所占比例在55.2%64.8%之间。【例】某城市要估计下岗职工中女性所占的比例，随机抽取了100个下岗职工，其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。已知 n=100，p65%, 1-= 0.95时，查表得z/2=1.96该城市下岗职工中女性比例的置信区间为55.65%74.35% 估计总体均值时样本容量的确定：重复抽样下估计总体均值时样本

10、容量：例：一家广告公司想估计某类商店去年平均每店广告费支出额。经验表明，总体方差为1800000。若置信水平取95，允许误差为500元，问应抽取多少家商店作样本？解：已知21800000，0.05，查表得z /2 1.96，500，应抽选28家商店作样本。 n应取整数估计总体比例时样本容量的确定：重复抽样下估计总体比例时样本容量：某市场调研公司想估计某地区有家用计算机的家庭所占比例。希望允许误差不超过0.05，可靠程度为95，问应取多大容量的样本？没有可利用的比例。解：已知：p0.05 , =0.05 , z /2 =1.96 , 用 =0.5计算 ,则应抽取385户家庭进行调查。第八章

11、：假设检验第一类错误是原假设H0为真时，检验结果把它当成不真而拒绝了。犯这种错误的概率用表示，也称作错误或弃真错误。第二类错误是原假设H0不为真时，检验结果把它当成真而接受了。犯这种错误的概率用表示，也称作错误或取伪错误。均值检验和比例检验主要有单侧和双侧；是否显著性差异用双侧，是否明显提高、明显下降用单侧的；注意区分是均值检验还是比例检验；把想要检验的放在备择假设。假设检验的步骤根据研究需要提出原假设H0和备择假设H1注意：对任一假设检验问题，其所有可能结果均应包括在所提出的两个对立假设中，原假设与对立假设总有一个、也只能有一个成立。原假设一定要有等号： =或或。例如，有研究预计，采用新技术生产后将会使某产品的使用寿命明显延长到1500小时以上。则建立的原假设与备择假设应为： H0: m 1500 H1: m 1500例如，有研究预计，改进生产工艺后会使某产品的废品率降低到2%以下。则建立的原假设与备择假设应为： H0: m 2% H1: m 5，n(1-p)5）2. 使用Z统计量0为假设的总体比例。分母为样本比例的抽样标准差，一般采用0计算，也有人认为可以用样本比例p计算总体比例的检验（双侧检验举例）【例6-9】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200个家庭，其中68个家庭拥有电脑。试问研究者的估计是否可信？ (a=0.05)

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？