171 网络运行分析统计学基础知识.docx

资源描述

171 网络运行分析统计学基础知识.docx

《171 网络运行分析统计学基础知识.docx》由会员分享，可在线阅读，更多相关《171 网络运行分析统计学基础知识.docx（43页珍藏版）》请在冰豆网上搜索。

171 网络运行分析统计学基础知识.docx

171网络运行分析统计学基础知识

网络运行分析

—统计基础

中国电信维护岗位认证教材编写小组编制

第一章：

导论

1.统计研究的具体方法有哪些？

统计研究着眼于总体的数量特征，所用的基本方法都与总体数量性有关，这些基本方法是：

（1）大量观察法。

大量观察法是指统计研究客观事物的现状及其发展变化过程，要从总体的全部或足够多的个体进行观察和综合分析的一种统计研究基本方法。

运用大量观察法，必须对研究对象的所有单位进行观察调查。

例如，普查、抽样调查、统计报表调查等等都是大量观察法的具体应用。

（2）统计分组法。

它是根据统计研究的任务和被研究总体内在特点，按照所确定的分类或分组标准，将被研究总体区分为性质不同的类别或组的一种统计研究基本方法。

例如，国民经济分为一产、二产、三产业；按行业分为工业、农业、建筑业等；按核算方法分为货物与服务等等。

一个统计总体是同质性、大量性与差异性的对立统一体，统计分组就是对这三种性质的综合分析。

（3）综合指标法。

综合指标是指，统计绝对数、统计相对数和统计平均数。

综合指标法是指将这三种指标有机的结合起来对总体的数量特征与数量关系进行全面分析的统计基本方法。

例如，某班学生人数40人，统计期末考试总成绩3200分，这是统计绝对数；平均成绩80分，这是统计平均数；及格率96%，优秀率25%，这是统计相对数。

他们综合说明该班统计科的学习情况。

（4）统计模型法。

它是根据一定的理论和假定条件，应用数学方程式去模拟现实经济现象相互关系的一种统计研究基本方法。

（5）归纳推断法。

从个别到一般，从事实到理论，进行概括的推理方法，逻辑上称为归纳法。

常常存在这种情况；人们所能观察到的只是部分或有限的单位，而所需要判断的总体范围却是大量的，甚至是无限的。

这就产生了根据部分数据资料对总体数量特征作出判断的问题。

以一定的置信标准要求，根据部分数据判断总体数量特征与数量关系的归纳推断方法称为归纳推断法。

1、统计工作可以分为哪几个阶段？

（1）统计设计

（2）统计调查（数据采集）

（3）数据整理

（4）数据分析

（5）数据提供和管理

2、统计指标与统计标志

（1）说明总体特征的名称叫统计指标。

表明总体综合数量特征与数量关系的数字资料称为指标。

例如，某班某期末学生40名，期末平均成绩80分，优秀率30%,及格率98%。

它包括；时间限制、空间范围、指标名称、计算方法、计量单位、具体数值六个要素。

统计指标按照构成分类，分为2类：

●设计指标：

指标名称、计量单位、计算方法。

●实际指标：

时间、空间、名称、计量单位、核算方法/口径/范围、数值

统计指标按照数值分类，分为2类：

●数量指标：

说明总体外延规模，表明总体总量与标志总量/流量与存量、用绝对数表示。

●质量指标：

说明总体内部数量关系和状况、通过数量反映质量、用相统计相对数和统计平均数表示。

一个统计总体可以有多个指标，都用数量表示。

（2）说明总体单位特征的名称叫统计标志。

标志是表明总体单位属性或数量的名称。

按照性质不同分为：

●品质标志：

表明总体单位属性的名称。

用文字表示，包括分类数据和排序数据。

●数量标志：

表明总体单位数量的名称。

用数值表示，包括测量值数据和计数值数据。

标志的表现，是指在标志名称的后面所列示出来的属性或数量。

例如，“民族”是品质标志名称，汉、回、蒙、藏、…，为品质标志的表现；“年龄”是数量标志名称，16岁、17岁、18岁、…，为数量标志的表现。

（3）指标是相应的总体单位及其标志值的汇总与综合。

（4）由于统计研究目的和任务的变更，原来的总体变成总体单位，那么原来的指标就相应地变成标志，两者变动方向相同。

3、举例说明样本、参数、统计量、变量这几个概念。

（1）样本是从总体中抽取的一部分元素的集合。

比如从一批灯泡中随机抽取100个，这100个灯泡就构成了一个样本。

（2）参数是用来描述总体特征的概括性数字度量。

比如要调查一个地区所有人口的平均年龄，“平均年龄”即为一个参数。

（3）统计量是用来描述样本特征的概括性数字度量。

比如要抽样调查一个地区所有人口的平均年龄，样本中的“平均年龄”即为一个统计量。

（4）变量是说明现象某种特征的概念。

数量标志或统计指标的不同取值，统计上称为变量。

也就是说标志或指标会出现不同值，包括时间上或空间上不同的值。

因此，数量标志和统计指标的名称称为变量，其具体取值称为变量值。

变量是可变的数量标志和指标。

比如商品的销售额是不确定的，这销售额就是变量。

第二章：

数据的收集

1、统计调查方式：

统计报表、普查、抽样调查等。

（1）统计报表是按照国家有关法规的规定，自上而下地统一布置，以一定的原始记录为依据，按照统一表式、统一项目、统一报送时间和程序，自下而上地逐级提供基本统计数据的一种调查方式。

（2）普查是为某一特定目的而专门组织的一次性全面调查。

我国进行的普查主要有人中普查、工业普查、农业普查等。

（3）抽样调查是从调查对象的总体中随机抽取一部分单位作为样本进行调查，并根据样本调查结果来推断总体数量特征的一种数据收集方法。

特点：

经济性，时效性强，适应面广，准确性高。

（4）重点调查是对总体中重点单位进行调查,取得反映总体基本数据的调查方法。

重点单位数占总体单位数比重小，他们的标志值之和占总体标志值总量的比重大，有举足轻重的作用。

（5）典型调查是对调查对象进行分类划点的基础上，有意识挑选具有代表性的单位进行深入细致的调查。

有好典型与坏典型之分。

2、重点、典型、抽样调查的区别

三者都是非全面调查，区别如下：

3、全面调查与非全面调查的区别

二者区别是以所包含的调查单位是总体的全部还是部分为依据，而不是以最后得到的是否为全面资料为依据。

因为有的非全面调查其目的仍然是获取总体数据，如，抽样调查。

4、经常性调查和一次性调查的区别

二者区别是以调查数据的登记在时间上是否具有连续性为依据。

经常性调查是指一段时期内的流量；一次性调查是指某时点上的存量。

5、采集统计数据的具体操作方法

（1）直接观察法：

调查人员深入现场进行观察、计数、登记、检验等，取得第一手资料。

（2）报告法：

被调查单位依据原始记录、核算资料、清查盘点，填报统计数据。

（3）访问法：

调查者通过口头、邮件、网络、报纸杂志等方式向被调查者采集数据。

（4）问卷法：

利用统一设计的答卷向被调查者采集统计资料。

6、统计数据的误差

统计数据的误差通常是指统计数据与客观现实之间的差距，误差的主要类型有抽样误差和非抽样误差两类。

（1）抽样误差主要是指在样本数据进行推断时所产生的随机误差（无法消除）；

（2）非抽样误差是人为因素造成的（理论上可以消除）

第三章：

数据整理与展示

1、统计数据整理的内容与步骤：

（1）设计整理方案：

主要明确规定出统计分组的方法和要汇总的统计指标与指标体系。

（2）数据审查：

对于通过调查取得的原始数据，应主要从完整性和准确性两个方面去审核。

（3）数据分组：

根据统计研究的要求，按照选定的分组标志，将审核后的原始数据进行分类或分组。

（4）数据汇总与计算：

对分组后的数据进行汇总与计算的方法主要有手工汇总和计算机汇总。

（5）编制统计表、绘制统计图。

2、对分类数据和顺序数据主要是做分类整理，对数值型数据则主要是做分组整理。

3、直方图与条形图的差别：

（1）条形图是用条形的长度表示各类别频数的多少，宽度则是固定的；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度与宽度均有意义。

（2）直方图的各矩形通常是连续排列，而条形图则是分开排列。

（3）条形图主要用于展示分类数据，而直方图则主要用于展示数值型数据。

4、变量分布数列的编制方法

（1）单项式变量分布数列的编制方法

单项数列是把每个变量值作为一组所生成的数列。

例如，某生产组20名工人同种产品日产量如下（单位：

件）:

16131815191417131517

19151718141615161716

这是一个离散型变量，变量值不多、变动范围不大，宜编制单项式变量分布数列。

A.按变量值大小顺序排列：

13131414151515151616

16161717171718181919

B.每种变量值为一组（重复者只取一个）顺序排列：

13141516171819七组

C.列入表中并汇总计算各组频数:

如下表所示，为20名工人的日产量资料：

也可以画图如下：

（2）组距变量数列的编制方法

例如，某班40名学生某科某次考试成绩如下：

54606297855283799580

89857768869370817889

71898085757890667873

82829977888475887680

试编制等距数列。

A.将数据顺序排列，并判断变量性质。

52546062666870717375

76777778787879808080

81828283848585858688

88898989899093959799

变量性质为连续变量，宜编制组距式变量数列。

B.计算全距

全距=最大变量值-最小变量值

该班成绩全距=99–52=47（分）

C.确定组限、组距和组数

组限是指每组的两端变量值，每个组的起点值称为下限，每个组的终点值称为上限。

组距是指上限值与下限值之差，即组距=上限值-下限值

组数是指变量数列应划分为多少个组。

确定组距与祖数的具体方法如下：

所使用的全距最小值应略低于实际资料的最小值，自50分开始，最大值应略高于实际资料最大值，最大值取100分。

则本例全距为100-50=50。

若组距为5,则组数=全距÷组距=50÷5=10（组）

若组距为10,则组数=50÷10=5（组）

本例采用组距为10,组数为5。

D.列表汇总计算

汇总计算要遵循“不重不漏”的原则。

连续型变量数列相邻两组的组限采用“重限分组”的方法，即相邻两组之间的组限用同一个数值标记。

为了处理好恰巧是组限的变量值的总体单位的归属问题，应按“不含上限，含下限”的原则处理。

例如，60分者应归入60～70组中，70者应归入70～80组中，80分者应归入80～90组中，90分者应归入90～100组中。

见下表。

将整理表编制成正式表，如下表所示：

组中值是每组的中点数值，计算方法（上限+下限）÷2。

如，（50+60）/2=55、（60+70）/2=65、（70+80）/2=75、（80+90）/2=85、（90+100）/2=95等。

（3）开口组变量分布数列的编制

若变量值中有特大或特小的极端值出现时，为避免出现空白组或个别极端值被遗漏，最小组和最大组可采用开口组办法解决，即“╳╳以下”、“╳╳以上”。

并以相邻组组距作为其组距。

例如，某班40名学生考试成绩如下：

36566060646464686868

70707575757578787878

78787979797984848585

888889898989959598100

编制等距变量数列如表2-7所示。

两个开口组均用邻组组距，即均为10。

60以下组组中值为：

上限–邻组组距÷2=60–10÷2=55

90以上组组中值为：

下限+邻组组距÷2=90+10÷2=95

5、本节小结

第四章：

统计数据的显示

统计数据的显示方法有表格法与图示法两种形式。

一、统计表

1、统计表的概念

将汇总得到的统计数据按一定顺序排列在表格中，这种表格称为统计表。

2、统计表的结构

（1）形式上：

总标题、横行标题、纵栏标题、数字资料。

（2）内容上：

主词栏、宾词栏。

3、统计表的分类

（1）按作用分类：

调查表、汇总表（整理表）、分析表

（2）按主词分类：

简单表、分组表、复合表

（3）按宾词分类：

简单排列、分组排列、层叠排列。

4、按主词分类示例

（1）简单表

●主词未经分组，只排列空间顺序。

例如：

某年某进出口公司商品收购计划完成情况（单位：

万元）

●主词按时间顺序排列的简单表。

例如：

某年某企业增加值统计表（单位：

百万元）

（2）分组表

分组表：

主词只按一个标志分组的统计表。

例如：

某年全社会固定资产投资统计表

（3）复合表

主词按两个或两个以上标志分组的统计表，如在校人数统计表：

在复合分组表中设计横行标题时，应在第一次分组的各组组别下退一、二字填写第二次分组的组别，此时第一次分组的组别就成为第二次分组的个组小计。

若需再进行第三、四次分组，均可按此类推。

例如：

5、按宾词分类示例

（1）简单排列

宾词不加任何分组，按项目或时间排列。

如：

某地区工业企业主要经济指标统计表

（2）平行排列

宾词各栏平行设计，如：

各地社会商品零售总额统计表（单位：

亿元）

再如，某商厦三个商场职工性别和年龄构成统计表

（3）层叠排列

两个或两个以上标志分组后上下层叠起来列示。

例如：

1998-2002年农村劳动力分布情况

二、统计图

利用几何图形或具体形象来显示统计数据，按表现形式分为几何图、象形图、统计地图等形式。

第五章总体变量分布特征描述

1、什么是统计绝对数？

它是表明总体规模的绝对数量，即表明现象大小多少的总量，在社会经济统计中称为总量指标。

统计绝对数多是在试验、调查和整理中直接获得，也有一些是间接或推算得到。

统计绝对数是统计描述的基础数据，是从数量上认识客观事物的起点数据，又是计算统计相对数与统计平均数的基础数据。

在运用统计绝对数时，应注意正确使用计量尺度和计量单位以及准确界定被研究对象的总体范围和口径。

2、统计绝对数分为哪几类？

（1）按其描述对象不同可分为：

总体单位总数和标志值总量

●总体单位总数即单位总量，指总体内所包含的单位总数。

●标志值总量即标志总量，指总体内所有单位上标志值总和。

例如：

某生产组25名工人日产量资料

（2）按时间状况分为：

时期性总量（流量）和时点性总量（存量）

●时期性总量：

指一段时间内的总量

●时间性总量：

指某一时点上的总量

（3）按计量单位分：

实物总量、价值总量、劳动时间总量

3、统计绝对数的计量单位有哪些？

A.实物单位

实物单位是根据事物的自然属性和物理属性度量其数量的计量单位，常用的有：

●自然单位。

是按照现象的自然状态来度量其数量的计量单位。

例如，人口用“人”、牛用“头”、汽车用“辆”等计量单位。

●度量单位。

是指国家度量衡制度统一规定的计量单位。

例如，重量用“吨”、“克”表示；长度用“公里”、“米”等表示；面积用“平方米”、体积用“立方米”等表示。

●复合单位。

是指两种单位结合而成的计量单位。

例如，发电量用“千瓦时”表示；货运量用“吨公里”表示等等。

●双重或多重单位。

是指同时采用两种或两种以上计量单位表明某一事物的数量。

例如，电动机用“千瓦/台”表示；拖拉机用“马力/台”表示；船舶用“艘/马力/吨”表示等等。

B.货币单位

是用货币来表示的计量单位。

例如，我国用人民币元、角、分为计量单位；国际用美元、欧元、日元等表示。

C.劳动时间单位

是用劳动时间来表示的计量单位。

例如，工日、工时等。

1个工人工作1小时叫做1个工时，8个工时为1个工日。

4、一组数据的分布特征可以从哪几个方面进行测度？

（1）一是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度；

（2）二是分布的离散程度，反映各数据据远离其中心值的趋势；

（3）三是分布的形状，反映数据分布偏斜程度和峰度。

5、变量分布集中趋势指什么？

集中趋势描述的实质是：

找出变量值的集中点或中心值。

常用方法有：

算术平均数、几何平均数、中位数和众数等。

6、变量分布离中趋势指什么？

均值是描述变量分布集中趋势，标准差是描述变量分布离中趋势，两者相辅相成共同反映变量分布特征的一对对立统一的代表值。

描述离中趋势的代表值常用的有：

极差、标准差和离散系数等。

（具体见第12点之后的介绍）

7、为什么要计算离散系数？

（1）极差、平均差、方差和标准差等都是反映数据分散程度的绝对值，其数值的大小取决于原变量值本身水平高低的影响。

（2）它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同。

因此，为消除变量值水平高低和计量单位不同对离散程度的测度值的影响，需要计算离散系数。

8、各类数据离散程度的表示方法

（1）对于分类数据，主要用异众比率来测度其离散程度；

（2）对于顺序数据，主要用四分位差来测度其离散程度；

（3）对于数值型数据，主要用方差或标准差来测度其离散程度。

9、算术平均数的概念

算术平均数是测定集中趋势最常用的代表值，它是同质总体内某类变量所有变量值的平均数。

它的实质是把同质总体中各单位变量值的差异（离差）正负相互抵消后反映变量集中趋势中心点的代表值。

因此，统计平均数是对变量数列围绕中心值分布状况的一种统计描述。

例如：

绘制成线段图:

甲数列集中程度大，乙数列离散程度大。

显然，变量的离散趋势大集中趋势低如乙数列；离散趋势小集中趋势高如甲数列。

10、算数平均的分类

（1）简单算数平均

（2）加权算数平均

加权算数平均分为：

●根据单项变量分布数列计算算术平均数

例如：

某生产组10名工人生产甲产品，日产量分组资料见下表，试计算工人平均日产量

计算表明，平均日产量26件趋近工人数最多即频数最大的那个变量值30件。

由上例可以看出，用分组数据计算平均数，平均值的大小受两个因素影响：

一个是各组变量值x,另一个是各组次数即频数f的影响。

当各组变量值x不变时，各组次数即频数f对平均值的大小起着权衡轻重的作用。

因此，次数f称为权数，这种方法称为加权算术平均法。

权数不仅可以用绝对数f表示，也可用相对数即频率f/Σf表示。

即：

仍以上表为例，

●根据组距式变量分布数列计算加权算术平均数

若掌握组距数列资料，计算方法是：

先计算组中值xi,然后再按上述方法计算加权算术平均数。

A.计算组中值：

缺下限组组中值=上限–邻组组距/2=400–100/2=350（件）

缺上限组组中值=下限–邻组组距/2=800–100/2=850（件）

上下限齐全组组中值=（上限+下限）/2=（500+400）/2=450（件）

B.计算平均数

综上，简单算术平均数与加权算术平均数之间没有根本区别，因为一个变量值乘上一个频数（权数）与多次加总同一个变量值是意义相同的。

它们的基本公式都是相同的：

算术平均数=变量值总量/单位总量

11、几何平均数

（1）几何平均数的概念

（2）几何平均数的计算

（3）计算时应该注意的问题

（4）几何平均数的特点

（5）主要用途

计算几何平均数要求各观察值之间存在连乘积关系，主要用来：

●对比率、指数等进行平均

●计算平均发展速度：

平均发展速度反映现象在一定时期内逐期发展变化的一般程度，这个指标在国民经济管理和统计分析中有广泛的应用，是编制和检查计划的重要依据。

还可以用于一个国家或地区不同阶段发展状况的比较，以及同一时期不同国家或地区发展状况的比较。

其中：

样本数据非负，主要用于对数正态分布。

12、简述众数、中位数和均值的特点和应用场合及关系。

（1）众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。

众数主要作为分类数据的集中趋势测度值。

（2）中位数是一组数据中间位置上的代表值，不受数据极端值的影响。

中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。

（3）均值是就数值型数据计算的，具有优良的数学性质，缺点是易受数据极端值的影响。

均值主要适合于作为数值型数据的集中趋势测度值。

均值是集中趋势的最主要测度值，它主要适用于数值型数据，而不适用于分类数据和顺序数据。

关系：

如果数据的分布是对称的，众数、中位数和均值必定相等，即Mo=Me=xbar；如果数据是左偏分布，说明数据存在极小值，三者之间的关系表现为：

xbar＜Me＜Mo；如果数据是右偏公布，说明数据存在极大值，必然拉动均值向极大值一方靠，则Mo＜Me＜xbar（图）

13、极差

极差也称全距，是变量值中最大值与最小值之差。

用公式表示为：

全距（R）=最大变量值-最小变量值。

如：

甲数列：

68、69、70、71、72，R=72-68=4

乙数列：

50、60、70、80、90，R=90-50=40

组距数列计算全距：

全距（R）=最高值组上限值-最低值组下限值。

例如：

40名工人日产量资料

全距R=100-50=50（件）

用极差评价变量的离散状况：

极差值越小表明变量值离散范围小，离散程度小，变量值集中，平均数代表性大；极差值越大，表明变量值离散范围大，离散程度大，变量值分散，平均数代表性小。

极差值对极端值反映灵敏。

14、方差和标准差

方差和标准差是最重要、最常用的离中程度的度量方法，多用于以算数平均数为集中趋势度量的场合。

方差是各变量值与其均值离差平方的平均数。

15、标准差

标准差是方差的平方根。

标准差可以概括地、直接地、平均地描述变量发布的离散程度，是各变量值xi距离它们的平均数远近的一种尺度。

概率论指出，在正态分布中68%的变量值分布在距离平均数一个σ值的范围内，95%的变量值分布在距离平均数两个σ值的范围内，其余的5%远离平均数。

（1）简单式标准差：

计算示例：

甲组：

乙组：

计算表明，乙组比甲组标准差小，则乙组比甲组离中程度小，即乙组变量值分布范围比甲组集中，乙组平均数代表性大。

（2）加权式标准差：

计算示例：

单项数列的标准差计算

计算公式如下：

再如：

组距变量数列标准差计算

16、离散系数

若研究的总体不同，或计量单位不同，或平均数相差悬殊，它们离中趋势的绝对数是不可以比较的。

为此，要计算离中趋势的相对数，即离散系数。

离散系数有几种，常用的是标准差系数，它是标准差除以平均数表明每单位平均数的离散程度，用百分数表示，是变量分散性的相对程度度量。

标准差系数常用字母“Vσ”表示，计算公式为：

例如，

（1）比较总体相同，计量单位不同两组变量数列的离散程度

某市6岁男童体重与身高资料如下：

平均数标准差

体重：

19.39千克2.16千克

身高：

115.87厘米4.86厘米

计算表明体重变异大于身高变异。

（2）比较计量单位相同平均数差异大的两组变量的离散程度。

下表是成人组身高标准差计算表（单位：

厘米）

下表是幼儿

展开阅读全文