4c27222df505cc1755270722192e453611665b99.docx

上传人:b****8 文档编号:30589987 上传时间:2023-08-18 格式:DOCX 页数:83 大小:1.85MB
下载 相关 举报
4c27222df505cc1755270722192e453611665b99.docx_第1页
第1页 / 共83页
4c27222df505cc1755270722192e453611665b99.docx_第2页
第2页 / 共83页
4c27222df505cc1755270722192e453611665b99.docx_第3页
第3页 / 共83页
4c27222df505cc1755270722192e453611665b99.docx_第4页
第4页 / 共83页
4c27222df505cc1755270722192e453611665b99.docx_第5页
第5页 / 共83页
点击查看更多>>
下载资源
资源描述

4c27222df505cc1755270722192e453611665b99.docx

《4c27222df505cc1755270722192e453611665b99.docx》由会员分享,可在线阅读,更多相关《4c27222df505cc1755270722192e453611665b99.docx(83页珍藏版)》请在冰豆网上搜索。

4c27222df505cc1755270722192e453611665b99.docx

统计方法在税收分析中的应用

 

统计方法在税收分析中的应用

目 录

第一节统计学概述——知识准备

一、统计学的定义

二、数据处理

(一)统计数据的类型

(二)数据预处理的基本步骤

三、统计推断的基本原理介绍

(一)几个基本概念

(二)区间估计

(三)假设检验

四、相关分析与方差分析

(一)相关分析与偏相关分析

(二)方差分析

第二节税收收入运行的统计学分析

一、税收收入运行的经济性

(一)描述统计量

(二)相关性分析

(三)税收随GDP增长的弹性

二、税收收入的内在增长趋势

(一)税收收入运行随时间变动的趋势

(二)税收增长率分析

三、税收收入运行的季节性

四、其他常用税收分析方法

(一)税源质量的效能位差分析

(二)同业税负分析

第三节多元统计分析方法

一、聚类分析

(一)定义

(二)聚类的基本步骤

(三)实例:

部分国家税收加社保负担率聚类分析

二、主成分分析法和因子分析法

(一)主成分分析法

(二)因子分析法

第四节回归分析

一、基本原理

(一)一元回归模型

(二)多元回归模型

二、模型的基本假设和特殊情况处理

(一)古典回归模型的假设

(二)模型的检验统计量

(三)几种特殊情况及处理方法

第五节指数

一、加权综合指数

(一)拉氏价格指数

(二)帕氏价格指数

(三)加权平均指数

二、常用价格指数

(一)消费者物价指数的定义

(二)消费者物价指数的作用

三、多指标综合评价指数的构建

第六节常用统计分析软件简介——SPSS和EVIEWS应用实例

一、描述统计量

二、相关性分析

三、图表演示

四、回归分析

五、预测

六、时序模型——季节性差分

附:

EXCEL软件数据分析功能的应用

第一节数据整理

第二节图表功能

一、柱形图

二、散点图

三、折线图

第三节分析功能

一、抽样

二、描述统计

三、相关系数

四、回归

五、移动平均

参考书目

第一节统计学概述——知识准备

一、统计学的定义

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,在多个科学领域有着日益重要的地位。

统计学分为描述统计、推断统计、理论统计和应用统计。

统计学是与数据打交道的学科,包括数据收集、数据处理和数据分析。

数据收集也就是取得统计数据,这是一切统计分析的立足点;数据处理是将数据用图表等形式展示出来,是数据特征的直观反映;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论,这是对数据的精细加工,数据分析的方法宜适当,应能说明问题。

数据分析所用的方法可分为描述统计和推断统计。

描述统计是指用图形、表格和数值方法来汇总数据的统计学。

目的在于描述数据的统计特征,找出数据的基本规律。

推断统计是指以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理方法。

二、数据处理

(一)统计数据的类型

1、定性数据和定量数据

分类数据是指归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为文字表述的类别。

例如,人口按性别分为男、女两类。

顺序数据是只能归于某一有序类别的非数字型数据,如考试成绩分为优、良、及格、不及格等。

数值型数据是按数字尺度测量的观测值,其结果为具体数值。

分类和顺序数据统称为定性数据或品质数据;数值型数据可称为定量数据或数量数据。

2、截面数据和时间序列数据

横截面数据:

在同一时刻或几乎同一时点所收集到的数据。

如:

多个企业当年利润总额、实缴税收、税负水平等。

时间序列数据:

在若干个连续时点内所收集到的数据。

如:

2000年-2005年每年福建省地方税收收入等。

区分数据类型十分重要,因为对不同类型的数据应用不同的统计方法来处理。

比如:

对分类数据我们通常计算出各组频数或频率,计算其众数和异众比率,进行列联表分析和

检验等;对于顺序数据可以计算其中位数和四分位差,计算等级相关系数;对于数值型数据可以用更多的统计方法进行分析,计算各种统计量、进行参数估计和检验等。

对于横截面数据可以计算集中度和离散度、进行聚类和主成分分析等;对于时间序列数据可以计算时间趋势,建立预测模型进行预测等。

(二)数据预处理的基本步骤

1、数据收集

数据收集是一切统计工作的基础,搜集数据的方法有多种,可以采用统计报表、典型调查、重点调查或抽样调查。

(1)统计报表制度

指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度。

优点:

能保证统计资料的全面性和连续性,能保证统计资料的统一性和及时性,能满足各级部门对统计资料的需要。

缺点:

统计报表过多会增加基层负担,有可能由于虚报瞒报而影响统计资料质量。

如:

月度税收会统报表等。

(2)普查

指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查

优点:

可以为抽样调查提供抽样框,可以收集统计报表所不能提供的反映重大国情国力的基本统计信息。

缺点:

由于需要大量的人力、物力和财力,不宜经常进行。

如:

经济普查、税源普查等。

(3)重点调查

为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式

优点:

能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料。

缺点:

只适用于客观存在着重点单位的情况。

如:

重点税源监控等。

(4)典型调查

在对调查对象有一定了解的基础上,有意识地选择少数典型单位进行调查的一种非全面调查组织方式。

优点:

一定条件下能估计总体指标数值,可以补充全面调查的不足,可以用来研究新生事物。

缺点:

不能确定推断的把握程度,无法计算和控制推断误差。

如:

税源典型性个案分析。

(5)抽样调查

按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。

优点:

按随机原则抽取样本单位,目的是推断总体的数量特征,抽样误差可以事先计算并控制。

能用较少的人力、物力和时间达到全面调查的目的,调查资料的准确性较高、受人为干扰的可能性较小。

应用较广,为统计调查的发展方向。

2、数据整理:

数据整理是指将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程。

(1)数据审核:

从完整性和准确性两方面审核数据。

(2)数据筛选:

当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。

(3)缺失数据处理:

在样本数据中,可能出现部分数据点缺失或个别数据点异常波动的情况,几种处理不完备数据集的方法:

()删除元组

()数据补齐——平均值填充、众数填充。

()回归——基于完整的数据集,建立回归方程模型,将已知属性值带入方程来求未知属性值。

(4)数据排序:

指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势。

也对进一步数据重新归类或分组提供方便。

(5)数据分组:

数据分组是根据统计研究需要,将原始数据按照某种标准划分成不同组别,分组后的数据称为分组数据。

其目的在于观察数据的特征。

()几个基本概念

频数:

落在各类别中的数据个数。

组距:

一个组上下限间的差。

组中值:

每一组中上下限值的中间值。

开口组组中值=上(下)限+(-)邻组组距/2

极差:

一组数据最大值和最小值之间的差,也称全距。

众数

一组数据中出现次数最多的变量值,用于测度分类数据的集中趋势。

中位数

指一组数据排序后处于中间位置上的变量。

设一组数据为

,按从小到大排序后为

,则中位数为:

平均数:

是集中趋势的主要测度值

A、简单平均数

B、加权平均数

,其中

即样本量。

C、几何平均数

()常用分组方法——组距分组

将变量值的一个区间作为一组,适合于连续变量和变量值较多的情况,分组区间需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组。

分组步骤:

确定组数:

根据Sturges提出的经验公式得组数K为:

,n为样本数。

计算组距:

组距=极差/分组数

确定组限,编制频数分布表。

三、统计推断的基本原理介绍

(一)几个基本概念

1、概率与概率分布

(1)概率:

随机试验或观察中,某种事件或结果(随机事件)出现的可能性,称为概率。

基本性质:

非负性0≤P(A)≤1,即事件发生的概率介于0和1之间。

正则性P(Ω)=1,即所有事件发生的概率之和恒为1。

(2)概率分布:

如果有某种形式能够表现出随机变量的取值及其概率,则称这种形式为随机变量的概率分布。

连续型随机变量的概率分布

,其中为密度函数。

2、集中度和离散度

(1)样本均值:

为样本中各观测值的平均数。

为样本观测值,

为频数。

n为自由度,为样本数据-1。

(2)离散度指标

()样本方差:

为样本观测值,

为频数。

()样本标准差s:

为样本方差的平方根。

()离散系数:

为一组数据的标准差与其相应平均数的比。

注意:

方差和标准差均是反映数据分散程度的绝对值,而离散系数是测度数据离散程度的相对统计量,消除量纲的影响,可直接用于不同样本间离散程度的比较。

()偏斜度:

反映以平均值为中心的不对称程度,正偏斜度表示不对称部分的分布更趋向正值,负偏斜度表示不对称部分的分布更趋向负值。

在EXCEL中用SKEW()函数求值。

()峰度表述分布的尖端程度,其中代表正态分布的为常峰态。

正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。

在EXCEL中用KURT()函数求值。

3、抽样与抽样分布

(1)抽样

()定义

抽样即从总体中按一定原则抽取样本。

优点:

以样本特征推断总体,简单,方便。

主要的抽样方法有:

简单随机抽样,分层抽样,整群抽样、系统抽样,多阶段抽样。

()抽样平均误差指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差。

抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。

抽样误差可以控制但不可避免。

()影响抽样误差的因素:

A、总体各单位的差异程度(即标准差的大小):

标准差越大,抽样误差越大;

B、样本单位数的多少:

样本单位数越大,抽样误差越小;

C、抽样方法:

不重复抽样的抽样误差比重复抽样的抽样误差小;

D、抽样组织方式:

简单随机抽样的误差最大。

(2)几个主要的抽样分布

(2.1)正态分布N(

标准正态分布变换

通过上述公式可将一般正态分布转化为标准正态分布N(0,1),再通过查标准正态分布即可求得X的概率。

中心极限定理:

设X1,X2,…,Xn是n个相互独立同分布的随机变量。

在一定条件下,它们的样本均值服从正态分布,即:

根据中心极限定理,独立同分布的样本,在大样本的情况下,近似服从正态分布,可以用正态分布的特征来研究样本特征。

()t分布

,此为自由度为n-1的t分布。

应用:

当抽样的样本容量为小样本(n<30)时,抽样分布即为t分布。

t分布与正态分布一样是单峰偶函数,但t分布的尾部更厚,即方差更大一些。

()2分布

样本方差除以总体方差的n-1倍的分布是自由度为n-1的2分布。

应用:

2分布在研究样本方差分布特征和信度区间等方面有重要的价值。

()F分布

独立,记

,则F服从参数为m和n的F分布,记为F(m,n)。

性质:

当F为F(m,n),则1/F为F(n,m)。

当T为t(n),则

为F(1,n)

应用:

可用于检验线性回归模型的显著性和异方差。

(二)区间估计

区间估计指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。

一个正态总体的区间估计

设总体

∽N(

),

的样本,现讨论

的区间估计。

1、均值

的区间

已知,则置信区间为:

其中称抽样平均误差

为置信度,n为样本容量

为正态分布的右侧

分位数

未知,由于样本的方差

为总体方差

的最优无偏估计,所以可用

代替

置信区间为:

其中

为t分布t(n-1)的下侧

分位数

2、方差

的区间估计

置信区间为(

其中

分布的分位数。

可据此对一定置信度内,抽样样本容量进行推断。

(三)假设检验

假设检验是指在总体分布或参数未知情况下,提出某些关于总体分布或参数的假设,然后根据样本资料对所提出的假设进行检验,并作出判断。

假设检验的依据:

小概率定理。

正态总体均值的假设检验

为总体

的样本,

为未知参数。

已知,对

可提出以下假设:

(1)

(2)

(3)

(4)

(5)

(6)

其中

(1)、(4)和(6)三种情况较为常见,以下我们介绍

(1)和(4)两种假设检验,(6)的处理方法类似于(4)。

关于

(1):

的拒绝域为

关于(4):

的拒绝域为

正态总体方差的假设检验

为总体

的样本,

为修正样本方差。

未知时,

假设

(1)

(2)

(3)

关于

(1):

的拒绝域为

关于

(2):

的拒绝域为

关于(3):

的拒绝域为

四、相关分析与方差分析

(一)相关分析与偏相关分析

相关分析研究现象之间相互关系的密切程度,求得相关系数。

1、相关分析

相关系数

 

检验统计量t

2、偏相关分析

偏相关分析是用于衡量在多变量情况下,变量之间的相关关系。

与简单相关分析不同的是,偏相关分析要对其他变量的影响进行控制,以考察两个变量之间的净相关关系。

(二)方差分析

方差分析是检验两个样本或多个样本的均值间差异是否有统计意义。

假定:

总体同方差,服从正态分布。

各样本总方差:

各样本联合方差:

g为样本组数,n为每组样本个数,

为每组均值,

为总体均值。

检验统计量

>

时,总体均值间存在差异。

在实际工作中,方差分析过程常用方差分析表来表现,众多统计分析软件都可直接生成方差分析表,而常用的EXCEL软件,在数据分析的分析工具选择中就提供了单因素方差分析、可重复双因素方差分析、无重复双因素方差分析三种选择。

第二节税收收入运行的统计学分析

一、税收收入运行的经济性

税收收入来源于经济性税源,税收与经济运行有较强的正相关性。

表:

1994-2006年福建省地方税收收入和GDP表(单位:

亿元)

年份

GDP

税收收入

1994

1644

44

1995

2146

56

1996

2560

70

1997

2975

91

1998

3287

102

1999

3550

115

2000

3765

130

2001

4073

159

2002

4468

173

2003

4984

202

2004

5763

244

2005

6569

284

2006

7502

366

从图中可以看出,税收收入和GDP成正相关关系,2001年和2006年是两个跳跃点,将曲线大致分为三段。

(一)描述统计量

根据此表可知税收收入和GDP的95%置信区间,并可进行离散系数分析。

税收收入的离散系数为:

=

GDP的离散系数为:

=

二者的离散系数都比较大,数据波动比较明显。

(二)相关性分析

税收收入和GDP相关系数为,存在正相关性。

也可进行偏相关分析,计算在税收收入与GDP和年份两变量都相关的条件下,通过控制其中一个变量的干扰,判断另两变量间的相关关系。

如控制时间变量后,税收收入和GDP的偏相关系数为,仍存在明显正相关。

(三)税收随GDP增长的弹性

税收的GDP弹性定义为一定时期内,税收变动对于GDP变动的关系。

弹性分为点弹性和线弹性。

点弹性指当GDP增长一个百分点时,税收变动的百分比。

线弹性指两个经济变量存在函数关系时,函数曲线的斜率。

对数税收和对数GDP的回归系数近似为税收线弹性。

如下图:

Y=平方为,系数即为1994-2006年税收对GDP的线弹性。

注意:

由上述关系图可以看出2001年和2006年为明显跳跃点,若要更精确的求出弹性,应将时期分成三个阶段分别求弹性。

二、税收收入的内在增长趋势

(一)税收收入运行随时间变动的趋势

税收收入的运行除了具有和经济变量密切相关的特点外,其序列本身也具有随时间变化的内在规律性。

税收收入随时间变化的走势图如下:

对图中指数模型取对数,可以得到:

对数税收=年份

此为半对数模型,根据半对数模型的特点,税收的增长率为%。

也可选择外推的时期数,作粗略预测。

(二)税收增长率分析

1、增长率:

也称增长速度,它是时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。

由于对比基期的不同,增长率可以分为环比增长率和定基增长率。

环比增长率是报告期观察值与前一时期观察值之比减1,说明现象的逐期增长变化程度;定基增长率是报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。

环比增长率:

定基增长率:

平均增长率:

也称平均增长速度,它是时间序列中逐期环比值(也称环比发展速度)的几何平均数减1后的结果,计算公式为:

表示平均增长率,n为环比个数。

2、增长率分析中应注意的问题:

对于大多数时间序列,特别是有关社会经济现象的时间序列,经常利用增长率来描述其增长状况,尽管增长的计算和分析都比较简单,但在实际工作中仍应注意不误用和滥用,不能单纯就增长率而论,应与绝对水平结合分析。

3、平均增长率的计算实例

实例:

2001-2004年某省税收收入增长分别为11%、12%、13%和14%,要求计算这4年税收收入的平均增幅。

实例:

某省2001年税收收入159亿元,2006年税收收入亿元,求该省这几年的税收收入平均增幅。

三、税收收入运行的季节性

年度税收数据序列有明显的随时间增长的特征,而月度税收波动则呈现出一大月二小月交错分布,具有明显的季节性。

2002年1月-2007年7月的全省月度税收走势图如下:

对于此类波动数据类型,应选用季节性差分模型进行处理。

四、其他常用税收分析方法

(一)税源质量的效能位差分析

效能位差法化绝对指标为相对指标,可以简便直观的分析纳税能力和税源质量的关系。

可用于结合税源状况,对征管效率进行评估。

1、实例:

六区域税源质量分析

税源质量综合指数测算表

地区

排序

盈利比例(%)

利润率(%)

户均盈利

增值率(%)

税源质量指数

合计/平均

0

1

西北

5

华北

6

西南

2

中南

4

东北

3

华东

1

税收效能位差测算表

地区

企业户数

税源质量指数

排序

税负(%)

排序

效能位差

合计/平均

25339

1

0

0

0

西北

3957

5

2

3

华北

6250

6

4

2

西南

1830

2

1

1

中南

7945

4

3

1

东北

2243

3

6

-3

华东

4451

1

5

-4

2、税源质量指数的计算方法:

计算各项指标的平均值,填入合计/平均行。

将各指标值除以各自对应列的平均值得出各项指数,求各项指数的平均值,即得税源质量指数。

3、效能位差的计算方法:

根据各地区税源质量指数排序,再根据各地区税负排序,将税源质量指数排序值减去同行的税负排序值,差值即为效能位差。

(二)同业税负分析

1、定义

行业税负:

某一行业税收总量与税源总量之间的比例关系,是一项反映行业税收经济关系的数据指标。

它可以是一个行业所有税收总量负担的概念,也可以是该行业一个税种总量负担的概念。

同业税负:

同一行业税收负担形成过程中所表现出的税收与经济的一系列相关关系,包括个体与整体的相关关系,个体之间的相关关系,以及由这一系列关系所反映出的行业税收经济关系的规律特征。

同业税负分析理论依据——可比性。

同业税负分析的目的:

强化税负分析的可比性;建立行业税负客观标准;寻找地区差异、评价征收力度;为建立税负预警系统提供理论基础和数据支持。

营业税同业税负分析指标:

准予扣除率、计税收入比、应交税负、实交税负。

企业所得税同业税负分析指标:

赢利企业比例成本费用率、经营利润率、内外资企业分赢利规模的计税所得额与利润总额的比例、内外资企业分赢利规模应交税负、内外资企业分赢利规模实交税负。

征收力度是以各行业的实际税负水平在全国各行业相对位置的积分表示。

2、同业税负的分析方法

(1)计算同业税负

TB为税负,TAX为税收,CR为计税收入,i为地区,j为行业。

j行业税负水平

计算税负相对值

综合征收力度

(2)税负预警模型

计算行业税负的平均值:

计算行业税负的离散度。

标准差

离散系数

一个行业的税负标准差和离散系数越大,说明这个行业的税收征管情况越复杂。

计算税负预警线。

时,税负预警上下限=

时,税负预警上下限=

和1均为经验值。

(3)实例:

2006年上半年全国重点企业税收负担预警分析

对2006年上半年重点税源企业税收负担(比率)进行分析,比率标准差为,均值为,离散系数为<,所以此例中比率预警线为+(-),即上线为,下线为。

注意:

此处税收负担并非同业税负,亦可使用同业税负数据实现该分析。

第三节多元统计分析方法

一、聚类分析

(一)定义

聚类分析是利用样本的多变量条件,通过数理统计,对属性相近的数据聚类,根据聚类的量度和方向予以定性,是根据对象特征进行“物以类聚”的方法。

分为系统聚类,动态聚类等。

假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为

距离和相关系数均可以衡量样品间的接近程度。

欧氏距离:

相关系数:

(二)聚类的基本步骤:

1、将n个样品各作为一类;

2、计算n个样品两两之间的距离,构成距离矩阵;

3、合并距离最近的两类为一新类,计算新类与当前各类的距离;

再合并、计算,直至只有一类为止;

4、画聚类图,决定分类个数和类。

(三)实例:

部分国家税收加社保负担率聚类分析

1、单指标聚类

将2004年部分OECD国家的税收加社保负担率(taxrevenue+socialcontribution)用SPSS软件进行聚类分析,操作步骤:

SPSS下选数据分组,聚类,系统聚类,做出聚类图。

2004年,中国税收加社保负担率为%,由聚类结果可以看出,我国的税收加社保负担率在第一层次聚类分组中,与智利、墨西哥、泰国等国家同属一类,在第二层次聚类分组中与智利、墨西哥、泰国、新加坡和巴基斯坦同属一类。

税收加社保负担率水平在第一层次聚类七大分组中,列为第二低值组,仅高于新加坡和巴基斯坦所在的分组;在第二层次聚类四大分组中,列为最低值组。

据此推断,我国的税费负担水平与福布斯公布的税负痛苦指数位次不符,我国税收加社保负担率在所比较的OECD国家中应属于较轻水平。

2、双指标聚类

以两组指标分别为X和Y轴,做散点图,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 电大

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1