统计分析基础知识docWord格式.docx

资源描述

统计分析基础知识docWord格式.docx

《统计分析基础知识docWord格式.docx》由会员分享，可在线阅读，更多相关《统计分析基础知识docWord格式.docx（13页珍藏版）》请在冰豆网上搜索。

统计分析基础知识docWord格式.docx

即该函数在（-8，+*的积分为1

线性函数转换如下

y=（x-MinValue）/（MaxValue-MinValue）

说明：

x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最

小值。

（x-min）/（max-min）

这样所有的数据都归一化为0到1之间的数了

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，

成为纯量。

归一化是为了加快训练网络的收敛性，可以不进行归一化处理

归一化的具体作用是归纳统一样本的统计分布性。

归一化在0-1之间是统计的概率分

布，归一化在-1--+1之间是统计的坐标分布。

归一化有同一、统一和合一的意思。

无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统

计分别几率来进行训练（概率计算）和预测的，归一化是同一在0-1之间的统计概率分

布;

SVM是以降维后线性划分距离来分类和仿真的，因此时空降维归一化是统一在-1--

+1之间的统计坐标分布。

归一化是因为sigmoid函数的取值是0到1之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。

所以这样做分类的问题时用[0.90.10.1]

就要比用要好。

但是归一化处理并不总是合适的，根据输出值的分布情况，标准化等其它统计变换方法

有时可能更好。

主要是为了数据处理方便提出来的，把数据映射到0〜1范围之内处理，更加便捷快速，

应该归到数字信号处理范畴之内。

归一化方法（NormalizationMethod）

1。

把数变为（0,1）之间的小数主要是为了数据处理方便提出来的，把数据映射到0〜1范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。

2。

把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

比如，复数阻抗可以归一化书写：

Z=R+j3L=R（1+j3L/R），复数部分变成了纯数量了，没有量纲。

标准化方法（NormalizationMethod）

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。

关于神经网络（matlab）归一化的整理

关于神经网络归一化方法的整理

由于采集的各数据单位不一致，因而须对数据进行[-1,1]归一化处理，归一化方法主

要有如下几种，供大家参考：

（byjames）

1、线性函数转换，表达式如下：

y=（x-MinValue）/（MaxValue-MinValue）

x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小

值。

2、对数函数转换，表达式如下：

y=log10（x）

以10为底的对数函数转换。

3、反余切函数转换，表达式如下：

y=atan（x）*2/PI

布，归一化在-1~+1之间是统计的坐标分布。

归一化有同一、统一和合一的意思。

无论

是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统

计分别几率来进行训练（概率计算）和预测的，归一化是统一在0-1之间的统计概率分布；

当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致学习速度很慢。

为了避免出现这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0或与其均方差相比很

小。

归一化是因为sigmoid函数的取值是0到1之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。

所以这样做分类的问题时用[0.90.10.1]

就要比用[100]要好。

MATLAB归一化方法

你在所有的数据中找出最大的那个数max

可以用matlab的max函数

在所有的数据中找出最小的那个数min

可以用matlab的min函数

如果是Origin，那么选中要归一化的数据列，点击右键，在弹出的对话框中选

择Normalize

在excel表格中如何对数据进行归一化处理

比如对A1到A10中的是个数进行归一化处理，就是分别计算每个数占这是个数这和的百

分比，可以用公式计算，不是很难，例如：

在单元格B1中输入“=A1/sum（$A$1:

$A$10）"

点击B1右下角的黑十字下拉到B10放开鼠标，b列的结果就是你要的归一化结果。

数据

多的话只需改动公式中sum函数的引用位置，女口A列有100个数，B1中改为”=A1/sum

（$A$1:

$A$100）“

下面我们来看一组数据，并检验期初平均分”数据是否呈正态分布（此数据已在SPSS里输入好）

Xff?

）Ml'

鼻El，界R1ft.卢执歸H-r（Bfl;

：

X*皿131甲目加

tflaiaiglmi-rirlGiiin寻剛

gjr猪迂眾初尹也I亢町理（立玄毘叵

（JtfW>

劳N«

（Mff>

在SPSS里执行分析一>

描述统计一>

频数统计表”菜单见下图，英文版的可以找到相应位置），然后弹出

左边的对话框，变量选择左边的期初平均分”再点下面的图表”按钮，弹岀图中右边的对话框，选择

直方图”并选中包括正态曲线”

⑴

1阴表◎

工具⑪窗口⑩

帮肋QP

报吿迥

描述貌计⑥

频数另布叢匡）...

表務⑴

描述眾计分靳01）..

均值比较⑩

探索另析嵐”

一般线性模型©

交究壷◎

■-

讒合複型（X）

比率W-

相共分析&

►

bU.ULI

b/.5

回归分靳0）

75QQ

73.5

裁數踱性（Q）

10.00

36.5

聚类分析Q）

63.00

70.5

敬据缩减Q）

63.DQ

51.5

尺廈分斬@）

■

81.00

79.5

设置完后点确定”就后会岀来一系列结果，包括2个表格和一个图，我们先来看看最下面的图，见下图，

Histogram

过一

上图中横坐标为期初平均分，纵坐标为分数岀现的频数。

从图中可以看岀根据直方图绘岀的曲线是很像正态分布曲线。

如何证明这些数据符合正态分布呢，光看曲线还不够，还需要检验：

检验方法一：

看偏度系数和峰度系数

我们把SPSS结果最上面的一个表格拿出来看看（见下图）:

期初平均分

v^iid

Missing

Mean

61373

Std.Deviation

12.8639

Skarnsss

-333

Std.ErrorofSkewness

Kurlnsis

.966

Std.ErrorofKurtosis

.493

Minimum

15.Q

Maxirnunn

91.a

偏度系数Skewness=-0.333;

峰度系数Kurtosis=0.886;

两个系数都小于1，可认为近似于正态

分布。

检验方法二：

单个样本K-S检验

期初平均

在SPSS里执行分析一＞非参数检验一＞单个样本K-S检验，弹岀对话框，检验变量选择

频率表（教育程度）

分”检

验分布选择正态分布”然后点确定

检验结果为:

One-SampleKoliiioymnv-SiikiinwT◎軾

忖

NormalParanieters^it

61.378

12.0630

MostExtreme

Absolute

.05C

Differences

Positive

.044

Megafive

^.05C

Ko[magorov-SmirriovZ

As/mp.Sig.（2-tailed）

ese

adistributeris

Normal.

b.Calculatedfromdata

从结果可以看出，K-S检验中,Z值为0.493,P值（sig2-tailed）=0.968＞0.05，因此数据呈近似正态分布

检验方法三：

Q-Q图检验

在SPSS里执行图表一＞Q-Q图”弹出对话框，见下图:

■Q-Q圈

令年釀編号

砂性别

莎实尤、球（期初）

@立定跳远I期初）

专立定跳远＜期末）审睡平均分矽进步幅睫分

I正懑工

＞从数摇估计包_ocation.

Sc^le:

转换

比例估计公式

r自脚数转掘即

f*glam'

s4BankitLJukeys

r标匮忧数值回

■V^nderWaerden'

r差异业】；

—[

厂季节性差异国[7*

醫均值也厂高已c低8J

当丽周期：

无

「任倉廿斷结点哙

变量选择期初平均分”检验分布选择正态”其他选择默认，然后点确定”最后可以得到Q-Q图

检验结果，结果很多，我们只需要看最后一个图，见下图。

NormalQ-QPlotof期初平均分

iao

20-L

ObservedValue

|简介

显著性差异（significaneelevel），是一个统计学名词。

它是统计学（Statistics）上对

数据差异性的评价。

也可能来自于实验处理对实验对象造成了根本性状改变，因而前测后测的数据会有显著性差

展开阅读全文