统计分析基础知识docWord格式.docx
《统计分析基础知识docWord格式.docx》由会员分享,可在线阅读,更多相关《统计分析基础知识docWord格式.docx(13页珍藏版)》请在冰豆网上搜索。
![统计分析基础知识docWord格式.docx](https://file1.bdocx.com/fileroot1/2022-10/26/c8ae4598-3b96-4843-8e76-c59479f1cd56/c8ae4598-3b96-4843-8e76-c59479f1cd561.gif)
即该函数在(-8,+*的积分为1
线性函数转换如下
y=(x-MinValue)/(MaxValue-MinValue)
说明:
x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最
小值。
(x-min)/(max-min)
这样所有的数据都归一化为0到1之间的数了
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,
成为纯量。
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。
归一化在0-1之间是统计的概率分
布,归一化在-1--+1之间是统计的坐标分布。
归一化有同一、统一和合一的意思。
无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统
计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分
布;
SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--
+1之间的统计坐标分布。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。
所以这样做分类的问题时用[0.90.10.1]
就要比用要好。
但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法
有时可能更好。
主要是为了数据处理方便提出来的,把数据映射到0〜1范围之内处理,更加便捷快速,
应该归到数字信号处理范畴之内。
归一化方法(NormalizationMethod)
1。
把数变为(0,1)之间的小数主要是为了数据处理方便提出来的,把数据映射到0〜1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
2。
把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。
比如,复数阻抗可以归一化书写:
Z=R+j3L=R(1+j3L/R),复数部分变成了纯数量了,没有量纲。
标准化方法(NormalizationMethod)
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
关于神经网络(matlab)归一化的整理
关于神经网络归一化方法的整理
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主
要有如下几种,供大家参考:
(byjames)
1、线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小
值。
2、对数函数转换,表达式如下:
y=log10(x)
以10为底的对数函数转换。
3、反余切函数转换,表达式如下:
y=atan(x)*2/PI
布,归一化在-1~+1之间是统计的坐标分布。
归一化有同一、统一和合一的意思。
无论
是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统
计分别几率来进行训练(概率计算)和预测的,归一化是统一在0-1之间的统计概率分布;
当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。
为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很
小。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。
所以这样做分类的问题时用[0.90.10.1]
就要比用[100]要好。
MATLAB归一化方法
你在所有的数据中找出最大的那个数max
可以用matlab的max函数
在所有的数据中找出最小的那个数min
可以用matlab的min函数
如果是Origin,那么选中要归一化的数据列,点击右键,在弹出的对话框中选
择Normalize
在excel表格中如何对数据进行归一化处理
比如对A1到A10中的是个数进行归一化处理,就是分别计算每个数占这是个数这和的百
分比,可以用公式计算,不是很难,例如:
在单元格B1中输入“=A1/sum($A$1:
$A$10)"
点击B1右下角的黑十字下拉到B10放开鼠标,b列的结果就是你要的归一化结果。
数据
多的话只需改动公式中sum函数的引用位置,女口A列有100个数,B1中改为”=A1/sum
($A$1:
$A$100)“
下面我们来看一组数据,并检验期初平均分”数据是否呈正态分布(此数据已在SPSS里输入好)
Xff?
)Ml'
鼻El,界R1ft.卢执歸H-r(Bfl;
:
X*皿131甲目加
tflaiaiglmi-rirlGiiin寻剛
gjr猪迂眾初尹也I亢町理(立玄毘叵
(JtfW>
劳N«
>
(Mff>
在SPSS里执行分析一>
描述统计一>
频数统计表”菜单见下图,英文版的可以找到相应位置),然后弹出
左边的对话框,变量选择左边的期初平均分”再点下面的图表”按钮,弹岀图中右边的对话框,选择
直方图”并选中包括正态曲线”
:
⑴
1阴表◎
工具⑪窗口⑩
帮肋QP
报吿迥
i
描述貌计⑥
7
频数另布叢匡)...
表務⑴
描述眾计分靳01)..
l
均值比较⑩
»
探索另析嵐”
X
一般线性模型©
交究壷◎
■-
讒合複型(X)
比率W-
-
相共分析&
►
bU.ULI
b/.5
回归分靳0)
*
75QQ
73.5
裁數踱性(Q)
10.00
36.5
J
聚类分析Q)
k
63.00
70.5
f
敬据缩减Q)
63.DQ
51.5
尺廈分斬@)
■
81.00
79.5
设置完后点确定”就后会岀来一系列结果,包括2个表格和一个图,我们先来看看最下面的图,见下图,
Histogram
过一
上图中横坐标为期初平均分,纵坐标为分数岀现的频数。
从图中可以看岀根据直方图绘岀的曲线是很像正态分布曲线。
如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验:
检验方法一:
看偏度系数和峰度系数
我们把SPSS结果最上面的一个表格拿出来看看(见下图):
期初平均分
N
v^iid
S3
Missing
Mean
61373
Std.Deviation
12.8639
Skarnsss
-333
Std.ErrorofSkewness
Kurlnsis
.966
Std.ErrorofKurtosis
.493
Minimum
15.Q
Maxirnunn
91.a
偏度系数Skewness=-0.333;
峰度系数Kurtosis=0.886;
两个系数都小于1,可认为近似于正态
分布。
检验方法二:
单个样本K-S检验
期初平均
在SPSS里执行分析一>非参数检验一>单个样本K-S检验,弹岀对话框,检验变量选择
频率表(教育程度)
分”检
验分布选择正态分布”然后点确定
检验结果为:
One-SampleKoliiioymnv-SiikiinwT◎軾
忖
96
NormalParanieters^it
61.378
12.0630
MostExtreme
Absolute
.05C
Differences
Positive
.044
Megafive
^.05C
Ko[magorov-SmirriovZ
As/mp.Sig.(2-tailed)
ese
adistributeris
Normal.
b.Calculatedfromdata
从结果可以看出,K-S检验中,Z值为0.493,P值(sig2-tailed)=0.968>0.05,因此数据呈近似正态分布
检验方法三:
Q-Q图检验
在SPSS里执行图表一>Q-Q图”弹出对话框,见下图:
■Q-Q圈
令年釀編号
砂性别
莎实尤、球(期初)
@立定跳远I期初)
专立定跳远<期末)审睡平均分矽进步幅睫分
I正懑工
>从数摇估计包_ocation.
Sc^le:
转换
比例估计公式
r自脚数转掘即
f*glam'
s4BankitLJukeys
r标匮忧数值回
■V^nderWaerden'
s
r差异业】;
r
—[
厂季节性差异国[7*
醫均值也厂高已c低8J
当丽周期:
无
「任倉廿斷结点哙
变量选择期初平均分”检验分布选择正态”其他选择默认,然后点确定”最后可以得到Q-Q图
检验结果,结果很多,我们只需要看最后一个图,见下图。
NormalQ-QPlotof期初平均分
iao
20-L
ObservedValue
|简介
显著性差异(significaneelevel),是一个统计学名词。
它是统计学(Statistics)上对
数据差异性的评价。
也可能来自于实验处理对实验对象造成了根本性状改变,因而前测后测的数据会有显著性差