实验报告 判别分析多元统计Word文件下载.docx

上传人:b****5 文档编号:19249734 上传时间:2023-01-04 格式:DOCX 页数:15 大小:67.93KB
下载 相关 举报
实验报告 判别分析多元统计Word文件下载.docx_第1页
第1页 / 共15页
实验报告 判别分析多元统计Word文件下载.docx_第2页
第2页 / 共15页
实验报告 判别分析多元统计Word文件下载.docx_第3页
第3页 / 共15页
实验报告 判别分析多元统计Word文件下载.docx_第4页
第4页 / 共15页
实验报告 判别分析多元统计Word文件下载.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

实验报告 判别分析多元统计Word文件下载.docx

《实验报告 判别分析多元统计Word文件下载.docx》由会员分享,可在线阅读,更多相关《实验报告 判别分析多元统计Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。

实验报告 判别分析多元统计Word文件下载.docx

-0.1682

-0.1913

-0.2123

-0.3479

-0.1721

-0.1092

-0.119

-0.3539

0.0722

-0.5268

-0.4773

-0.4719

-0.1079

-0.0842

0.0248

-0.361

-0.0399

-0.0225

-0.058

-0.3226

0.167

0.0084

0.0782

-0.4319

-0.0687

-0.1827

-0.1138

-0.2734

-0.002

0.214

-0.5573

0.0548

-0.4702

-0.3099

-0.3755

-0.1865

-0.1519

-0.0686

-0.495

-0.0153

0.0006

-0.1153

-0.5107

-0.2483

-0.2015

-0.0498

-0.1652

0.2132

-0.1932

-0.2293

-0.2447

-0.0407

0.1507

0.0933

-0.4232

-0.0998

-0.1259

-0.0669

-0.2375

0.2876

-0.1551

-0.1232

-0.2205

0.0046

-0.1952

-0.1007

-0.2154

-0.0219

0.0291

0.0442

-0.3447

-0.228

-0.171

-0.254

-0.0573

-0.0997

-0.0733

-0.3778

-0.2682

-0.1972

-0.0607

-0.4046

-0.1162

-0.0867

-0.056

-0.0639

0.1569

-0.3351

-0.1368

-0.0149

0.1539

-0.0312

0.14

-0.174

-0.0776

-0.1416

0.1642

-0.1508

0.1137

-0.0964

0.0531

-0.2642

0.0867

-0.0234

0.0804

-0.3352

0.0875

-0.1878

0.251

-0.1744

0.1892

-0.4055

-0.2418

-0.2444

0.1614

-0.4784

0.0282

其中x1=log10(AHFactivity),x2=log10(AHFantigen)。

下表给出了五个新的观测,试对这些观测判别归类;

(t11b8)

观测

-.112

-0.279

-.059

-0.068

3

.064

0.012

4

-.043

-0.052

5

-.050

-0.098

实验要求:

(1)分别检验两组数据是否大致满足二元正态性;

(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?

(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;

(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;

(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;

(6)比较方法(4)和方法(5)的误判率。

实验题目二:

某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:

接受,不接受,待定。

下表中给出了三类申请者的GPA与GMAT成绩:

(t11a6)

GPA(x1)

GMAT(x2)

接受

不接受

待定

2.96

596

2.54

446

2.86

494

3.14

473

2.43

425

2.85

496

3.22

482

2.2

474

419

3.29

527

2.36

531

3.28

371

3.69

505

2.57

542

2.89

447

3.46

693

2.35

406

3.15

313

3.03

626

2.51

412

3.5

402

3.19

663

458

485

3.63

399

2.8

444

3.59

588

3.13

416

3.3

563

2.66

420

3.01

471

3.4

553

2.68

414

2.79

490

572

2.48

533

431

3.78

591

2.46

509

2.91

3.44

692

2.63

504

2.75

546

3.48

528

2.44

336

2.73

467

3.47

552

2.13

408

3.12

463

3.35

520

2.41

469

3.08

440

3.39

543

2.55

538

523

2.31

3.21

530

489

438

3.58

564

2.19

411

3.05

3.33

565

321

483

2.6

394

453

3.38

605

3.26

664

2.72

3.04

3.6

609

381

3.37

559

2.9

384

3.8

521

3.76

646

3.24

(1)对上表中的数据作散点图,不同的类用不同的颜色标识;

(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;

(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;

(4)比较方法

(2)和方法(3)的误判率;

(5)现有一新申请者的GPA为3.21,GMAT成绩为497。

请将该观测在

(1)的散点图中标出,并分别用方法

(2)和方法(3)将其归类?

你认为哪一种方法更合适?

(6)观察

(1)的散点图中第三类的观测点有无异常值?

若有,将该异常值剔除后再对新申请者判别归类,结果有无变化?

实验题目一分析报告:

>

data1=read.csv("

D:

/data1.csv"

head=T)

data2=read.csv("

/data2.csv"

data1=data1[,-1]

data11=as.matrix(data1)

shapiro.test(data11)

Shapiro-Wilknormalitytest

data:

data11

W=0.95354,p-value=0.02291

非携带者数据满足二元正态分布

data2=data2[,-1]

data22=as.matrix(data2)

shapiro.test(data22)

data22

W=0.98453,p-value=0.3643

被迫携带者数据不满足二元正态分布

cov.data1=cov(data11)

cov.data2=cov(data22)

cov.data1

整理得:

0.021

0.016

0.018

cov.data2

0.024

0.015

以下对矩阵的相似性进行检验:

qr(cov.data1)$rank#计算矩阵的秩

[1]2

qr(cov.data2)$rank

det(cov.data1)#计算矩阵的行列式的值

[1]0.0001337663

det(cov.data2)

[1]0.0003352181

eigen(cov.data1)#计算矩阵的特征值

eigen()decomposition

$`values`

[1]0.0349948500.003822458

$vectors

[,1][,2]

[1,]-0.74010410.6724924

[2,]-0.6724924-0.7401041

eigen(cov.data2)

[1]0.0392861100.008532738

[1,]0.7042124-0.7099894

[2,]0.70998940.7042124

由于两个协方差矩阵的秩相同,行列式的值和特征值相差很小,可以认为两者近似相等。

用lda和qda判别新观测数据的的类:

data3=read.csv("

/data3.csv"

predict(data.lda,newdata=data3[,-1])$class

[1]11111

Levels:

12

predict(data.qda,newdata=data3[,-1])$class

两种方法判别结果相同,即所有都是非携带者。

data4=read.csv("

/data4.csv"

#data4是训练样本和新观测合并的数据

library(car)

scatterplotMatrix(~x1+x2|Group,data=data4,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="

none"

data=read.csv("

/data.csv"

data.n=read.csv("

data.n=data.n[,-1]

library(MASS)

data.lda=lda(data[,-1],factor(data$Group))#lda函数

data.lda

Call:

lda(data[,-1],factor(data$Group))

Priorprobabilitiesofgroups:

12

0.40.6

Groupmeans:

 

1

-0.135

-0.078

2

-0.308

-0.006

Coefficientsoflineardiscriminants:

LD1

-9.033

8.007

z2=predict(data.lda,dim=1)$class

table(z2)

z2

3342

c(3)/c(75)

[1]0.04

误判率为0.04

data.qda=qda(data[,-1],factor(data$Group))#qda函数

data.qda

qda(data[,-1],factor(data$Group))

x1x2

1-0.1348700-0.077856667

2-0.3079467-0.005991111

q2=predict(data.qda,dim=1)$class

table(q2)

q2

3144

c

(1)/c(75)

[1]0.01333333

误判率约为0.013

此题中qda方法的误判率更低。

 

实验题目二分析报告:

head(data)

GPAGMATaccept

12.965961

23.144731

33.224821

43.295271

53.695051

63.466931

scatterplotMatrix(~GPA+GMAT|accept,data=data,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="

先计算原数据的各种类个数:

sum(data$accept==1)

[1]31

sum(data$accept==2)

[1]28

sum(data$accept==3)

[1]26

data.lda=lda(data[,-3],factor(data$accept))

lda(data[,-3],factor(data$accept))

123

0.36470590.32941180.3058824

GPA

GMAT

3.404

561.226

2.483

447.071

2.993

446.231

LD2

-5.009

1.877

-0.009

-0.014

Proportionoftrace:

LD1LD2

0.96730.0327

282730

data.qda=qda(data[,-3],factor(data$accept))

qda(data[,-3],factor(data$accept))

312727

c(4)/c(85)

[1]0.04705882

Lda方法的误判率约为0.05

c

(1)/c(85)

[1]0.01176471

qda方法的误判率约为0.01

此题中qda的误判率较低

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1