计算机网络毕业论文97028.docx
《计算机网络毕业论文97028.docx》由会员分享,可在线阅读,更多相关《计算机网络毕业论文97028.docx(14页珍藏版)》请在冰豆网上搜索。
计算机网络毕业论文97028
中国教育科技网络用户信息查询状况统计报告(2001/12)
徐鸿(美国匹兹堡大学信息科学学院hxu@mail.sis.pitt.edu)
单松巍(北京大学计算机科学技术系)
李晓明(北京大学计算机科学技术系)
1993年,美国UIUC大学的超级计算机应用程序国家中心开发出了Internet上最早的Web浏览器Mosaic。
网景(Netscape)公司在1994年推出了NetscapeNavigator,微软公司则在1995年推出了InternetExplorer,它们促进了Web爆炸式的增长。
美国互联网委员会在2000年9月发布的一份名为《2000年互联网状态》的研究报告中指出,到2000年9月为止,互联网上的网页数量已经达到20亿,预计到2001年达到40亿。
用户在如此多的网络数据中寻找所需要的信息,无异于大海捞针,这就是信息过载(InformationOverloading)问题。
面对如此大量的信息,人们迫切需要有效的信息发现工具来为他们在WWW上进行导航,网络信息检索系统产生并迅速发展起来,1994年后出现了以Yahoo为代表的网络信息目录和Lycos、Excite、AltaVista、Infoseek、Hotbot等搜索引擎。
随着搜索引擎技术的不断发展,它已经成为人们获取网络信息的常用工具,大约85%的用户使用搜索引擎去定位他们需要的信息。
搜索引擎和电子邮件并列成为Internet上应用最广泛的服务,几个著名的搜索引擎一直都稳定的处于全球访问量最大的10个网站之列。
迄今为止,网络信息检索问题还有很多问题需要解决,即使是目前世界最大的搜索引擎Google,也只收集了20亿左右网页(至2002年1月1日),并且网页收集速度远远落后于Web上网页的增长速度。
由北京大学计算机系网络与分布式系统研究室研制开发的“天网”中英文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供web信息导航服务(),受到学术界广泛好评,《软件世界》(1998年7月)将天网评为国内最值得关注的搜索引擎。
在教育网内部,“天网”赢得了广泛的用户群体,为广大学生和老师提供了方便快捷的网络信息检索服务。
在“天网”系统对外提供服务期间,广泛采纳用户的意见和建议,不断地改进其服务质量,跟踪世界搜索引擎技术的发展,使系统始终处于国际先进水平。
2000年初新成立的“天网”搜索引擎课题组在国家973重点基础研究发展规划项目基金资助下,秉承老的开发队伍的优良传统,致力于探索和研究中英文搜索引擎系统的关键技术,以便向广大用户提供更为快速、准确、全面、时新的海量Web信息导航服务。
“天网”二期根据WWW海量数据的特性,设计开发了高效的分布式并行搜集系统和查询系统。
该系统采用多台运行Linux和Solaris操作系统的微机为工作平台,以URL作为任务的原子单位,采用基于散列的任务分发策略,结合每台计算机上的并行搜集策略,保证了网页的高速搜集。
目前,分布式并行搜集系统的模型系统由15台PC服务器构成,操作系统是Solaris8。
每台计算机上启动60个网页搜集机器人,实验结果表明,在网络环境稳定的情况下,平均每天可以获取200万个网页。
查询系统由15台安装LINUX系统的PC机组成,索引了全国3000万网页,系统的实际运行和测试表明它有很好的查询响应时间和并发性能,可以提供每天百万次的查询。
“天网”二期采用了我们设计的近似镜像网页检测算法,目前已被成功地应用于删除天网系统中的重复网页,能去除98%的重复网页,一方面节省了存储空间,另一方面提高了检索质量。
随着WWW上数据量的不断扩大,信息内容的不断丰富,人们对搜索引擎的要求也不断提高,这也促进了搜索引擎的进一步发展。
新一代的“天网”突破了集中式系统的瓶颈,成为一个高性能的Internet信息发现平台。
课题组成员在实验室主任李晓明教授领导下,正继续努力跟踪世界先进水平,不断研究新的问题和方向,将“天网”推向一个新的高度,保持我们在Internet信息检索领域研究的领先地位。
为了解中国教育科技网络用户信息查询的基本状况,加强搜索引擎的信息资源建设,改进搜索引擎的服务方式,提高系统的检索性能,天网课题组协同美国匹兹堡大学信息科学学院的徐鸿博士完成了本次用户信息查询调查,希望借此帮助用户更为方便有效地获取所需信息。
此次调查问卷的内容包括用户上网的基本情况、天网查询及用户的个人信息。
共收回问卷3107份,其中有效问卷2334份。
调查日期为2001年9月11日到11月20日。
统计结果如下。
1用户个人上网的基本情况
1.1使用互联网的时间(N=2334)
不到6个月
6个月到一年
1到3年
4到6年
7年到7年以上
116
103
1377
662
76
由上述图表可看出,2334个天网用户答卷中,尽管7年前接触互联网的只占3.3%,但59%的用户有1到3年上网的经验,其次为有4到6年经验的使用者(28.4%)。
上网时间不足1年的用户则不到10%。
1.2上网费用的支付(N=2334,可选择多项)
自己/配偶
父母
公司
学校
不知道
其他
889
378
367
1537
47
75
38.1%
16.2%
15.7%
65.9%
2.0%
3.2%
上述图表显示约三分之二的天网用户的上网费用由学校支付。
其次为个人或配偶支付。
由父母或公司支付者各占约16%。
1.3主要操作系统平台(N=2334)
WindowsNT
Windows98
Windows2000
其他操作系统
Unix
Linux
Windows95
Macintosh
Saloris
173
1094
1001
10
5
26
15
7
3
注:
其他操作系统主要是Windowsme和Windowsxp.
由上表可知,绝大多数用户使用的操作系统是Windows98和Windows2000。
就互联网的使用而言,这两种操作系统已经是较好的选择,并且Windows98对硬件的要求相对较低,上网速度也很快。
1.4连接到互联网的速度(近似值)(N=2334)
从下图可以看出,绝大部分天网用户的上网速度都在56KB/S之上(74.1%);其中984个用户的上网速度在10MB/S或10MB/S以上,这说明利用标准10M局域网甚至更快上网速度的人是占相当比例的(42.2%)。
但仍有10.5%的用户上网速度低于56Kb/s。
而且其中155人即占总人数6.6%的用户上网速度低于14.4Kb/s。
还有15.4%的用户(365人)不知道或不能确定其上网速度。
注:
如果是通过一个商业代理访问互联网,代表的是连接到代理的速度。
1.5平均情况下使用Web搜索工具查询信息的频率(N=2334)
第一次查询
少于1次/月
1次/月
2-3次/月
141
23
13
48
6.0%
1.0%
0.6%
2.1
1次/周
2-3次/周
1次/天
2-3次/天
92
398
317
1302
3.9%
17.1%
13.6%
55.8%
上述图表显示大约70%的天网用户每天都要一次或多次使用Web搜索引擎来查询资料,超过85%的用户每周至少使用两到三次。
这非常有力地说明了搜索引擎是大部分上网用户查找网络信息的重要手段。
值得注意的是,第一次使用搜索引擎的用户占6%;上网不足6个月的用户也有5%(见1.1)。
但用户使用互联网的时间长短与使用搜索工具来查询信息的频率是否有直接关系,则需作进一步的分析。
2天网查询
2.1平均情况下,使用天网的频率(N=2334)
第一次查询
少于1次/月
1次/月
2-3次/月
169
28
31
89
7.2%
1.2%
1.3%
3.9%
1次/周
2-3次/周
1次/天
2-3次/天
161
559
410
887
6.9%
24.0%
17.6%
38.0%
就天网而言,超过55%的用户每天最少访问一次;约80%的用户每周至少使用两到三次。
也有7%的用户是第一次查询(见上述图表)。
如果将天网于一般Web搜索引擎的查询频率作一比较,我们可以清楚地看出,两条曲线极其相似(见上图),这说明尽管天网是以有限的教育经费维持的非商业性网上信息资源查询系统,但在用户眼中,它的功能及利用率可与涵盖面更为广泛的商业性搜索引擎媲美。
2.2查询目的(N=2334,可选择多项)
工作*
研究
教学
学习*
课程学习
爱好
1105
1293
448
1586
1014
1298
47.3%
55.4%
19.2%
68%
43.4%
55.6%
休闲
消遣
健康
消费
其他
1282
953
220
202
61
----
54.9%
40.8%
9.4%
8.7%
2.6%
----
注:
工作*:
研究、教学除外。
学习*:
课程学习除外。
当用户被问知要查询的内容主要与哪些目的有关时,调查结果显示,半数以上是为满足课程学习以外的兴趣爱好、学习研究以及休闲。
其次为研究和教学以外的工作、课程学习,以及消遣娱乐。
查寻内容与教学有关的用户低于20%的。
这似乎不完全符合天网设计者的初衷。
我们还发现,利用天网查询健康或消费信息的用户所占比例极小,这一方面与天网的涵盖内容有关,另一方面也反映了用户上网的一般行为特征。
这一点中国互联网络信息中心2001年7月发布的统计报告亦可加以印证(
2.3使用天网搜寻即将查找内容的次数(N=2334)
第一次
2-4
5-9
10次或更多
285
225
105
1719
12.2%
9.6%
4.5%
73.7%
上述图表显示,近于四分之三的用户利用天网十次或多于十次查询同一内容。
这说明他们是相当熟悉天网并依赖天网作为信息追踪途径的。
第一次使用天网搜索引擎的用户是新上网者还是天网的最新用户以及是否已有使用其它搜索引擎的历史,则还有待于进一步分析。
2.4使用天网查找的满意程度(N=2049不包括第一次使用天网的用户)
非常满意
比较满意
无所谓
比较不满意
非常不满意
604
1256
67
101
21
29.5%
61.3%
3.3%
4.93
1.0%
在用户满意度的调查方面,我们做出如下划分:
如果用户借天网查到全部或大部分相关信息,可选择“非常满意”;如果查找到部分信息,可选择“比较满意”;如果只查到了很少部份相关信息,可选择“比较不满意”;如果无法找到相关信息,则可选择“非常不满意”。
对于第一次使用天网的用户,我们不对他们的用户满意度进行统计。
调查结果显示,对天网非常满意和比较满意的用户分别占总人数的29.5%和61.3%,共计90%以上,这说明天网基本上能满足用户在查全及查准信息方面的要求。
在低于6%的比较或非常不满意的用户中,现有的答案尚不能显示原因在天网系统本身。
3个人信息
3.1年龄、性别、婚姻、家庭状况(N=2334)
年龄:
19以下
19-29
30-39
40-49
50-59
60以上
117
1894
242
59
13
9
5.0%
81.1
10.4%
2.5%
0.6%
0.4%
性别:
男
女
1992
342
85.3%
14.7%
婚姻状况:
单身
已婚
离异
保密
其他
1917
374
16
22
5
82.1%
16.0%
0.7%
0.9%
0.2%
家中人数:
1人
2人
3人
4人或者更多
359
169
832
974
15.4%
7.2%
35.6%
41.7%
调查显示,90%以的天网用户在40岁以下至19岁以上的年龄段;其中男性占绝对优势,为85%,女性只占15%;单身者则大大多于已婚者(80%以上);家中有三人和更多者占总数的四分之三以上。
而“中国互联网络发展状况统计报告”(2001年7月)显示,互联网用户中,年龄分布在18岁以上40岁以下者占73%;其中女性比例大大高于天网用户(38.7%);未婚者则大大少于天网用户(58.5%)(见
3.2居住地(N=2334)
城乡:
城市
乡村
城镇
2274
32
28
97.4%
1.4%
1.2%
省市:
北京
安徽
湖北
上海
陕西
辽宁
广东
吉林
1068
41
222
136
88
35
140
5
江苏
四川
广西
浙江
新疆
天津
河南
山西
165
78
26
45
8
25
46
12
内蒙古
甘肃
黑龙江
山东
河北
贵州
重庆
福建
10
8
6
46
34
5
17
28
云南
台北
澳门
宁夏
海南
江西
香港
湖南
4
0
1
5
5
12
4
9
在网上用户分布情况的调查中,我们发现,城市居民占98%,而其中仅北京用户就占该调查总数的46%左右,分布在湖北、江苏、广东、上海者为28%。
这说明天网主要为内地及沿海互联网发达、教育科研机构集中的大省市所熟悉。
3.3教育程度(N=2334)
高中以下
高中
技校
学士
硕士
博士
大专
其他
42
92
3
1025
741
246
132
53
1.8%
3.9%
0.1%
43.9%
31.7%
10.5%
5.7%
2.3%
调查结果显示,具有大专以上学历的人是天网最大的用户群(占92%)。
而目前普通上网者中,这一群体只占62.5%(见“中国互联网络发展状况统计报告”,2001年7月
3.4用户身份(N=2334)
在校学生:
小学/中学
高中
技校
大专
本科
研究生
在校学生总数
0
33
7
48
827
880
1795
0
1.4%
0.3%
2.1%
35.4%
37.7%
76.9%
是否已离退休:
是
否
总数
85
454
539
3.6%
19.5%
23.1%
值得注意的是,调查总数中,77%的用户为在校学生,本科生和研究生即占其中的95%;其他用户仅占23%,而使用天网的离退休用户明显少于在职者(见上述两表)。
而天网课题组对2000年11月2日至2001年4月6日天网访问日志进行的初步分析显示,来自于教育网的查询有5,999,606次,来自于非教育网的查询为1,660,733次。
因此,教育网的查询量占总数的78.3%,非教育网占21.7%。
本次调查的结果与之相符。
3.5行业类型和机构性质:
(N=539)
行业类型:
计算机/网络
高等教育、科研
小学/中学教育
文化/娱乐/体育
媒体与广告
180
219
9
5
4
33.4%
44.3%
1.7%
0.9%
0.7%
社会服务
健康/医疗
司法
咨询
邮电通信
17
3
1
8
45
3.2%
0.6%
0.2%
1.5%
8.3%
金融/证券/保险/房地产
商业/贸易
交通运输
矿业/制造业
水力/电力
16
4
2
6
5
3.0%
0.7%
0.4%
1.1%
0.9%
农林牧渔
自由职业
待业
其他
--
1
3
1
10
--
0.2%
0.6%
0.2%
1.9%
--
机构性质:
政府机构
民间机构
军队
学校(公立)
私立/民办学校
96
4
4
238
0
17.8%
0.7%
0.7
44.2%
0
国营企业
民营企业
外资企业
个体
其他
60
71
42
8
16
11.1%
13.2%
7.8%
1.5%
3.0%
从业人员中利用天网较多者汇集在计算机/网络和教育与科研领域。
从业人员的机构主要为学校(公立)、政府部门和各类企业。
3.6职务类型(N=539)
高层管理人员
中层管理人员
低层管理人员
普通职员
46
71
23
71
8.5%
13.2%
4.3%
13.2%
高级专业技术人员
中级专业技术人员
初级专业技术人员
熟练工人
52
107
44
3
9.6%
19.9%
8.2%
0.6%
高级学术/研究人员
中级学术/研究人员
初级学术/研究人员
其他
33
43
32
14
6.1%
8.0%
5.9%
9.6%
从业者中,中高级专业技术人员、中层管理人员及普通职员使用天网较多(9.5%以上)。
4总结
从本次用户信息查询调查可以看出,大部分天网用户有一定的上网经验,其上网费用由学校支付;天网用户上网的硬件平台已经比较完善,上网速度较快,搜索引擎已成为他们查寻网上信息的必不可少的重要工具;他们非常熟悉天网并依赖天网获取学习(课程学习除外)、研究、兴趣爱好、以及休闲方面的信息并且对查询结果比较满意;绝大多数天网用户为年龄在19岁以上40岁以下的在校大学生或研究生。
并以男性为主。
学生以外,使用天网较多者为在学校、政府机构和各类企业从事信息科技和教育与科研工作的中、高级专业技术人员、中层管理干部及普通职员。
致谢:
本调查在问卷设计和报告写作过程中得到中国科学院研究生院网络多媒体中心刘斌、中国科学院文献情报中心吕青和北京大学计算机科学技术系赵江华的鼎力协作和帮助,在此表示衷心感谢。
徐鸿,女。
曾获武汉大学图书馆信息学硕士学位(1987年)及美国伊利诺大学艾巴纳-香槟校区(UIUC)教育心理学硕士和图书馆信息学博士学位(1996年)。
现任教于匹兹堡大学信息学院并兼任该校医学院医学虚拟现实中心信息研究部主任。
博士生导师。
美国信息科学与技术学会(ASIST)国际信息研究组主席及美国图书馆信息学教育协会(ALISE)出版委员会委员。
主要研究领域为信息组织,网络用户的信息需求与检索行为,信息系统的设计和评估。
单松巍,女,1978年11月出生,天津市人。
2000年毕业于北京大学,获理学学士学位。
现在是北京大学计算机科学技术系硕士研究生。
目前科研方向主要是个性化服务。
李晓明,男,1957年5月出生,湖北沙市人。
1982年毕业于哈尔滨工业大学,获工学学士学位,1986年毕业于美国史蒂文斯理工学院计算机系,获博士学位。
现任北京大学计算机科学技术系教授,博士生导师,系主任。
中国计算机学会常务理事,国家教委高等学校计算机教学指导委员会副主任委员,美国电气工程荣誉学社EtaKappaNu社员,IEEECS和ACM成员,《ConcurrencyandComputation》国际编委。
目前科研兴趣主要在分布式海量信息系统。