大学计算机web lgrcyanny复习资料.docx

资源描述

大学计算机web lgrcyanny复习资料.docx

《大学计算机web lgrcyanny复习资料.docx》由会员分享，可在线阅读，更多相关《大学计算机web lgrcyanny复习资料.docx（61页珍藏版）》请在冰豆网上搜索。

大学计算机web lgrcyanny复习资料.docx

大学计算机weblgrcyanny复习资料

WEBLGRCYANNY

1.Introduction

1.Internet&&Web

●Internet:

是在一个通信网络中连接的计算机的大规模集合，通过装置连接起来，相互之间可以通信

●Worldwideweb（web）：

是一组软件和协议的集合，Internet中绝大部分甚至全部计算机都安装了这些软件和协议，用户通过web来使用Internet。

Web中的信息单元包括：

页面，文档和资源。

包括web服务器，web客户机或浏览器。

特点：

图形化，易于导航（页面之间相互连接）

与平台无关

分布式

动态

交互

Web客户机程序:

浏览器——获取和显示服务器端传回的文档

Web传输协议：

最常用的

2.TCP/IP:

传输控制协议，1982年成为计算机网络连接的标准协议，它允许某台计算机中的程序通过Internet直接和另一台计算机中得程序进行通讯。

TCP/IP由四个层次组成：

网络接口层、网络层、传输层、应用层。

OSI（OpenSystemInterconnect）是传统的开放式系统互连参考模型，是一种通信协议的7层抽象的参考模型，其中每一层执行某一特定任务。

该模型的目的是使各种硬件在相同的层次上相互通信。

这7层是：

物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。

3.Lamp:

linux-apache-mysql-php

Linux+Apache+Mysql+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件，本身都是各自独立的程序，但是因为常被放在一起使用，拥有了越来越高的兼容度，共同组成了一个强大的Web应用程序平台。

随着开源潮流的蓬勃发展，开放源代码的LAMP已经与J2EE和.Net商业软件形成三足鼎立之势，并且该软件开发的项目在软件方面的投资成本较低，因此受到整个IT界的关注。

从网站的流量上来说，70%以上的访问流量是LAMP来提供的，LAMP是最强大的网站解决方案．

Lampsystem:

redhat,suse,debian,FreeBSD,solaris,yellowdoglinux,macos

Mysql:

快速，免费，稳定

4.“WISA,”Windows-IIS-SQLServer-ASP（and

now,ASP.Net）.

5.IP

●IP是英文InternetProtocol（网络之间互连的协议）的缩写，中文简称为“网协”，也就是为计算机网络相互连接进行通信而设计的协议，用来唯一标识Internet中的节点。

●IP地址具有唯一性，根据用户性质的不同，可以分为5类。

A类保留给政府机构1.0.0.1---126.255.255.254

B类分配给中等规模的公司：

128.0.0.1---191.255.255.254

C类分配给任何需要的人：

192.0.0.1---223.255.255.254

D类用于组播，E类用于实验，各类可容纳的地址数目不同。

224.0.0.1---239.255.255.254

E类地址，用于实验：

240.0.0.1---255.255.255.254

●IP地址是一个唯一的32位数字

IPV6128位

6.DNS

●定义：

DNS（DomainNameServer）是一个分布式数据库，本地负责控制整个分布式数据库的部分段，每一段中得数据通过客户/服务器模式在整个网络上均可存取。

负责将域名转化为IP地址。

●DNS数据库结构：

倒立的树状结构，根用“”空字符串表示，每隔一节点就是一个域，每个域可以划分为多个子域，叶节点代表主机。

每个域分别由不同的组织进行管理。

每个组织都可以将它的域再分成一定数量的子域并将这些子域委托给其他组织进行管理，域既包括主机又能包括它的子域。

域名被用做DNS数据库中的索引，域包含所有域名在该域的主机。

●它是由解析器和域名服务器组成的。

域名服务器：

是指保存有该网络中所有主机的域名和对应IP地址，并具有将域名转换为IP地址功能的服务器。

域名解析：

将域名解析为对应的IP地址的过程。

●工作原理：

1．客户机将域名查询请求发送到本地DNS服务器，服务器在本地数据库中查找客户机要求的映射。

2．如果不能在本地找到客户机查询的信息，将客户机请求发送到根域名服务器。

根域名服务器负责解析客户机请求的根域部分，它将包含下一级域名信息的服务器的地址返回给客户机的DNS服务器。

3．客户机的DNS服务器利用根域名服务器解析的地址访问下一级DNS服务器，得到维护再下一级域名的DNS服务器的地址。

4．按照上述方法递归地逐级接近查找目标，最后在维护目标域名的DNS服务器上找到相应的IP地址信息。

5．客户机的本地DNS服务器将查询结果返回客户机。

6．客户机利用从本地DNS服务器查询得到的IP地址访问目标主机。

7.Web服务器

1）定义：

web服务器是可以向发出请求的浏览器提供文档的程序。

是一种被动程序，只有当Internet上运行的其他计算机中得浏览器发出请求时服务器才响应。

2）工作原理：

⏹web浏览器通过向服务器发送URL来启动与服务器之间的通讯，一个URL可以指定：

1）存储在服务器中得某个数据文件的地址，该文件会发送给客户机2）客户机要求执行的位于服务器中得某个程序，程序执行结果返回客户机。

⏹Web服务器：

监控主机的通信端口，通过该端口接收命令，运行该命令指定的操作。

命令包含一个URL，其中包含主机名称。

⏹Web服务文档结构：

1）文档根目录：

存储服务器能直接访问的为客户机提供的web文档2）服务器根目录：

存储服务器端程序和软件

3）常用

Apache：

当前最广泛的web服务器，开源免费，通过配置文件（.conf）进行控制。

IIS:

windows平台下，通过窗口管理程序来控制服务器参数

8.URI,URL,URN

●URI

Web上可用的每种资源-HTML文档、图像、视频片段、程序等-由一个通用资源标志符（UniformResourceIdentifier,简称"URI"）进行定位。

以某种统一的（标准化的）方式标识资源的简单字符串。

组成：

存放资源的主机名，片段标识符，相对URI

●URLUniformResourceLocation

统一资源定位符

URL是Internet上用来描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic。

采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

格式：

scheme：

object-address

协议，主机地址或IP，端口号，资源具体地址

Scheme：

协议，ftp，telnet，mailto等

Object-address：

//完全限定域名/文档路径

路径：

目录名称和文件名称组成的一组序列，通过“/”分隔，不能有空格，分号，冒号，&符号。

可以使完整路径或部分路径

●URN：

UniformResourceName，统一资源名称。

●关系：

URL,URN是URI的子集

Web上地址的基本形式是URI,它代表统一资源标识符。

有两种形式：

URL：

目前URI的最普遍形式就是无处不在的URL或统一资源定位器。

URN：

URL的一种更新形式，统一资源名称（URN,UniformResourceName）不依赖于位置，并且有可能减少失效连接的个数。

但是其流行还需假以时日，因为它需要更精密软件的支持。

9.万维网联盟万维网联盟（WorldWideWebConsortium，W3C）

万维网联盟是国际著名的标准化组织。

1994年成立后，至今已发布近百项相关万维网的标准，对万维网发展做出了杰出的贡献。

10.web1.0,2.0,3.0

WebX.0并不是一个具体的事物，而是一个阶段，是促成这个阶段的各种技术和相关的产品服务的一个称呼。

●Web1.0，是以编辑为特征，网站提供给用户的内容是网站编辑进行编辑处理后提供的，用户阅读网站提供的内容。

这个过程是网站到用户的单向行为，web1.0时代的代表站点为新浪，搜狐，网易三大门户。

主要是静态网页。

主要是指互联网一开始就有的那些运营模式，例如：

信息发布网站，门户网站等。

特点是：

信息由网站的运行维护者发布，用户一般只能查看和评论。

网络资源从信息生产者到信息客户的单向流程。

●Web2.0则是以加强了网站与用户之间的互动，网站内容基于用户提供，网站的诸多功能也由用户参与建设，实现了网站与用户双向的交流与参与,web2.0不同于web1.0的最大之处在于它的交互性。

这个时期的典型代表有：

博客中国、亿友交友、联络家等。

注重积用户之力来创造内容，网站的运行维护者只是提供一个平台，而主要内容是用户来创造，用户是主角，网站不再是主角。

所有人是网络资源的生产者和信息客户。

联系：

无论是web1.0还是web2.0，它们都是在窄带互联网这样一个大环境下，基于内容与交互的信息模式，只是web2.0在表现形式上比web1.0丰富一些，加强了用户的参与度。

●Web3.0：

随着网络基础设施的建设和信息技术的深入发展，互联网会更深层次的进入到人们的日常生活。

web3.0是以主动性（Initiative）、数字最大化（max-Digitalizative）、多维化（multi-dimension）等为特征的，以服务为内容的第三代互联网系统。

web3.0最明显的特征就是主动性，即强调网站对用户需求的主动提取，并加以分析处理，然后给出用户所需要的资源。

GoogleCEO埃里克施密特：

web3.0是一系列组合在一起的应用，对于个人用户来讲，互联网将更具有管理性，互联网将由一系列标准化的组件拼接起来。

智能语义程序介入网络资源流程，更有针对性的发送信息和获取信息。

2.1.概念

1.Web页面是对象构成，web对象通过URL定位

2.hypertexttransportprotocol;定义：

一种详细规定了浏览器和万维网服务器之间互相通信的规则，通过因特网传送万维网文档的数据传送协议

3.特点

支持客户/服务器模式。

简单快速：

客户向服务器请求服务时，只需传送请求方法和路径。

请求方法常用的有GET、HEAD、POST。

每种方法规定了客户与服务器联系的类型不同。

由于协议简单，使得服务器的程序规模小，因而通信速度很快。

灵活：

允许传输任意类型的数据对象。

正在传输的类型由Content-Type加以标记。

无连接：

无连接的含义是限制每次连接只处理一个请求。

服务器处理完客户的请求，并收到客户的应答后，即断开连接。

采用这种方式可以节省传输时间。

无状态：

协议是无状态协议。

无状态是指协议对于事务处理没有记忆能力。

缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。

另一方面，在服务器不需要先前信息时它的应答就较快。

应用层协议,基于TCP/IP协议

4.RequestForComments（RFC）是一系列以编号排定的文件。

文件收集了有关互联网相关信息，以及UNIX和互联网社区的软件文件。

目前RFC文件是由InternetSociety（ISOC）赞助发行。

基本的互联网通信协议都有在RFC文件内详细说明。

RFC文件还额外加入许多的论题在标准内，例如对于互联网新开发的协议及发展中所有的记录。

因此几乎所有的互联网标准都有收录在RFC文件之中。

5.结构:

Clientsendsrequest

Serverresposerequest

支持多请求-响应

6.延迟影响因素：

TheTCPconnectionsetuphandshake执行三向沟通连接法

TCPslow-startcongestioncontrol低速启动算法

Nagle'salgorithmfordataaggregationNagel数据压缩算法

TCP'sdelayedacknowledgmentalgorithmTCP认证算法

forpiggybackedacknowledgments

TIME_WAITdelaysandportexhaustion

2.2.请求

1.通用格式：

方法URL当中的域名部分版本

头部字段

空行

消息主体

2.请求方法

OPTIONS返回服务器针对特定资源所支持的请求方法。

也可以利用向Web服务器发送'*'的请求来测试服务器的功能性。

HEAD:

retrievemeta-informationabouttheURI返回指定文档的头部信息

GET：

返回指定的文档内容

POST：

提交数据进行处理，数据被包含在请求体中，POST请求会导致新资源的建立或已有资源的修改。

　常用于发送表单，或发送请求执行某个程序处理表单

PUT向指定资源位置上传其最新内容。

DELETE请求服务器删除Request-URI所标识的资源。

TRACE回显服务器收到的请求，主要用于测试或诊断。

2.3.响应

1.通用格式

状态行

响应头部字段

空行

响应主体

2.返回的状态码

✓Codes

1xx!

Informational

2xx!

Success

3xx!

Redirection重定向

4xx!

ClientError

5xx!

ServerError

CommonStatusCodes

✓200!

✓301!

MovedPermanently

✓400!

BadRequest

✓401!

Unauthorized

✓403!

forbidden

✓404!

NotFound

✓500!

InternalServerError

✓100!

Continue

✓101!

switchingprotocols

2.4.连接

2.4.1.非持续连接——1.0

在使用/1.0的情况下，如果打开一个包含一个HTML文件和10个内联图象对象的网页时，就要建立11次TCP连接才能把文件从服务机传送到客户机。

使用一次TCP连接传送一个对象的效率比较低，这体现在下列几个方面：

（1）每次TCP连接必需要建立和断开。

客户机和服务机建立一次连接需要执行三向沟通连接法（three-wayhandshake），服务机在对象递送之后要断开TCP连接。

在建立和断开连接时要占用CPU的资源。

如果使用一次连接代替11次连接的话，占用客户机和服务机的CPU时间可大大减少。

（2）对每次连接，客户机和服务机都必须分配发送和接收缓存。

这就意味着要影响客户机和服务机的存储器资源，这同样要占用CPU的时间。

（3）对由大数量对象组成的文件，TCP的低速启动算法（slowstart-upalgorithm）会限制服务机向客户机传送对象的速度。

使用/1.1之后，大多数对象都可以尽最大的速率传送。

非持久连接每个对象的发送和接收都会有一个延迟，共有两个延迟。

2.4.2.持续连接

持久连接：

1.1版本中：

当发送请求并响应之后，服务器和客户端浏览器之间依然保持连接，文件中的所有对象都可在相同的TCP连接上传送。

1.不带流水线withoutpipelineing

那么客户只在收到前一个请求的响应后才发出新的请求。

这种情况下，web页面所引用的每个对象（上例中的10个图像）都经历1个RTT的延迟，用于请求和接收该对象。

与非持久连接2个RTT的延迟相比，不带流水线的持久连接已有所改善。

缺点：

服务器送出一个对象后开始等待下一个请求，而这个新请求却不能马上到达。

这段时间服务器资源便闲置了。

2.带流水线——1.1

/1.1的默认模式使用带流水线的持久连接。

/1.1也允许在客户机接收到服务机的消息响应之前发送多个消息请求，这叫做流水线式请求（pipelinedrequest）。

●可以连续发送请求和响应对象。

客户每碰到一个引用就立即发出一个请求，客户可以一个接一个紧挨着发出各个引用对象的请求。

服务器收到这些请求后，也可以一个接一个紧挨着发出各个对象。

如果所有的请求和响应都是紧挨着发送的，那么所有引用到的对象一共只经历1个RTT的延迟（而不是像不带流水线的版本那样，每个引用到的对象都各有1个RTT的延迟）。

●带流水线的持久连接中服务器空等请求的时间比较少。

●降低缓启动延迟。

与非持久连接相比，持久连接（不论是否带流水线）除降低了1个RTT的响应延迟外，缓启动延迟也比较小。

其原因在于既然各个对象使用同一个TCP连接，服务器发出第一个对象后就不必再以一开始的缓慢速率发送后续对象。

相反，服务器可以按照第一个对象发送完毕时的速率开始发送下一个对象。

/1.1都有非持续连接（non-persistentconnection）和持续连接（persistentconnection）功能。

/1.1的默认设置是持续连接。

/1.0的默认设置是非持续连接

2.5.S

1.定义

它是由Netscape开发并内置于其浏览器中，用于对数据进行压缩和解压操作，并返回网络上传送回的结果。

S实际上应用了Netscape的安全套接字层（SSL）作为应用层的子层。

（S使用端口443，而不是像那样使用端口80来和TCP/IP进行通信。

）SSL使用40位关键字作为RC4流加密算法，这对于商业信息的加密是合适的。

S和SSL支持使用X.509数字认证，如果需要的话用户可以确认发送者是谁。

也就是说它的主要作用可以分为两种：

一种是建立一个信息安全通道，来保证数据传输的安全；另一种就是确认网站的真实性。

2.S和的区别

一、s协议需要到ca申请证书，一般免费证书很少，需要交费。

　　二、是超文本传输协议，信息是明文传输，s则是具有安全性的ssl加密传输协议。

　　三、和s使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443。

四、的连接很简单，是无状态的；S协议是由SSL+协议构建的可进行加密传输、身份认证的网络协议，比协议安全。

3.S解决的问题

1）信任主机问题

采用s的服务器必须从CA（CertificateAuthority）申请一个用于证明服务器用途类型的证书。

该证书只有用于对应的服务器的时候，客户端才信任此主机。

银行

2）通讯过程中的数据泄密和篡改

1．一般意义上的s，就是服务器有一个证书。

　a）主要目的是保证服务器就是他声称的服务器，这个跟第一点一样。

　　b）服务端和客户端之间的所有通讯，都是加密的。

　　i.具体讲，是客户端产生一个对称的密钥，通过服务器的证书来交换密钥，即一般意义上的握手过程。

　　ii.接下来所有的信息往来就都是加密的。

第三方即使截获，也没有任何意义，因为他没有密钥，当然篡改也就没有什么意义了。

2．少许对客户端有要求的情况下，会要求客户端也必须有一个证书。

　　a）这里客户端证书，其实就类似表示个人信息的时候，除了用户名/密码，还有一个CA认证过的身份。

因为个人证书一般来说是别人无法模拟的，所有这样能够更深的确认自己的身份。

　　b）目前少数个人银行的专业版是这种做法，具体证书可能是拿U盘（即U盾）作为一个备份的载体。

3.网络机器人

3.1.定义

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

3.2.必要性

传统的搜索引擎的局限性

1.不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页

2.通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深

3.万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取

4.通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询

3.3.爬虫

1.传统爬虫

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件

2.聚焦爬虫

聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。

与通用爬虫（general?

purposewebcrawler）不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

工作流程：

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

解决问题：

（1）对抓取目标的描述或定义：

决定网页分析算法与URL搜索策略如何制订的基础。

（2）对网页或数据的分析与过滤；

　　（3）对URL的搜索策略：

网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。

3.体系结构

URLFrontier：

存放爬虫要抓取的URL的集合

DNS：

域名解析，将域名转换为响应的IP地址，

Fetch:

使用协议抓取URL

Parse：

解析页面，文本和连接被分离

Contentseen：

检测相同的网页内容是否出现在另一URL中

URLfilter：

判断解析出的URL是否应该放入URLfrontier中；标准化URL

DupURLDlim：

去除重复的URL

网站会给出URL/robots.txt，说明哪些URL是可以被抓取的，连接限制

4.HTML/XHTML

结构表现行为

基本语法，常用标记

重构（为何重构，使用web标准）

Html5

4.1.HTML

1.超文本标记语言，即HTML（HypertextMarkupLanguage），是用于描述网页文档的一种标记语言。

HTML是一种规范，一种标准，它通过标记符号来标记要显示的网页中的各个部分。

HTML之所以称为超文本标记语言，是因为文本中包含了所谓“超级链接”点——URL指针,可以点击浏览其他网页。

2.版本

超文本标记语言（第一版）——在1993年6月作为互联网工程工作小组（IETF）工作草案发布（并非标准）：

　　HTML2.0——1995年11月作为RFC1866发布，在RFC2854于2000年6月发布之后被宣布已经过时

　　HTML3.2——1996年1月14日，W3C推荐标准

　　HTML4.0——1997年12月18日，W3C推荐标准

　　HTML4.01（微小改进）——1999年12月24日，W3C推荐标准

ISO/IEC15445:

2000（“ISOHTML”）——

展开阅读全文