ImageVerifierCode 换一换
格式:DOCX , 页数:29 ,大小:895.50KB ,
资源ID:19814713      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19814713.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(VBA处理网页基础二Word文档格式.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

VBA处理网页基础二Word文档格式.docx

1、结束标签:/+元素名标签是可以拥有属性的,因此起始标签,有时候格式如下:元素名 属性名称=”属性值”属性提供了元素的一些附加信息啦,后面我们讲具体标签,大家就会见到属性怎么用。另外,注意,元素是可以拥有元素的,即某个元素的内容有时候是一个子元素。元素这东西,比较抽象,我们可以把它且当作一个对象来理解,例如工作簿对象,每个工作簿的名称都不一样(属性),每个工作簿里面都有工作表(子元素),每个表都有名称(属性),里面填写的内容也不一样(元素的内容)。下面讲讲常见的和我们网页数据提取要常见的元素/标签。(一) 整体框架结构:每个网页文档,都是有个大致的框架,框架如下: -注释:文档头部,文档相关消息

2、,并不提供文档内容- body文档主体- 网页文档主体/body/html把上面这段文本保存在TXT文件里面,然后另存.html格式,就可以得到最基础的页面。从上面的框架代码,我们可以看出,一般的页面,都有html元素,其一般内含两个元素,一个是head元素,一个是body元素。Head元素仅仅说明文档的相关消息,并不展示文档实体,body元素才是真正展示文档主体的,所有要在页面展示的元素,都要在body內进行书写。后面的元素的测试,都是以替换掉body元素内的文本“网页文档主体”进行书写,后续不再复述这个框架。(二)段落特别是提取小说,新闻等页面的消息,文本都是一段一段的,这样的页面,一般是

3、通过标签实现的。这个没啥好说的,自己动手试看看就知道。 所以,当运用ie/webbrowser方式提取这类网页的时候,历遍段落p元素即可。(三)超链接超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:a href=”跳转的URL” target=” _blank/_self”显示的超链接文本Target属性,表示的是,当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。测试做个ET的超链接吧。(四)图像图像标签用法和超链接类似,语法:img src=”url” alt=”文本”alt属性代表的是,当图片无法加载

4、的时候,替换显示的文本。我们做个加载ET的LOGO的页面玩玩。(五)表格表格是我们网页最常见的,也是我们网页数据提取,最需要打交道的,其实它非常简单,框架如下,每行用,每个单元格用:table border=1border设置表格边框样式-第一行第一个单元格第一行第二个单元格第二行第一个单元格第二行第二个单元格(六)列表很多时候,数据也经常以列表形式存在的,列表有三种:无序、有序和自定义。分别框架如下:1、无序列表li函数VBA2、有序列表图书/ol视频基操图表数透3、自定义列表dt第一节课dd网络通讯第二节课HTML(七)表单和表单控件除了表格,表单也是我们在网页数据提取,页面操控最常见到的

5、元素。例如我们注册用户,例如我们的微博登陆,例如我们的XX搜索,其实都是表单。我们先来看一个例子:请在文本框输入要搜索的关键字,后按提交,将提交XX进行搜索form method=get action=input name=wd type=text value=exceltipinput type=submit提交/form例如在文本框输入“苹果”后,按提交按钮: 这个表单模拟的是XX搜索,在文本框输入关键字后,按提交,将跳转至XX的搜索结果的界面。呵呵,奇妙吧。如何实现的呢?细心的同学会发现吧,表单form这个元素,有“method”和“action”两个属性,action属性指定的就是,提

6、交表单后,向这个属性指定URL发送http请求(呵呵,涉及到第一节课的知识啦),method这个属性设定的就是,要按照get或者post等方式发送http请求。复习下第一节课吧,采用get的方式呢,参数将在URL后面加个?号,然后发送,采用post的方式呢,将在消息主体里面投递查询参数。那发送http请求的参数从哪里来的?就是从表单元素内含的各种下属元素,提取其name属性的值,作为参数名,然后提取该元素的value属性作为参数值(value属性的值有时候是由我们输入的,例如本例,虽然我们指定了默认的value属性的值为exceltip,但是我们可以手动输入,把它修改成“苹果”)。然后浏览器就

7、用参数名=参数值和&进行连接(还是上节课的知识)串起来。就如本例,提交后,观察URL为:下面,我们讲讲表单主要的内含子元素吧。1、输入标签()其语法是:input type=类型 name=元素名称 id=元素id value=元素值/其类型由type属性定义,常见的有:text(文本框)、Radio(单选按钮)、Checkboxes(复选框)、submit(提交按钮)、hidden(隐藏)、reset(重置)和password(密码框)等。其中注意,其中单选框和复选框的是否选中,由checked属性指定,如果值是”checked”则选定。不多说了,看例子吧。(文本框和提交按钮就不做了,上面都

8、举例了。密码框同,类似的)formch1checkboxexcel checked=checked表格设计ch2word文档处理ch3ppt幻灯片/brrdradio100vip10普通会员reset重置注意,当表单提交的时候,发送http请求时,单选框和复选框,仅发送checked属性为”checked”的元素。一样是把标记了checked的元素的name属性值和value属性值串起来。2、下拉列表其语法:select multiple=multiple name=名称 size=显示菜单条目数如果存在multiple=的属性设定,则允许菜单多选,否则单选。Size是设置可见的菜单条目数。其

9、下级元素,option代表的是其每个菜单项目,语法为:option value=值 selected=selected显示文字一样,value属性接着的就是发往服务器的值,当提交的时候,就是将select的name属性值与用户选择的某项option元素的value属性值连接,进行发送。Option元素的selected属性设置的是默认选中的菜单项。示例如下:单选选择列表select name=seloption value=图书2视频3 selected=动画4图解多重选择列表,按住shift或ctrl键进行多重选择optionexcelwordppt(八)框架 标签和 标签1、framese

10、t和frameFrame是独立框架,就好像我们的分屏浏览一样,一个屏幕,浏览多个画面一样。语法如下:frameset cols=a%,b%,/ rows =”*,100”frame src=页面A /页面 B/frameset首先框架必须放置在框架结构标签里面(),其rows/columns 属性的值规定了框架每行或每列占据屏幕的面积。另外,frameset和body不能同时使用,除非有noframes,很简单,因为frame其实就描绘文档了,所以,一般不需要再有body进行描绘。另外,框架元素一般放置于head元素內。Frame元素的src属性就是设定了其框架内显示页面的URL。文档跟元素-

11、 框架测试文档frameset rows=50%,50%2、iframeIframe的框架,就类似画中画的效果,在原页面插入一个页面。iframe src =url scrolling=yes/no/auto height=xx width=xxSrc设定框架内要显示的文档的url,scrolling设置是否显示滚动条。Height和widty设置的就是它的高度和宽度。案例如下:第一个框架第二个框架Html就大概讲这一些吧,呵呵,毕竟我们不是要做网页,大家大致了解下就是,还可以参考去学习。一般能做到,看得懂网页的框架结构即可。二、HTML 文档对象模型(HTML DOM)认识了网页文档上面的各

12、种元素,我们怎么访问他们呢,是通过什么机制实现的呢?HTML文档,向程序们,提供了访问其元素的端口,这就是HTML DOM,其定义了一套标准的针对 HTML 文档的对象访问或操作的机制。现在DOM有多个版本,本文还是以最基础的DOM 1(98年颁布)这个版本。1、VBA访问IE网页文档的程序模板讲访问前,我们先简要讲讲,如何用VBA调用IE,直接给个模板吧,详细的IE对象的属性和方法等,我们后面的课会再讲:Sub test()Dim ie, dmt Set ie = CreateObject(InternetExplorer.Application) 创建一个IE对象 With ie .Vis

13、ible = True 显示它 .navigate 加载某个页面 Do Until .ReadyState = 4 等待页面加载完毕 DoEvents Loop Set dmt = .document 将IE浏览器加载的页面文档,赋予dmt变量 开始操纵页面,或者提取数据啦 End WithEnd Sub通过上面这个模板,我们就可以创建一个IE对象,并将其页面文档对象赋予dmt变量,这样,我们通过dmt变量,就可对页面元素,进行后续的访问以及操作。2、HTML DOM 对象和我们EXCEL的对象集合的层次结构类似(WORKBOOKS-WORKSHEETS-CELLS等),HTML DOM为网页

14、文档也组织了一个对象集合的分层次模型。另外,从上一节标签和元素的学习,大家也可以大致的得知,元素是可以拥有元素的,所以,这个分层的模型完全是合理的。HTML DOM的对象模型类似如下图:但是,VBA直接支持调用的对象有限,如下:对象描述Document代表整个 HTML 文档,可被用来访问页面中的所有元素Anchors代表 元素集合Body 元素FormsFrames 元素或Options 元素集合(select元素里面可以直接使用)Cells 元素集合(table元素里面可以直接使用)RowsAll对象集合,提供对文档中所有 HTML 元素的访问。VBA支持直接调用对象的元素,调用就非常方便

15、了,可以用序号调用,例如forms(0),也可以按名称/ID调用,例如forms(“名称/ID”)。其他没法直接调用对象的元素,可以间接从通用all对象集合中去调用该元素或该元素对应的dom对象,或者还可以从文档树模型去调用。如下阐述。3、文档树在HTML DOM中,文档的每一部分都是节点,整个文档被定义为一个文档节点,每个标签是一个元素节点,包含在元素中的文本是文本节点,每一个元素的属性是一个属性节点。形象的比喻做一棵树吧,根节点就是html,主干就是body等,枝干就是body内含的各种元素节点,叶子和花就是元素节点关联的元素的属性(属性节点)或内含文本(文本节点)。自己画的图太丑了,直接

16、引用w3school的图吧:当HTML DOM在解析网页文档的时候,就按整个文档的结构生成一棵树,全部保存在内存中,我们可以随时访问任何节点。总之,网页文档,可以说是由元素组合而成的,也可以说是由节点连接而成的树构造的。节点是文档树结构中特有的名词,元素是节点,但是节点不一定是元素,节点还有文档节点、文本节点、属性节点等;元素是元素节点的扩展,元素可以拥有属性还有文本。初学者不是很必要纠结元素和节点的区别,这个需要甚至数据结构、类和继承等知识。可大致理解为,同一个html dom对象,提供的两个不同接口。有兴趣的朋友,可以按F8运行下面这个程序,然后本地窗口观察bd这个dody对象,你会发现,

17、他既有支持node(节点)的相关属性和方法,也提供了element(元素)的相关属性和方法。Dim ie, dmt, bd Set bd = dmt.body 将文档的body赋予bd变量4、如何通过文档树查找所需的网页元素打个比方吧,当我们要掏大树上的鸟窝,有几种方式呢?(1)首先,当我们可以目测到,鸟窝在哪个节点的时候,我们可以用梯子,爬上去,直接掏。因此,当我们可以很清晰的观测到,节点的某些属性时,就可以直接定位它。元素节点的主要的定位属性有:id、name和索引号。还记得吗,元素起始标签的语法:标签 id=xx value=”xx”.,当初一定很疑惑吧,为啥要有名字或id等属性,现在明

18、白了吧,和我们的姓名和学号一样,为了比较容易的找到我们。那索引号是什么呢,就例如我们从树根出发,清点树上的果子,给每个果子编号,这样我们就很容易知道,哪个号的果子成熟了,或者被虫子咬了。一样的,我们可以按源代码书写的顺序,给每类的元素的成员进行编号(类似每类元素,形成一个数组,从0开始编号)。通过元素类别和编号,我们可以很容易的找到它。另外,例如我们中学的老师,上课时,要抓人提问,可以用学号,也可以通过小组,哪一排,第几个学生,起来提问。因此,索引号,也有整个文档的,和同类元素之分。殊途同归,无论你点这个学员的学号,还是从他的组别的座位号去找他,都是可以的。所以,按统计方式或者起始节点的不同,

19、索引号也会不同。刚刚说的查找工具(也就是打比方里面的梯子)有以下这些:getElementById(“元素的id属性”)或all(“元素的id属性”):返回拥有指定id的元素集合getElementsByName(“元素的name属性”)或all(“元素的name属性”):返回拥有指定名称的元素的集合getElementsByTagName(“标签名称”)或all.tags(“标签名称”):返回该类标签的元素集合。all(索引号):返回指定索引号的元素节点。(2)其次,当我们仅听到鸟鸣声,却不知道鸟窝在哪里的时候,有时候,我们只能顺藤摸瓜,开始爬树,沿着树干进行判断,最后攀爬到鸟窝处。或者,可

20、能大概知道个方位,先架梯子,到某个主干,再从那里开始查找。因此,当我们找不到清晰的属性去定位网页元素时,我们可以从body元素/节点开始,一级级去寻找,也可以先定位到它的毗邻节点/元素,再通过判断,去查找它的精确位置。从节点方面而言,树形的模型的节点有个特征,除了根节点,每个节点均只有一个父节点(parentNode),有一个或者多个子节点(childNodes,类似一个对象集合或对象数组,从0开始编号)。因此,通过节点的亲属关系,进行判断查找,我们就可以一步步的在父子节点中切换,获取所需的元素。节点有一些属性,可以利于我们的查找判断,如下:nodeName(节点名称):元素节点的名称为其标签

21、名,属性节点的名称为其属性名称;nodeValue(节点值):文本节点的值为其包含的文本,属性节点的值为其包含的属性值;nodeType(节点类型):元素节点为1、属性节点为2、文本节点为3、注释节点为8、文档节点为9另外,从元素方面而言,要定位元素的父元素可以通过parentElement属性,定位元素的子元素集合可以通过children属性,判断其标签的名称(tagname),他的值(value),内含文本(innertext)等方式来进行查找。最后,定位节点/元素的下一个同级兄弟可以通过nextSibling属性,定位上一个同级兄弟可以用previousSibling属性。示例的话,后面

22、一起展示。先学懂方法吧。5、网页元素分析工具工欲善其事,必先利其器,很多高手已经提供给我们很多好用的网页元素的分析工具,我们怎么用他们呢?讲两个工具,一个是网页精灵(按键精灵论坛的作品),一个是firebug。首先是网页按键精灵。如附件,操作如下图,输入网址,按“网页分析”,然后按F9,将鼠标指向需要分析的页面元素,例如文本框,则得出元素相关的属性。下方得出的有,标签的名称,元素的id,元素的name,元素的索引号(第几个input标签,从0开始编号)。复习下上面说的概念?就想象网页文档是个班级,标签就是学习小组,其中input这个学习小组里面,有个人的名字name是wd,他的工号id是kw,它在小组里面座位号是0。我们,就是用这些标示,来找到这个元素的。另外,在firefox浏览器,还可以使用firebug,直接对页面元素单击右键,使用“使用firebug查看元素”的菜单

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1