毕业设计论文新闻自动提取系统.docx

上传人:b****6 文档编号:4771127 上传时间:2022-12-08 格式:DOCX 页数:29 大小:257.32KB
下载 相关 举报
毕业设计论文新闻自动提取系统.docx_第1页
第1页 / 共29页
毕业设计论文新闻自动提取系统.docx_第2页
第2页 / 共29页
毕业设计论文新闻自动提取系统.docx_第3页
第3页 / 共29页
毕业设计论文新闻自动提取系统.docx_第4页
第4页 / 共29页
毕业设计论文新闻自动提取系统.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

毕业设计论文新闻自动提取系统.docx

《毕业设计论文新闻自动提取系统.docx》由会员分享,可在线阅读,更多相关《毕业设计论文新闻自动提取系统.docx(29页珍藏版)》请在冰豆网上搜索。

毕业设计论文新闻自动提取系统.docx

毕业设计论文新闻自动提取系统

摘要

新闻自动提取系统是伴随Internet的发展而出现的,它实现了既让用户享受到Internet的新闻服务,又提高了企业或公司的网络安全性和资源利用效率的双重功能。

系统用Delphi自动地从Internet上将网上新闻用二级文本分析技术提取出来并存储进数据库,然后再用通过访问SQLServer数据库将新闻发布,供局域网内的用户浏览和查询。

系统具有自动性、经济安全、易改变性和开发工具新的特点。

新闻的提取、数据库更新及网页内容的更新全部是自动实现的,不需要人工干预,这就大大节省了人力资源;系统只有一台主机与Internet相连,提高了安全性,也节约了费用;系统采用模块式编程方法,当某部分改动时只需改写少量代码就能保证系统重新正确运行;系统用下一代Windows系统工具开发,所以有很强的沿用性。

关键词:

新闻提取;NGWS;Internet;N级网页

Abstract

Theautomaticnewsextractsystemisbornwiththedevelopmentofinternet.Itimplementstwofunctionsatthesametime,oneistoletusersshareinternetnewsservice,theotheristoimprovetheenterpriseorcompany’snetworksecurityandresourceefficiency.

Thesystemusestwo-leveltextanalysistoextractnewsfrominternetthenstorethemtodatabaseautomatically,afterthatuseasdevelopingtoolstoaccessthedatabaseanddistributethenewstolocalareanetworkforuserstoexploreandquery

informationthattheyneed.

Thefeaturesofnewsextractsystemareautomatism,securityandprice,flexibility,newdevelopingtool.Themainfeatureofthesystemisnewsextract,databaseaccessandwebrefreshareautomaticimplemented,it’snoneedtointervenebyman,somuchmorelaborissaved;Inthewholesystemthereisonlyonemainframeisconnectedtointernet,thesecurityisimproved,theexpenseislessaswell;Thesystemtakesmoduleprogrammingcodedmethod,whensomepartneedstobechanged,rewriteseverallinesofcodecanmakethesystemfunctioncorrectlyasbefore;ThelastpartofthesystemisdevelopedbyASP.net,whichiscalledNGWS(nextgenerationwindowssystem),soitcanbeusedforalongtime.

Keyword:

NewsExtract;NextGenerationWindowsSystem;

Internet;N-levelweb

第1章新闻自动提取系统概述

系统简介

新闻自动提取是指一台计算机作为主机将Internet上的新闻自动提取到本机,然后以网页的形式发布出去,供局域网内的其它用户访问浏览。

而新闻自动提取系统就是运行在主机上完成上述功能的一套软件。

系统功能

(1)本系统可提供多个网站的新闻,用户能选择自己喜爱的网站;

(2)系统已将新闻分成教育、体育、财经、娱乐等多类,用户可依兴趣选择

类别,系统还提供了简单的模糊查询的功能;

(3)本系统的新闻随着internet上网站的更新而变化,也可将新闻存储起来,形成一个可查询的信息库;

(4)本系统可扩展为图片、MP3、MTV等自动提取系统。

系统组成

系统前端开发工具为Delphi和ASP.net,后台数据库为SQLServer,因此,系统也由三大部分组成:

SQLServer部分,Delphi部分,部分。

(1)SQLServer部分

这部分要创建数据库、数据表、表结构及对数据库的安全性和数据进行管理,也包括建立用户登录、数据冗余等控制。

(2)Delphi部分

这部分用Delphi定时访问Internet的各大网站,将其上的新闻提取出来,并依靠Delphi的数据库访问机制按新闻类别存入相应的数据表,这部分还有对数据库进行清空、查看等功能。

(3)部分

这部分主要将数据库中的新闻发布出来,并实现按关键字对新闻内容的简单查询,实际还实现了添加、删除、排序等功能。

系统特点

(1)整个系统完全是自动执行的,包括新闻提取、数据库更新、网页内容的更新,这就使网络管理员从繁重的人工下载中解脱出来;

(2)系统具有良好的扩展性,它可扩展为图片、MP3、MTV等许多自动提取系统;

(3)在数据库设计时和数据插入时考虑到了数据冗余的控制。

(4)由于系统用到的主要编程工具是Delphi和,所以系统有很好的网络性能。

系统创新

(1)整个新闻提取过程完全靠程序实现,而且库中的内容随各大网站新闻内

容的变化而自动刷新,刷新的间隔在最初设定,不需要人工干预,这是系统最突出的特点;

(2)在用Delphi提取新闻内容时,从理论上不但可以提取出各大类主页中所

有二级新闻的内容,而且经改进后可获取多级新闻内容,这是在理论上的重大突破;

(3)提取经济、娱乐、体育等类新闻的标题可直接从二级页的网页标题提取,

大大化简了对标题的提取,也更直观;

(4)系统对每类新闻都有一个备份表用于存储所有提取过的新闻,这样用户

不但可以选择看最近的新闻,也可看历史上的新闻;

(5)系统提供了让用户根据自己的兴趣按关键字选择想要的新闻,即模糊搜

索功能。

第2章开发工具介绍

2.1.1Delphi的基本功能简介

Delphi是当前最强大,最灵活的基于Windows的可视化应用程序开发工具。

它将可视化技术与ObjectPascal语言完美结合,具有良好的数据库访问能力,是一个非常强大的应用程序开发组件的集合,被喻为“第四代编程语言”。

是Borland公司继后的又一力作。

Delphi的功能十分强大,这里只分类介绍如下:

(1)灵活的VCL(VisualComponentLibarary)组件[1]

VCL是Delphi最重要的组成部分。

在设计时添/删除组件、自定义组件、使用面向对象技术继承其它组件的行为,这些能力都是决定Delphi效率的关键因素。

在许多场合,编写VCL组件都采用固定的面向对象的程序设计方法。

(2)强大的数据库功能

Delphi具有所有工具中最灵活的数据库结构,对大多数基于数据库平台的应用程序来说,BDE(BorlandDatabaseEngineer)的功能已足够强大,程序设计人员无需直接同数据库文件打交道,就可以操作和处理各个数据库文件。

(3)完善的网络编程功能

作为一种流行的编程语言,优良的网络性能是十分重要的。

Delphi提供了很多与网络的接口,使用起来非常方便,而且Delphi程序可在Windows和Unix操作系统下运行,无需改变代码,所以说Delphi有强大的网络功能是当之无愧的。

的新特性[2]

(1)通过完全基于SOAP的网络服务和XML数据交换支持,从根

本上简化了在互联网上构筑下一代电子商务的程序。

XML及网络服务技术和的无缝融合为工业标准化的网络服务和互联网上B2B、B2C和P2P的集成带来了唯一的快速开发工具。

(2)WebSnap使得Delphi能够直接融入当今的网站开发团队。

通过WebSnap,

Delphi程序能够无缝地集成到网站和使用现今流行的HTML开发环境(如Dreamweaver、FrontPage、VBScript和JavaScript)的网站开发团队中。

(3)编写单一源代码的Windows/Linux程序。

和Kylix兼容,使用

交叉平台的CLX控件库和可视化设计器编写的高性能、可移动式的Windows程序能在Linux上用BorlandKylix轻松编译。

(4)支持最新的Windows2000/Me和Office2000图形用户接口。

通过ActionBands、ActionManagers和ShellControls可以轻松制作最流行的、符合微软UI最新趋势的动态用户界面。

通过让最终用户完全自定义他们自己的UI使用来排除复杂的用户界面。

2.1.3Delphi的IDE环境

当我们打开Delphi6.0的时候,首先进入的就是它的集成开发环境(IntegratedDevelopmentEnvironment,IDE),我们编写、运行和调试程序就是在这个环境中完成的。

在Delphi6.0中,集成开发环境由碟码编辑器、调试器、工具栏、图像编辑器和数据库工具组成,所有这些以集成的方式进行操作。

(1)主菜单

主菜单是位于屏幕最顶端的主控窗口的菜单栏,通过它几乎可以访问所有的Delphi的提供工具。

(2)工具条

工具条提供了一组快捷的按钮来让用户能迅速访问到Delphi6.0中常用功能。

(3)控件模板

位于主控窗口工具条右边的就是控件模板,通常我们也将它们称为Delphi的组件。

Delphi6.0将很多功能相近的控件放在同一个控件组中。

按一般情况来说,只需要双击一个控件就可以把它放到应用程序的窗体中去。

使用Delphi进行编程大部分情况就是使用各种控件,只要掌握了基本控件的使用方法,你就可以很方便地编制出一般的应用程序了。

(4)窗体设计器

当你第一次运行Delphi6.0的时候,在整个界面的中间可以看到一个标题用程序的外观进行设置,它是整个Delphi应用程序设计的基础。

在Delphi6.0的窗体设计器是所见即所得的,你可以在窗体上任意放置自己所需要的可视或者是不可视控件。

(5)代码编辑器

位于窗体设计器的下方的那一块编辑区域称为代码编辑器。

在Delphi6.0中,代码编辑器由两部分组成,左侧是一个代码分析器,它可以让你很方便地找到应用程序中的类、各种定义的方法和变量等。

右侧则是用户输入代码的地方,我们从代码编辑器窗体上的标签可以看到,现在打开的文件是Unit1.Pas文件,每一个编辑的文件都可以打开在一个标签页中,你可以通过点击标签的方法方便地在工程的各个文件之间进行切换。

代码编辑器是程序员编程的一个环境,几乎所有的代码都在这个地方进行输入、运行和调试。

Delphi6.0提供的代码编辑器除了具有一般文字编辑器的功能外,还有很多体贴的设计。

例如当你在输入代码时,Delphi会自动分析你的代码,以各种不同的颜色和状态来区别不同的代码、函数和关键字。

例如,在默认的设置中,关键字是黑体的,数字是蓝色的,而注释的段落则是斜体的,这样能方便程序员整理和组织自己的代码。

另外值得一提的是,在Delphi中,代码编辑器有一种很神奇的功能,称为CodeInsight,当输入Delphi所能识别的对象名称并打上一个“.”的时候,Delphi会自动分析这个对象所具有的属性和方法,把它直接放在“.”后面的下拉列表中去,这样你可以直接在下拉列表框中选择所需要的东西就行了。

同时,当你在写程序需要调用一个过程或方法的时候,只要输入了该方法的名称,然后加一个“(”,Delphi就可以智能地将所需要的参数依次列出;在应用程序调试的时候,如果将光标放在某个变量或表达式上停留一段时间,Delphi就会自动列出表达式的值。

(6)对象观察器

在Delphi6.0整个界面的最右边,有一个称为“ObjectInspector”的窗体,它就是对象观察器了。

一个对象观察器由两个标签页组成:

Properties(属性)和Event(事件),当我们在窗体设计器中选中一个控件,它所对应的属性和事件就会列在这个对象观察器中。

以上介绍了Delphi的IDE编程环境,如果要了解其性能,还需动手实际编写程序。

SQLServer简介

2.2.1SQLServer的文件系统和特点

Microsoft公司的SQLServer是一个完全的数据库管理系统。

SQLServer是一种使用传统的Transact-SQL语言,基于客户机/服务器,并且在两者间传送请求和答复的关系型数据库管理系统。

SQLServer使用客户机/服务器体系结构将所有的工作分解为客户机任务和服务器任务,由两者分别完成。

在SQLServer2000中,数据库文件可以分为三种类型:

主文件、辅助文件、日志文件,扩展名分别为:

.mdf,.ndf,.ldf。

每个数据库中都有一个主文件,主文件是一个数据库的起点。

辅助文件的个数没有限制,可以有一个或者多个辅助文件,也可以没有辅助文件。

这主要是看数据库本身的大小和复杂情况。

数据库的事务日志文件记录了数据库中所进行的一切改变。

它在恢复数据库时非常重要,它保存了所有当系统出错时恢复数据库时所需要的信息。

缺省情况下,事务日志记录的尺寸为数据文件的1/4,每一个数据库必须有一个日志,而且,事务日志必须与数据存在不同的文件中。

在SQLServer2000中,使用文件组来管理具有相似特征的一组文件。

一个主文件或者辅助文件只能属于一个文件组,日志文件是独立的,不属于任何文件组。

而一个文件组也只属于一个数据库。

在SQLServer2000中,对数据库的一切操作,都可以通过两种方式进行:

一种是通过图形化的工具:

EnterpriseManager,另一种是通过使用Transact-SQL语言,直接进行对数据库的操作。

前一种方式,比较直观,操作简单。

后一种方式,比较复杂,需要对Transact-SQL语言语法特别熟悉。

SQLServer2000是Microsoft公司于2000年8月推出的最新数据库引擎,商务数据仓库的数据库解决方案,它具有以下几个特点:

(1)熟悉的界面

作为大型电子SQLServer2000与SQLServer7.0就界面而言并没有太大差别,相信许多曾经使用过SQLServer7.0的读者见到2000时会有一种十分熟悉的感觉,这方便了用户从7.0版本到2000的升级:

(2)更加强大的数据引擎

SQLServer2000拥有增强的数据引擎,高级的管理方式,这样就大大降低了检索的开销。

此外SQLServer2000支持XML,HTTP,并与Web相结合,使其功能更加强大。

(3)与Windows2000更好的结合

(4)MSSQLServer2000相对其他数据库产品,更好地利用了Win2000的优势。

此外SQLServer2000还支持高达32个CPU,64GB。

2.2.2数据库管理系统的基本概念

(1)数据库的安全性

在计算机系统中,安全措施一般是分级设置的,在数据库系统中,对数据的存取权限一般支持自主存取控制和强制存取控制两种机制,以对数据提供保护。

在自主存取控制中,用户对不同的数据对象有不同的存取权限,不同的用户对同一对象也有不同的权限,用户还可将自己的权限转授给其他用户。

而强制存取控制中,每一个数据对象被标以一定的密级,每个用户也被授予某密级的许可证,因此只有数据对象的密级和许可证上标明的密级相匹配时用户才能存取数据对象。

通过为不同的用户定义不同的数据视图,就可以向不同的用户展示不同的数据,这样实现了一定程度的数据隐藏,因而能对数据提供保护。

此外,可以利用数据库系统提供的审计功能将所有用户对数据的操作自动记录下来,存入电子记录簿,必要时可用它跟踪某些用户对数据库的操作。

最后常用的安全措施还有数据加密技术,即将数据通过一定方式变换成密文保存在数据库中,必要时再变换成原始数据。

若非法用户不知道解密的方法,即使读取了数据也不明白其含义。

(2)数据的完整性

数据库的完整性指数据的正确性和兼容性。

数据库管理系统一般提供下面三种手段支持数据的完整性。

·定义功能向用户提供定义完整性约束条件的机制。

·检查功能检查用户的操作是否违背了完整性约束条件。

·错误处理功能在检查到用户的操作违背了完整性约束条件后,就采取相

应的应对措施。

(3)数据库恢复

虽然数据库系统是非常可靠的,但是有时也会遭到各种破坏活动,包括自然的和人为的原因。

例如自然灾害、硬件故障、软件故障和人为破坏等。

如何将数据库恢复到一个已知的正确状态就是数据库的恢复。

数据库的恢复经常涉及到下面两个问题。

·如何建立数据备份

·如何利用所建立的数据备份恢复数据库

建立数据备份常用的技术是数据转储和覆盖文件,一般同时使用这两种方

法。

数据转储就是管理人员定期地将数据备份到磁带或磁盘上以建立数据备份的过程。

利用数据备份可将数据库恢复到建立备份时的状态。

若要将数据库恢复到当前状态,就需要将备份后所有更新数据库的事务运行一遍,因此需要用日志记录运行过的事务。

(4)并发控制

在数据库系统中,通常有很多事务同时运行,同时对数据进行存取和更新,如不加以控制,就会产生下面导致数据一致性错误的三个问题。

·丢失修改事务A和事务B同时操作同一数据库并修改,A先将结果写

入,接着B也将结果写入,这样事务A对数据所作的修改就会丢失。

·不能重读事务A先对数据库作了修改,而事务B接着对数据库作了更新

或修改,或删除或增加某一纪录,这样当事务A第二次读的时候,发现和第一次读的结果不同。

·脏读事务A修改了某一数据,并将其写回磁盘,事务B读了该数据并

使用了该数据,结果因某种原因被取消,它所修改的数据回到了以前的状态,那么事务B所读得数据就是不正确的,也称为读脏数据。

解决这三个问题的主要方法之加锁。

锁有两种类型,即排他锁和共享锁。

如事务A对数据对象加上了排他锁,则该数据对象将由它独占地使用,不能被其他事务读取、修改和加锁,直到事务A释放自己加的排他锁。

若某事务A对数据对象加上了共享锁,则它只能读这个数据对象而不能修改它,其他事务也可以在该数据对象上加共享锁,而不能加排他锁。

在对数据对象加锁时,需要遵循一定的规则,这些规则称为加锁协议,常用的是三级封锁协议,现介绍如下。

一级封锁协议事务在修改数据之前必须先对其加排他锁,事务结束时释放所加的锁,若需要读操作,则不用加锁。

这样就解决了修改丢失问题,但是解决不了不能重读和脏读。

二级封锁协议在一级封锁协议的基础上,加上事务在读取数据之前必须先对其加共享锁,读完后可释放共享锁。

二级封锁协议可以解决读脏数据的问题,但不能解决不能重读问题。

可以形象地说明为:

事务A在对某数据对象修改之前,对其加上排他锁,事务B要读取该数据对象,需要给其加共享锁,但因为有事务A所加的排他锁,这样B只能等待事务A由于某种原因被撤消,释放了所加的排他锁,而且数据对象也恢复到原来状态。

事务B对数据对象加上了共享锁,读得正确的数值。

三级封锁协议在二级封锁协议的基础上,加上事务在读取数据之前必须先对其加共享锁,直到事务结束才释放共享锁。

可以形象地说明如下:

事务A在对某数据对象读取之前,对其加上共享锁,事务B想要修改该数据对象,需要给其加排他锁,但因为有事务A所加的共享锁,这样B只能等待,不能加上排他锁。

事务A再读一次数据对象,所得的当然是正确的结果事务A完成,释放所加的共享锁,这时事务B才获得使用数据对象的机会。

2.3新一代网页开发工具

概述

AS是Microsoft公司动态服务页面(ActiveServerPage)的最新版本,它是该公司提供的基于服务器的强大的技术,用于为万维网站点或企业的内部网创建动态的、交互式的HTML页面。

ASP.net作为ASP与.NET相结合的产物,是以前各版本ASP的一大飞跃。

AS作为新一代的网络开发工具,不仅与ASP以前的版本相兼容,而且增加了许多新的功能。

总结起来有以下几个方面:

[3]

(1)多语言支持。

ASt支持四种编程语言,用户可根据自己特长和实际

需要进行选择,甚至可以用这些语言的组合来编程。

(2)兼容性。

AS和ASP完全兼容,对于以前的ASP文件,仍可在IIS

环境下运行。

AS文件以新的扩展名出现。

即.ASPX,可以清楚的区分新老文件。

(3)分离程序代码和网页内容。

在ASP中网页显示的HTML标记和程序代码

混在一起,给人以杂乱无章的感觉。

在AS中引入了全新的HTML编程模式,包括全新的服务器端控件,表单的事件驱动、数据绑定等,将程序代码与接口清楚地分开。

在开发效率、性能、可靠性和部署上的结合都是前所未有的,下面详细介绍。

[4]

(1)开发效率

帮你在极短的时间内开发出真正的大量的网页应用程序。

·简便的编程模型

显著简化了构建真正的大规模的网页应用程序。

et服务管理使与HTML类型相似的编程变得比经典ASP编程所用的代码大大减少。

显示数据,用户输入的有效性验证和上传文件都惊人的容易。

最重要的是,网页可在所有的浏览器中运行——包括Netscape,Opera,AOL,andInternetExplorer。

·灵活的语言选择

使你最大效率的发挥你当前编程语言的技巧。

不像经典的ASP,仅支持解释后的VBScript和Java支持的.NET语言超过25种(包括支持VB.NET,C#和JS的混合——而不需要其它的工具)。

在语言的选择上,为您提供了空前的灵活性。

·强大的工具支持

您可以用任何一种文本编辑器展示的强大功能,即使是记事本也行但VisualStudio.NET提高了网页的基本可视化类型的开发效率。

现在你可你所熟悉的拖—放—双击技术可视化的设计网页窗体,并享受完全快速的编码。

·丰富的类框架结构

应用程序的特色通常很难实现,或需要第三方控件,但现在只用几行代码引用.NETFramework就能实现。

.NETFramework提供了超过4500个类,封装了丰富的功能,像XML,dataaccess,fileupload,regularexpressions,imagegeneration,performancemonitoringandlogging,transactions,messagequeuing,SMTPmail等等。

(2)改进的性能和可测量性

让您能用相同的硬件为更多的用户服务。

·编译执行

比经典ASP更快,而不是ASP的单步保存模型。

然而,编译时没有明确的编译单步。

将自动检查任何变化,动态编译需要文件,并存储将要用到的结果。

这样便使执行的速度加快,大部分经典ASP移植到上速度提高3-5倍。

·高速输出缓存

输出缓存可显著改善程序的性能和可测量性。

当输出缓存在一个页中可用时,只执行这个页一次,并

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 文化宗教

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1