互联网网页文本对象抽取实现技术毕业设计论文.docx

资源描述

互联网网页文本对象抽取实现技术毕业设计论文.docx

《互联网网页文本对象抽取实现技术毕业设计论文.docx》由会员分享，可在线阅读，更多相关《互联网网页文本对象抽取实现技术毕业设计论文.docx（38页珍藏版）》请在冰豆网上搜索。

互联网网页文本对象抽取实现技术毕业设计论文.docx

互联网网页文本对象抽取实现技术毕业设计论文

毕业论文

互联网网页文本对象抽取实现技术

摘要

互联网中蕴含着大量的关于现实世界对象的结构化信息。

为了能应对信息爆炸带来的严重挑战，抽取、集成网页上各式各样的文本对象信息，进行对象级别的搜索，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。

网页文本对象抽取实现技术正是解决这个问题的一种方法。

本文以传统的信息抽取理论和方法为基础，针对目前热门的博客领域，提出了一种基于HTML特征和机器学习的博客正文抽取算法。

在该算法中，研究了博客网页的特征，提出了一种基于HTML标签特征的网页分块算法，使用决策树算法对博客数据集进行统计训练，采用专门的统计工具WEKA对该算法进行了测试和评估，并总结出该算法的优点以及可以改进的地方。

最后，展示了基于该博客正文抽取算法的博客搜索引擎Geeseek的系统结构和界面演示。

该系统属于新型的垂直搜索引擎，能够对博客和博文进行快速有效的搜索。

据了解，Geeseek也是目前国内高校中第一个博客搜索引擎。

关键词：

互联网，信息爆炸，信息抽取，博客，HTML，机器学习，决策树，搜索引擎，Geeseek

ImplementationoftextobjectextractionforInternetwebpages

Author:

ZhangHui

Tutor:

LinYaping

Abstract

Nowadays,thereisalargenumberofsemi-structuralinformationwhichrepresentsobjectsintherealworldontheInternet.Inordertodealwiththeseverechallengebroughtbyinformationexplosion,extractandintegrateallkindsoftextobjectinformationonwebpages,andputuptheobject-levelsearching,itcriesfortheautomatedtechnologiestohelppeoplefindtheveryinformationtheyreallyneedamongsuchalargenumberofinformation.Thetechnologyoftextobjectextractionisjustoneofmethodstosolvethisproblem.

BasedonthetraditionaltheoryofInformationExtractionandaimingattheblogdomain,thispaperputsforwardanarithmeticimplementingtheextractionfunctionforthetextobjectsofblogarticleswiththeHTMLfeaturesandmachinelearning.Inthisarithmetic,itanalysesthefeaturesofblogpages,introducesanarithmeticforwebpagepartitionbasingontheHTMLtagfeatures,usesdecisiontreetodostatisticsandtrainingontheblogdataset,testsandevaluatesthisarithmeticusingtheexpertstatisticaltool,WEKA,andsummarizestheadvantagesaswellasthepointsneedingimproving.Finally,itshowsthesystemarchitectureandinterfacepresentationoftheGeeseek,ablogSearchEnginewhichappliesthetechnologyoftextobjectextractionforblogpages.Thissystemblongstothenew-styleverticalSearchEngineandisabletosearchforthebloghomepagesandblogarticlepagesquicklyandeffectively.Sofarasweknow,GeeseekisthefirstblogSearchEngineinallthecollegesinChina.

Keywords:

Internet,informationexplosion,InformationExtraction,blog,HTML,machinelearning,SearchEngine,decisiontree,Geeseek

1.绪论

本章介绍了课题的背景和研究现状，并对全文的内容和结构作了概括。

1.1课题背景及目的

为了应对信息爆炸带来的挑战，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。

信息抽取（InformationExtraction,IE）正是解决这个问题的一种方法。

信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。

也就是从文本中抽取用户感兴趣的事件、实体和关系，被抽取出来的信息以结构化的形式描述，然后存储在数据库中，为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。

广义上信息抽取技术的抽取对象并不局限于文本，其他形式存在的信息也可以作为信息抽取的对象，而抽取的结果则变为相应的结构化数据。

广义上信息抽取的过程如图1.1所示。

图1.1信息抽取示意图[1]

从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期，这被看作是信息抽取技术的初始研究，它以两个长期的、研究性的自然语言处理项目为代表。

美国纽约大学开展的LinguisticString项目开始于60年代中期并一直延续到80年代。

该项目的主要研究内容是建立一个大规模的英语计算语法，与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式（InformationFormats），这种信息格式实际上就是现在所说的模板（Templates）。

另一个相关的长期项目是由耶鲁大学RogerSchank及其同事在20世纪70年代开展的有关故事理解的研究。

由他的学生GeraldDeJong设计实现的FRUMP系统是根据故事脚本理论建立的一个信息抽取系统。

该系统从新闻报道中抽取信息，内容涉及地震、工人罢工等很多领域或场景。

该系统采用了期望驱动（top-down，脚本）与数据驱动（bottom-up，输入文本）相结合的处理方法。

这种方法被后来的许多信息抽取系统采用。

从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要得益于消息理解系列会议（MUC，MessageUnderstandingConference）的召开。

正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。

[2]目前，随着对信息抽取技术的不断发展，各种抽取系统也层出不穷。

当前的发展趋势在慢慢减少人工标记的分量，而采用非标记的训练模型来实现Web信息抽取。

根据这一趋势，信息抽取系统可以分成四类：

人工构造的抽取系统、基于指导的抽取系统、半指导的抽取系统以及非指导的抽取系统。

[3]

互联网多年的自由发展使得大量无结构信息的积累成为现实，这些信息为互联网用户带来更多选择的同时极大地增大了人们获得所需信息的复杂度。

网络搜索引擎的发明在一定程度上缓解了这种窘境，通过网络搜索引擎服务商对信息的收集和筛选，人们能够方便地获得某些所需信息。

这样就出现了一项与信息抽取密切相关的研究——信息检索（InformationRetrieval,IR）技术。

信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。

信息抽取与信息检索存在差异，主要表现在三个方面：

1、功能不同。

信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表；而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。

2、处理技术不同。

信息检索系统通常利用统计及关键词匹配等技术，把文本看成词的集合（bagsofwords），不需要对文本进行深入分析理解；而信息抽取往往要借助自然语言处理技术，通过对文本中的句子以及篇章进行分析处理后才能完成。

3、适用领域不同。

由于采用的技术不同，信息检索系统通常是领域无关的，而信息抽取系统则是领域相关的，只能抽取系统预先设定好的有限种类的事实信息。

虽然信息抽取与信息检索有区别，但两种技术是互补的。

为了处理海量文本，信息抽取系统通常以信息检索系统（如文本过滤）的输出作为输入；而信息抽取技术又可以用来提高信息检索系统的性能。

二者的结合能够更好地服务于用户的信息处理需求。

[2]

信息抽取技术对于搜索引擎的发展有着重大的意义，它推动着通用搜索引擎向新型的垂直搜索引擎发展，从而能够更好地满足用户的需要，让搜索变得更快、更直接、更有效。

通用的搜索引擎是基于网页级别的，因此有时候无法直接获得想要的信息，而是需要点开很多个链接，分别在这些网页中去找寻所需要的信息。

很多时候，用户得到的信息往往不是事先所期望的，或者信息非常杂乱而零散。

通用搜索引擎在这些方面的不足让人们开始了对搜索引擎更深层、更细致的研究。

如今，新型的搜索引擎把研究单元定格在了对象级别。

互联网快速增长的海量资源使得人们对于搜索引擎的查询结果有了更高的要求，鉴于PageRank的成功，如何基于文本信息抽取的方法，结合HTML网页不同于纯文本的各种特征进行网页信息（包括文本、图片、音频和视频等）的分析和抽取，以改进网络搜索引擎，成为互联网信息检索研究者关注的重要问题。

互联网信息抽取技术通过将无结构或半结构的互联网数据结构化，为理解用户查询与网络文档之间以及不同网络文档之间的相关性提供了基础，从而为改进搜索效率和搜索方式提供了良好的理论依据。

对象级别的搜索引擎的一个显著优点是可以利用对象的语义信息，采用直接或者聚合的结果来响应复杂查询，将具体的搜索结果清晰明了地呈献给用户。

本课题研究的目的旨在传统信息抽取思想的基础上，提出一种互联网网页文本对象的抽取实现方法，为解决当前博客垂直搜索的问题提供一种切实可行的方式。

1.2国内外研究状况

关于信息抽取的研究在国内外已经开展了相当一段时间，本节简要介绍了国内外信息抽取技术研究的进展。

1.2.1国内研究现状

国内对中文信息提取系统的研究起步较晚，还集中在命名实体识别方面，遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。

Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。

在MUC-6和MUC-7上，增加了中文系统的评测项目，国立台湾大学（NationalTaiwanUniversity）和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测，测试了中文命名实体（人名、地名、时间、事件等名词性短语）的识别，取得了与英文命名实体识别系统相近的性能。

当然这只是对中文信息提取作了比较初步的工作，并不能真正进行中文信息提取。

另外，北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨，承担了两个有关中文信息提取项目的工作，即自然科学基金项目“中文信息提取技术研究”和IBM——北大创新研究院项目“中文信息提取系统的设计与开发”。

其目标是研究中文信息提取中的一些基础性和关键性的问题，为开发实用的信息提取技术提供理论指导，并具体探讨信息提取系统设计的各个环节。

[4]Intel中国研究中心的ZhangYimin等人在ACL-2000上演示了他们开发的一个抽取中文命名实体及其关系的信息抽取系统。

该系统利用基于记忆学习（Memory-BasedLearning,MBL）算法获取规则从而实现信息抽取。

这些系统在中文命名实体的自动识别方面取得了一些成绩。

车万翔等人使用基于特征向量的有监督的机器学习算法（SVM和Winnow）对实体关系进行抽取。

两种算法都选择命名实体左右两个词为特征词，并得出结论：

信息抽取系统若需要追求抽取的高性能，则选择SVM算法；若需要追求高的学习效率，则选择Winnow算法。

[1]

1.2.2国外研究现状

信息抽取的前身是文本理解，最早开始于20世纪60年代中期，主要是从自然语言文本中获取结构化信息的研究，这被看作是信息抽取技术的初始研究。

从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要有两个因素对其发展有重要的影响：

一是在线和离线文本数量的几何级增加，另一个是“消息理解研讨会”（MUC,MessageUnderstandingConference）。

从1987年开始到1998年共举行了七届会议对该领域的关注和推动。

MUC由美国国防高级研究计划委员会（DARPA,theDefenseAdvancedResearchProjectsAgency）资助，其显著特点并不是会议本身，而在于对信息抽取系统的评测。

近几年，信息抽取技术的研究与应用更为活跃。

在研究方面，主要侧重于以下几方面：

利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取（Wrapper）以及对时间信息的处理等等。

在应用方面，信息抽取应用的领域更加广泛，除自成系统以外，还往往与其他文档处理技术结合建立功能强大的信息服务系统。

至今，已经有不少以信息抽取技术产品为主的公司出现，比较著名的有：

Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。

目前，除了强烈的应用需求外，正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所（NIST）组织的自动内容抽取（ACE,AutomaticContentExtraction）评测会议。

这项评测从1999年7月开始酝酿，2000年12月正式开始启动，从2000年到2007年已经举办过好几次评测。

这项评测旨在开发自动内容抽取技术以支持对三种不同来源（普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本）的语言文本的自动处理，研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。

与MUC相比，目前的ACE评测不针对某个具体的领域或场景，采用基于漏报（标准答案中有而系统输出中没有）和误报（标准答案中没有而系统输出中有）为基础的一套评价体系，还对系统跨文档处理（Cross-documentprocessing）能力进行评测。

这一新的评测会议将把信息抽取技术研究引向新的高度。

[4]

1.3课题研究方法

本文针对博客领域，以传统的信息抽取思想为基础，对博客网页进行分块处理，并结合机器学习和统计训练的方法获得决策树，从而实现对博客中的文章正文进行抽取的功能。

1.4论文构成及研究内容

本文试着从理论和实现相结合的角度，提出一种基于博客相关信息的抽取实现策略。

首先，阐述了信息抽取理论的发展历史，发展现状。

分析了互联网搜索技术的发展现状，探讨信息抽取与信息检索的区别和联系，并阐述了互联网信息抽取在互联网搜索中的应用状况；

其次，介绍互联网信息抽取的概念，方法，典型流程，具体阐述了本文所讨论的网页文本对象抽取的理论和方法；

再次，以博客网页文本对象抽取为例，介绍了基于博客正文信息抽取系统的实现步骤，给出该抽取实现方法的测试结果，分析此方法的优点和可以进一步改进的地方，并就其意义进行了阐述。

最后，简要介绍了应用互联网网页文本对象抽取技术的博客搜索引擎原型系统Geeseek搜索引擎。

2.Web信息抽取及网页文本对象抽取概述

本章主要介绍互联网信息抽取的概念、方法、典型流程，具体阐述了本文所讨论的网页文本对象抽取的理论和方法。

2.1Web信息抽取的概念

目前各类信息服务网站提供了大量的信息资源，但是互联网用户却很难享受到有效的信息服务，因为用户不可能天天都去访问所有这些网站。

这祥就形成了一种很尴尬的情况，一方面用户迫切需要某些信息资料，另一方面提供有关资料的网站却很少有人访问。

用户需要从多个信息数据源（通常为各网站中的有关信息网页）中同时获得所需要的信息，并能将它们有效地整合在一起。

目前的信息服务还无法有效地整合多个信息服务站点的相关内容，因为互联网的信息发布与浏览均是基于HTML语法而编写的Web网页来进行的。

而Web网页的内容描述是针对互联网用户浏览而进行的相关格式定义设计，并没有为计算机本身阅读和理解这些网页内容提供任何特殊的说明与注释。

因此为了从Web网页中抽取所需要的信息内容（文本信息块）。

研究人员开始把目光转向Web信息的机器抽取工作。

Web信息抽取（WebInformationExtraction，简称WIE）是指：

给出属于同一类型的若干样本网页。

找出它们的源数据集的嵌套结构，并将源数据集从网页中抽取出来。

即通过对原文档倩息内容和结构的分析，抽取出有意义的事实，生成结构化的有价值的信息。

信息抽取流程如图2.1。

图2.1信息抽取流程[5]

Web信息抽取渐渐成为一个崭新而热门的课题，各种应用于网络数据抽取的工具也层出不穷。

从互联网资源中抽取数据的传统方法就是编写特定的程序，这种程序被称为“Wrapper”。

Wrapper是一个能够将基于HTML描述的Web网页内容转换为按照某种结构化描述的数据集合（例如XML数据、关系数据库）的软件程序。

它由信息抽取所需的信息识别与结构影射知识和应用这种抽取知识的处理程序组成。

根据各种工具用于产生Wrapper而采取的不同技术，目前的Web数据抽取工具可分为六种：

Wrapper开发语言，可感知HTML的工具，基于NLP的工具，Wrapper归纳工具，基于建模的工具，基于语义的工具。

[6]

2.2Web信息抽取的方法

Web信息抽取的方法主要可以分为以下两类：

一类是基于层次结构的信息抽取归纳方法，如WHIRL、Ariadne、CiteSeer等，基于层次结构的Wrapper归纳方法。

尽管页面的类型、结构、版面各异，但对于某个网站来说，页面的组织结构一般具有一些特定的规律。

如内容经常是以层次结构方式来组织的，页面中的项目以及项目之间的关系具有明确的模式。

基于层次结构的Wrapper归纳方法引入嵌套目录捕述方法（EmbeddedCatalog，简称EC），该方法将页面内容按照层次结构树（EC树）的形式加以描述。

EC树的叶节点用以描述用户感兴趣的相关数据；EC树的内部节点用以描述由多个项目组成的列表。

其中每个项目既可以是叶节点，也可以是项目列表（项目嵌套）。

EC树中每一条边均与一个抽取规则相关联，每一个列表节点与一个列表循环规则相关联，根据从根节点到相应叶节点的路径。

依次从父节点抽取路径上的每个子节点，Wrapper就能够从页面中抽取任何用户感兴趣的项目。

另一类是基于概念模型的多记录信息抽取方法。

即对特定WWW数据源研制相应的Wrapper。

通过记录识别获得记录相对应的信息块格式。

利用Wrapper进行有效的记录抽取。

步骤是设计构造描述特定内容的本体模型（OntologyModel），并由此产生一个数据库模式以及产生有关常量、关键字的匹配规则。

抽取信息时系统调用记录抽取器将页面分解为若干单个记录信息块，并除去其中的标记。

利用由分析器（Parser）产生的匹配规则，从所获得的单个信息块中抽取有关的对象以及它们之间的关系。

并将他们存入数据记录表（Data-RecordTable）；最后利用启发知识，并根据有关的数据库模式，将所获得的数据填人相应的数据库中。

利用启发知识，在所抽取的常量与关键字之间建立关联。

并利用层次结构中的约束。

来决定如何构造数据库中的有关记录内容。

[5]

2.3Web信息抽取的典型流程

信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。

接下来，以美国劳动部的继续教育系统中的课程抽取问题为例，介绍信息抽取的五个主要的子步骤（如图2.2、图2.3所示）：

图2.2课程抽取系统中的示例文章[7]

1、分块，即找到文本片段开始和结束的边界。

例如，在此课程抽取系统中，课程题目需要被抽取出来。

所以，分块的任务就是要找到课程题目的第一个和最后一个单词，不能包含其他无关的词语，也不能剔除过多的词语。

例如在“IntrotoLinguisticsistaught”这句话中，你不能把这句话都包含进来，也不能只保留“Introto”。

2、分类，即确定在文本片段中要抽取的是哪一个目标域。

例如，需要在“IntroductiontoBookkeeping”中抽取课程题目，在“Dr.DallanQuass”抽取课程教师，并在“Thiscoursecovers...”中抽取课程描述。

通常，分块和分类是采用有限状态机而结合在一起实现的。

3、联合，即确定哪些域是属于同一条记录的。

例如，一些课程的描述可能包括好几段文字，而其他的可能就只有一段。

因此，在抽取的过程中就必须确定哪些段落是用于描述同一门课程的。

这个课程抽取的问题相对而言还比较简单，课程之间的描述可能是相邻的，关系非常紧密。

如果要在一篇新闻中抽取一次国际贸易商讨会的相关信息，例如双方的代表人是谁，分别来自国家等等，这样的问题就复杂得多了。

因为要抽取的内容关联不大，而且稀疏地分布在文本之中。

因此，在这种需要确定两个实体是否是相互关联的时候，这种过程有时也被称为“关系抽取”。

实现了关系抽取的商业产品往往比仅仅实现了分类和分块的要有价值得多。

4、标准化，即将信息都标准化成一种统一的形式，这样能够进行可靠的比较。

例如，课程开设时间的表达形式多种多样，如“2-3pm”、“3pm-4:

30pm”、“1500-1630”等，如果要考察各门课程的开设是否重现了重叠情况时，就会发现很难对时间做出比较，此时就需要对时间转化成统一的形式。

再譬如，在考虑名字“WeiLi”和“Li,Wei”的时候，也需要确定姓和名的顺序。

通常，标准化是和去重（即将说明的下一步骤）联系在一起的。

5、去重，即去除重复的信息，使得数据库中不会出现重复的记录。

例如，一门课程可能在一个或多个学院开设，从而多次出现在不同的网页中，最终也会被多次地抽取，但是在数据库中只需要保存一条关于这门课程的记录。

图2.3课程抽取系统的五个主要子过程[7]

2.4网页文本对象抽取的理论和方法

随着因特网的普及，网上提供了海量的包括半结构化数据的信息源——网页。

网页与传统的自由文本相比有许多特点，即数据量大、更新快、变化快、形式多样，还包括超链接且跨平台和网站共享，处理自由文本的信息抽取技术不太适用于对网页的信息抽取。

因此需要开发一种合适的信息抽取技术来从大量不同的网页中抽取信息。

无论挖掘的目的是什么，都可以把Web文本挖掘的一般处理过程用

展开阅读全文