ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:26.11KB ,
资源ID:2459199      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2459199.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络信息资源的数据挖掘类型与应用研究.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

网络信息资源的数据挖掘类型与应用研究.docx

1、网络信息资源的数据挖掘类型与应用研究网络信息资源的数据挖掘类型与应用研究来源:网店装修 随着Internet的飞速发展,网络信息资源急剧增长,网络信息过载问题日益突出,人们越来越多地关注如何开发和利用这些资源。然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时,电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势。网络信息挖掘就是在这样的环境下应运而生,并迅速成为网络信息检索、信息服务领域的热点之一。 网络信息的数据挖掘不仅包括对网页内容本身的挖掘,也包括其链接模式,以及用户访问、存取、浏览、发布、

2、操作等操作行为、访问行为所产生的信息的挖掘。有效地研究、挖掘、利用网络信息可以增强网站的吸引力,有的放矢地吸引用户群,更有效地利用网络资源。 一、 网络信息资源及其特点 网络信息资源是指放置在英特网上能满足人们信息需求的信息集合。网络信息资源极其丰富,包罗万象,其内容涉及农业、生物、化学、数学、天文学、航天、气象、地理、计算机、医疗和保险、历史、法律、音乐和电影等几乎所有专业领域,是知识、信息的巨大集合,是人类的资源宝库。网络信息资源是一种新型数字化资源,与传统文献相比有较大的差别。网络信息资源具有一下特点: 1、数量大,类型多传播范围广。网络信息类型多样,有文本、数据、图像、图形、声频、视频

3、信息、多媒体信息等;内容既有高质量的信息,也有有害信息和虚假信息,有个人信息也有在政府信息。最为特殊的是各种非正式信息被广泛生产与传播。 2、网络信息资源没有统一的管理机制,信息安全缺乏保障。黑客攻击、计算机病毒和色情泛滥成为网络的三大痼疾。为防止有害信息耗费了大量的社会资源。 3、网络信息资源分布零乱无序,信息更新快,寿命短,管理相对困难。信息发布自由,来源广泛,内容混杂,质量不一,控制也比较困难。 4、以网站为信息活动的单位,以网页为信息发布和收集的单元。 5、信息利用水平取决于网站软硬件的技术水平和服务能力,网络信息提供方式是以网站为基点并可在网站间灵活链接的信息服务网。 6、网络创造了

4、多层次的信息交流模式,全面反应了社会生活的各个领域,形成了百科全书式的知识网络和传播功能。 二、 数据挖掘的语言 数据挖掘语言有助于数据挖掘系统平台的标准化,推动数据挖掘应用的发展。数据挖掘语言根据功能和侧重点的不同,可分为三种类型:数据挖掘查询语言、数据挖掘建模语言、通用数据挖掘语言。 (一)数据挖掘查询语言DMQL 数据挖掘查询语言DMQL由数据挖掘原语组成。数据挖掘原语用来定义一个数据挖掘任务,通过查询的方式实现与数据挖掘系统通信,获得所需信息。数据挖掘查询语言DMQL主要有五种基本的数据挖掘原语定义:任务相关数据原语、被挖掘的知识的种类原语、背景知识原语、兴趣度测量原语、被发现模式的表

5、示和可视化原语。DMQL 是基于这五种数据挖掘原语设计的查询式语言,类似于SQL 语言的语法,因此很容易与SQL 关系查询语言集成,很容易从关系数据库中挖掘知识信息。MSQL 是另一个数据挖掘查询语言,由Imielinski 和Virmani 提出。它使用了类似于SQL 的语法和SQL原语,为了规范规则产生和规则选择,提出了被称作GetRule 和SelctRule 的原语。 (二)数据挖掘建模语言PMML 数据挖掘建模语言PMML 全称预言模型标记语言(Predictive Model Markup Language),是对数据挖掘模型进行描述和定义的语言,使数据挖掘系统在模型定义和描述方面

6、有法可依,各种数据挖掘系统可以共享模型,又可以在应用程序系统中间嵌套数据挖掘模型,不需要独自开发,就能使数据挖掘达到深度挖掘的目的。预言模型标记语言PMML 是一种基于XML 的数据挖掘建模语言,利用XML 描述和存储数据挖掘模型,使用标准的XML 解析器对PMML 解析,可以得到预计的输入和输出数据类型。PMML2.0 主要由:标题(header)、数据字典(data dictionary)、数据流(data flow)、挖掘模型(mining schema)、数据转换(Derived Values、Statistics、Taxonomy、Normalization)、预言模型(Tree M

7、odel、Naive Bayes、General Regression、Regression Model、Sequences、General Structure、Asscocation Rules、Neural Network、Center and Distribution based Clustering)、模型组合定义(ensembles of models)、选择和联合模型和模型组合的规则(rules for selecting and combining models and ensembles of models)、异常处理的规则(rules for exception handli

8、ng)等九个部分组成。对于复杂的数据挖掘任务,由多个数据源和数据挖掘模块,需要在各个模块之间交换结果,预言模型标记语言PMML 的主要组成部分拥有这种灵活的模型交换能力和数据格式转换能力,并实现模型与数据和工具部分分离。因PMML 是基于XML 的数据挖掘建模语言,适合部分学习、元学习、分布式学习的数据挖掘应用程序。 (三)通用数据挖掘语言OLE DB for DM 通用数据挖掘语言OLE DB for DM是2000年3月微软公司推出的一个数据挖掘语言,目的是为数据挖掘行业提供一个业界标准。OLE DB for DM综合了数据挖掘查询语言DMQL和数据挖掘建模语言PMML的特点,既能定义模型

9、,又能作为查询语言与数据挖掘系统通信,进行交互的和特殊的数据挖掘,实现了数据与模型真正分离。OLE DB for DM是一种基于SQL预言的协议,扩充了SQL语言语法,可以轻松地与关系型数据库集成,可以将不同的数据挖掘算法嵌入数据挖掘应用程序。OLE DB for DM为了更接近关系型数据库结构,定义了几个重要的概念。 数据挖掘模型(Data Mining Model,DMM):DMM像数据库中的关系表,但是它包含了一些特殊的列,这些列被数据挖掘中的数据训练和预言制定使用。DMM既可以用来创建预言模型,又可以产生预言。标准的关系表用来存储原始数据而DMM存储被数据挖掘算法发现的模式,对于从事W

10、EB挖掘的开发人员,DMM所有的结构和内容都可以用XML字符串表示。 预言联接操作(Predication Join Operation):预言联接操作类似于SQL 语言中的连接操作,在一个训练好的数据挖掘模型和输入数据源之间映射一个连接查询,将能得到符合需求的预言结果。这个预言结果通过OLE DB的行集合或者ADO记录集(recordset)发送到消费者应用程序内。OLE DB for DM模式行集合(Schema Rowsets):OLE DB for DM模式行集合用于特殊目的模式行集合允许消费者应用发现临界的信息,例如:可利用的挖掘服务、挖掘模型、挖掘列和模型内容等。 三、 网络信息挖

11、掘的类型 根据挖掘的对象不同,网络信息挖掘一般可分为三类:网络内容挖掘(Web content mining)、网络结构挖掘(Web construct mining)和网络用法挖掘(Web usage mining)。 (一)网络内容挖掘 网络内容挖掘是指从网络的内容/、掘内容挖掘语言。的关系表用来存储原始数据,据挖掘任务,数据/文档中发现有用信息的过程。网络信息资源类型众多,目前WWW信息资源已经成为网络信息资源的主体,Internet出现之前的Gopher、FTP、U senet资源逐渐隐藏到WWW形式之后,但这些资源仍可以通过Web进行访问。然而除了大量的人们可以直接从网上抓取、建立索

12、引、实现检索服务的资源之外,一些网络信息是“隐藏”着的数据,如由用户的提问而动态生成的结果,或是存放在DBMS(数据库管理系统)中的数据,或是那些私人数据,它们无法被索引,从而无法提供对它们有效的检索方式。以上是从网络信息源的角度探讨,若从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等等形式的数据组成的,因而我们所说的网络内容挖掘将是一种多媒体数据挖掘形式。 (二)网络结构挖掘 网络结构挖掘是从WWW的组织结构、Web文档结构及其链接关系中推导知识。主要是针对Web潜在的链接结构,通过网页链接找到隐藏在页面之后的链接结构模型。网络结构挖掘的目的是发现Web和页面的结构及其蕴含在这

13、些结构中的有用模式,对页面及其链接进行分类和聚类,由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点,并且可以通过浏览权威网站企业可以了解本行业的最新动态信息,了解一些著名的大型企业的发展动态。还可以发现Web文档自身的结构,这种结构用于用户的浏览,也利于对网页进行比较和系统化。 (三)网络用法挖掘 通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则不同于前两者,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简

14、介、注册信息、用户对话或交易信息、用户提问式等。 四、 网络信息的数据挖掘的应用 随着Internet的迅速发展和不断的普及应用,网络信息资源越来越丰富,如何分析和利用这些海量的数据是当前比较突出的一个问题。网络信息挖掘在实际工作中具有重要的实践意义和广阔的应用前景。 通过网络信息挖掘,可以收集政治、经济、政策、科技、竞争对手、供求、客户等有关的信息,分析和处理这些信息,并根据分析结果找出经营管理过程中出现的各种问题,有利于改善管理的效率和效果。网络信息挖掘可以应用在许多方面,例如: 1、科学研究。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、生物信息技术等,所涉及的数据量非常大,传统

15、的数据分析工具无能为力,网络数据挖掘作为一种强大的智能型自动数据分析工具得以广泛应用。 2、市场营销。利用网络数据挖掘技术通过对用户数据进行分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供可靠的依据。 3、金融投资。由于金融投资的风险很大,在进行投资决策是,更需要对各种投资方向的数据进行分析。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。 4、产品制造。数据挖掘对产品数据的分析,有助于对改进产品质量提出有针对性的建议,或提出信息的更高效的控制模式,从而为制造厂家带来更多的回报。 5、教学管理。如远程教育中的网络资源发现,分析教学网

16、站的结构组织是否符合学生学习和教师教学的规律、教学评价等。教学评价的技术水平是衡量一个国家教育发展水平的重要尺度。传统的定性与定量教学评价存在许多问题。将数据与挖掘这种新的数据分析技术应用于教学评价之中,可以提高教些评价技术水平,使之更好地为教学服务。 6、Internet或其他通信网络管理等的应用。 下面主要介绍网络信息挖掘在电子商务、网络广告和竞争情报中的应用。 (一)网络信息挖掘在电子商务中的应用 1、网络信息挖掘在电子商务中应用的必要性 电子商务是指个人或企业通过国际互联网络,采用数字化方式进行商务数据交换和开展商务业务活动。电子商务过程中产生了大量的数据,数据挖掘是对这些数据进行分析的有效方法。由于Web的易用性、实用性,它很快占据了网络信息主导地位,目前已经成为使用最为广泛、最有前途的信息传播技术。电子商务中产生的数据有其自身的特点,把数据挖掘技术与电子商务进行有机结合,选用适合电子商务数据的挖掘方法,可以提供数

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1