大数据参考文献.docx

上传人:b****5 文档编号:6908703 上传时间:2023-01-12 格式:DOCX 页数:20 大小:342.04KB
下载 相关 举报
大数据参考文献.docx_第1页
第1页 / 共20页
大数据参考文献.docx_第2页
第2页 / 共20页
大数据参考文献.docx_第3页
第3页 / 共20页
大数据参考文献.docx_第4页
第4页 / 共20页
大数据参考文献.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

大数据参考文献.docx

《大数据参考文献.docx》由会员分享,可在线阅读,更多相关《大数据参考文献.docx(20页珍藏版)》请在冰豆网上搜索。

大数据参考文献.docx

大数据参考文献

大数据研究综述

陶雪娇,胡晓峰,刘洋

(国防大学信息作战与指挥训练教研部,北京100091)

研究机构:

的定义:

大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维基百科的定义:

大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。

麦肯锡的定义:

大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的赞据焦合。

数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够被用户理解,便于在知识发现过程中的人机交互;研究在网络环境卜的数据挖掘技术,特别是在上建立数据挖掘和知识发现(()服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多媒体数据、文本数据和图像数据等。

5.1数据量的成倍增长挑战数据存储能力

大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。

目前,数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信息系统的关键。

5.2数据类型的多样性挑战数据挖掘能力

数据类型的多样化,对传统的数据分析平台发出了挑战。

从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。

要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。

5.3对大数据的处理速度挑战数据处理的时效性

随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件对信息处理的时效性要求越来越高。

传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对级以上的海量数据,N1甚至线性复杂度的算法都难以接受,处理大数据需要简单有效的人工智能算法和新的问题求解方法。

5.4数据跨越组织边界传播挑战信息安全

随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。

大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灾机制提出了更高的要求。

要想应对瞬息万变的安全问题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。

5.5大数据时代的到来挑战人才资源

从大数据中获取价值至少需要三类关键人才队伍:

一是进行大数据分析的资深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现大数据的技术支持人才。

此外,由于大数据涵盖内容广泛,所需的高端专业人才小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家、社会网络学家和社会行为心理学家等。

可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。

同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。

大数据分析与处理方法分析

孔志文

(广东省民政职业技术学校,广州510310)

二、大数据分析的基本方面

大数据分析可以划分为五个基本方而。

一是具有预测性分析能力。

分析员可以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上结合可视化分析得到的结果做出一些预测性的判断。

二是具有数据质量和数据管理能力。

数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。

三是具有可视化分析能力。

可视化是服务于分析专家和使用用户的,数据可视化是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,还可以让数据自己说话,让使用者听到结果。

四是具有数据挖掘算法。

可视化是给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤立点分析等算法,深入数据内部,挖掘使用价值,数据挖掘算法不仅要处理大量的大数据,也要保持处理大数据的运行速度。

五是具有语义引擎。

语义引擎能从“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。

三、大数据处理方法

1.大数据处理流程

大数据整个处理流程可概括为四步。

一是大数据采集过程。

用户端数据通过多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在大数据采集过程中,可能有大量的用户来进行访问和操作,并发访问和使用量高,有时可峰值可达上百万,需要采集端部署大量的数据库才能支持止常运行。

二是进行大数据统计和分析过程。

统计和分析是通过对分布式计算集群内存储的数据进行分析和分类汇总,通过大数据处理方法,以满足使用者需求,统计与分析主要特点和挑战是分析所涉及的数据量大,极大地占用系统资源。

三是大数据导入和预处理过程。

因为采集端木身有很多数据库,在统计和分析数据时,如果对这些海量数据进行有效分析,还应该把来自各个前端数据导入集中的大型分布式数据库,也可以导入分布式存储集群,导入后在集群基础上再进行简单的清洗和预处理工作,导入和预处理环节主要特点是导入数据量大,每秒导入量经常达到几百兆,有时会达到千兆级别。

四是大数据挖掘过程。

数据挖掘与统计分析过程不同的是数据挖掘没有预先设定好的主题,主要在依据现有的数据进行计算,从而实现一些高级别数据分析的需求,达到预测效果。

2.大数据处理技术

(1)架构。

是一个能够对大量数据进行分布式处理的软件框架。

具有可靠性,能维护多个工作数据副木,可以对存储失败的节点重新分布处理。

它具有高效性,通过并行处理加快处理速度。

具有可伸缩性,能够处理级数据。

架构的关键点是借助大量构成一个群难以实现对数据的处理。

处理数据时,现分析数据,后结合分配的相应电脑处理数据,最后整合数据处理结果。

浅谈数据挖掘技术及其应用

舒正渝

<1.西北师范大学数信学院计算机系,甘肃兰州730070;2.兰州理工中等专业学校,甘肃兰州730050)

摘要:

科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。

数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:

数据挖掘与知识发现的理论与技术研究。

数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。

2数据挖掘的定义

数据挖掘(),又称数据库中的知识发现(,简称),比较公认的定义是由U.M.等人提出的:

数据挖掘就是从大量的、小完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先小知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念()、规则()、规律()、模式()等形式。

数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

3数据挖掘的过程

的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。

整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。

整个知识发现的主要步骤有以下几点。

3.1目标定义阶段

要求定义出明确的数据挖掘目标。

目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。

3.2数据准备阶段

数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。

这个阶段又可以进一步划分成三个子步骤:

数据选择(),数据预处理()和数据变换()。

数据选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据()。

数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。

数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

3.3数据挖掘阶段

这一阶段进行实际的挖掘工作。

首先是算法规划,即决定采用何种类型的数据挖掘方法。

然后,针对该挖掘方法选择一种算法。

完成了上述的准备工作后,就可以运行数据挖掘算法模块了。

这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。

3.4结果解释和评估阶段

根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。

对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于小能满足用户要求的模式,则需要退回到上一阶段。

另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。

4数据挖掘的研究方向

目前研究主要从以卜几个方面开展:

<1)针对小同的数据挖掘任务开发专用的数据挖掘系统。

一个功能很强的数据挖掘系统要能够处理各种类型的数据是小现实的,应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据库挖掘,空问数据库挖掘等。

<2)高效率的挖掘算法。

数据挖掘算法必须是高效的,即算法的运行时问必须是可预测的和可接受的,带有指数甚至是中阶多项式的算法,没有实际使用价值。

<3)提高数据挖掘结果的有效性、确定性和可表达性。

对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。

对有缺陷的数据应当根据小确定性度量,以近似规律或定量规则形式表示出来。

还应能很好地处理和抑制噪声数据和小希望的数据。

<4)数据挖掘结果的可视化。

数据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达出来。

<5)多抽象层上的交互式数据挖掘。

交互式数据挖掘允许用户交互地精炼数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从小同角度小同抽象层次上灵活地观察数据和挖掘结果。

<6)多源数据挖掘。

计算})L网络把许多数据源联接在一起,形成巨大的分布式异构数据库。

小同来源数据的格式和语义小统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。

今后特别重视把数据挖掘技术与工技术及技术紧密结合起来,开发出基于工和的数据挖掘软件工具。

<7)数据挖掘的安全性和保密性。

加强数据的安全性和保密性,防比侵犯别人隐私和泄漏敏感信息。

<8)实现与现有数据库系统或数据仓库的无缝集成,进一步扩大数据挖掘工具的应用范围和提高现有数据的利用率。

5数据挖掘的应用领域

随着数据挖掘研究的小断深入,数据挖掘技术已逐渐成熟,它的应用也越来越广泛。

从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,数据挖掘技术都有用武之地。

数据挖掘技术、应用及发展趋势

张春华王阳

(空军第二航空学院,长春130022)

2与数据挖掘

()—知识发现是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。

()—数据挖掘是过程的一个重要步骤,它是从大量的、不完全的、不噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

一个典型的数据挖掘系统,一般是由图1所示的几个部分组成。

数据库或数据仓库服务器,存储着用户将要挖掘的,所感兴趣的数据。

知识库是领域知识的一个应用,它用于引导搜索或评估挖掘的结果模式是否有意义,是知识的不同属性或属性值进行不同层次的抽象。

数据挖掘引擎是数据挖掘系统所必不可少的部分,理想的是由一些列而向任务的功能模块组成,如特征分析、相关分析、分类、评估以及偏差分析。

模式评估模块运用各种兴趣尺度对得到的模式进行评估同时还与数据挖掘掘模块进行交互,使挖掘的方向集中在感兴趣的模式上。

用户的图形界而接口是用户和数据挖掘系统交互的接口。

允许用户指定有关参数的值,直接参与到数据挖掘的查询、搜索中。

3数据挖掘方法与技术

3.1数据挖掘常用的方法

的技术基础是人工智能,人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决现实世界问题的科学和技术。

\」仅仅利用了人工智能中一些已经成熟的算法和技术,下而介绍数据挖掘和知识发现的几种常用方法。

3.1.1人工神经网络

神经网络方法是模拟人脑神经元结构,以模型和学习规则为基础。

它主要有三种神经网络模型:

前馈式网络、反馈式网络、自组织网络。

3.1.2遗传算法

遗传算法是模拟生物进化过程的算法,由三个基本算子(或过程)组成:

繁殖(选择)、交叉(重组)、变异(突变)。

3.1.3决策树方法

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性宇段,建立决策树的一个结点,再根据该属性宇段的不同取值建立树的分支;在每个分支集中重复建立树的下层结点和分支的过程国际上最早的、也是最有影响的决策树方法是研究的3方法。

在数据采掘和知识发现中应用的人工智能技术还有邻近搜索方法、集合论的粗集方法、规则推理、模糊逻辑、公式发现,等等。

3.2数据挖掘的分析方法

」系统利用的技术越多,得出的结果精确性就越高,从功能上可以将」的分析方法划分为以下四种:

3.2.1关联分析

关联分析,即利用关联规则进行数据挖掘。

在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如,,等算法。

关联分析的口的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B',之类的知识。

关联分析就是生成所有具有用户指定的最小置信度和最小支持度的关联规则。

3.2.2)字列模式分析

序列模式分析和关联分析法相似,其口的也是为了采掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。

运用序列模式分析销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉前常购买何种商品。

3.2.3分类分析

设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。

分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。

3.2.4聚类分析

与分类分析法不同,聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有进行任何分类。

其口的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。

此外还如下的有关方法:

预测模型、数据库分段、联系分析、偏差检测、可视化等等。

3.3数据挖掘的应用

I}」技术旨在发现隐藏在大量数据之间的尚未被认识的知识,因此数据密集型领域是I}】的主要应用方向,这些行业有金融、教育、科学研究、医疗卫生、产品制造、市场营销、社会治安等等,很多期刊和会议文献都有介绍和分析,本文不在赘述。

数据挖掘技术及其应用

孙义明曾继东

北京2861-6分箱

三、数据挖掘技术

数据挖掘是指以提取隐含的定性关系为目的、利用先进商业软件工具对海量数据资料进行的计算机辅助分析。

虽然普通的数据库访问方式也能获取与预期结果相符的信息,但数据挖掘技术更加注重对先前并不为分析人员所知的隐含模式和关系的发掘。

通过用数学方法对入库信息进行系统筛选,数据挖掘有助于识别用其他方式很难发现的重要倾向和模式。

1.节点分析

节点分析的目的是确定完全不同的异体之间的关系,而仅从表面上看它们之间并没有明显的关联。

节占指的早柑壮分举图中的分离点.存此图中.一织数据可根据多种不同算法分成完全不同的类别。

从根节点的划分(第一分离点)开始,后面的每一节点都应用一种检测标准,这种方法一直延续下去,直到到达树状结构图末端的分离停止处,也就是到达终端节点。

如果一切进展顺利,在这些终端节点就会发现,已成功分离出所关注的组成员。

"A级威胁”小组成员称,“在受关注类别中包括`9}11’劫机犯之一—穆罕默德·阿塔的名字。

这一方法类似于用硬币分离器将1分、5分、1角和2角5分硬币按规格大小分开。

这时的检测标准是尺寸大小。

当然,当操作对象不是硬币而是涉及更复杂分级和更抽象标准的数据资料时,这种分类远非如此简单直接。

最理想的情况是终端节点单一明了,比如说只包含单独一类成员。

但是,在实际操作中难免会出现误分类,因而这些模式需要进一步精确。

2.数据准备

数据挖掘是被称为数据库知识发现()庞杂程序的组成部分,整套程序包括数据清理、融合、筛选、转换和挖掘,以及模式评估及最终的认识表达。

在探讨过程中,数据挖掘一词常常用来描述整个过程,然而,作为数据挖掘先导的数据准备往往比实际挖掘更加费时。

数据挖掘方案初期需关注的较重要事项之一,是仔细研究待分析数据的类型。

数据可分为两类:

结构化数据和非结构化数据。

结构化数据驻存在磁盘或文件的固定区域,相关数据库和电子数据表就是典型的结构化数据。

不在固定位置驻存而是以松散形式存在的数据(如文本文档或图像)称为非结构化数据。

它们各自的字词很少带有关联信息,但组合到一起就会形成一种语境,其含义可归结为字词的集合,但对任何一个单字来说又不具必然性。

同样,就图像而言,人们通常都是从整体上来解释一幅图,而不是分析其各个部分。

然而,对于机器识别来说,可能只需几个特征就能完成一次精确识别。

非结构化数据可分为两个基本类别。

第一类是固有的、非语言基础的文件,如图像、视频或音频文件。

第二类是基于书写或打印语言的文本文件,如文字处理文档、电子邮件或电子数据表。

尽管存在显著差异,这两类非结构化数据都能以相同方式进行处理。

一种标准处理方式倾向于从文本中识别和提取关键特征,而后该文本又可作为分析数据使用。

这个被称作特征提取的过程,是对非结构化数据进行挖掘的一个关键步骤。

数据整理具有减少内存需求和询问反应时间的计算优势,因而通常有利于待分析数据量的精简。

特征提取是通过对基于关键字组合的原始数据进行分析,生成一组新的、更加简洁的数据。

特征提取还可用于图像中实体目标的识别或分类。

假如有人驾驶飞机、无人机和卫星上多光谱传感器的功能得到扩展,只需提取最显著的特征,就可从庞大的图库中发掘出一个特定区域。

例如,树叶纹络和颜色、道路样式、甚至是邻近建筑的外形,都能够从无人机拍摄的实时影像中提取出来,并可从中挖掘出应用了关联规则分析方法的模式。

关联规则分析用来描述多条信息一起出现或相互关联的情况,并能利用经过提炼加工的图像资料来揭示先前可能并未发现的、非相关区域之间的关系,比如预示有地下掩体的地形地貌和道路连通方式。

3.分类预测

结束信息采集和加工后,可利用多种方法对数据资料进行模式化处理。

这些挖掘手段旨在识别那些可用于未来预测的现有数据资料的特征。

关联规则挖掘可用来描述多条信息一起出现或相互关联的情况,关联规则通常是“如果……,那么……。

”的构成形式。

这些方法可用于营销研究,以确定产品布局,或者是通过对制造爆炸装置最有可能购买的物品的确认来实现预防犯罪的目的。

利用关联规则对某国军事基地之间的车辆活动进行挖掘分析,从而确定该国是在转运剩余物资还是在进行战争准备。

分类预测术属于古时候的发明,人们利用这种技术创造出一个模型,以便对未来数据中的类似事件进行预测。

此产品由一种能够将分类数据归类的分类树构成。

分类法是一种能够将某些受关注特征从对象总体中分离出来的普通方法,其基础是来自于一套己知训练数据的模型。

这些训练模型可用来识别和预测未知数据的类似模式。

作为最古老的数据挖掘方法之一的聚类分析法和最近邻分类法的原理十分简单,即具有共性的事物之间比无共性的事物之间的联系更为紧密。

分类预测会产生误分类风险。

误分类问题的典型案例出现在1999年春天,当时美国防部将原有的一个项目分配给了美陆军情报与保密司令部信息控制中心。

此项目旨在利用数据相关工具确定那些方法是否适用于反情报作战。

这次实验的目的是确定数据挖掘能否识别前方公司存在对中国的技术泄密风险。

大量关联图表揭示了技术转让的诸多途径,其中涉及一些知名人物,例如时任斯坦福大

学教务长的康多利扎·赖斯和美国防部前任部长威廉·科恩。

当然,这些误分类很容易识别,但方法问题和众多潜在(或错误)关联将严重损害用同一模式得出的其他分类的价值。

兼任美国众议院武装部队委员会和众议院国家安全委员会副主席的科特·韦尔登,2005年9月在参议院司法委员会的听证会上就“A级威胁”问题作证时称,虽然早在2001年就有人提出要废弃“A级威胁”,但一个新的数据挖掘项目己在美国防部内部得到了广泛提议。

该项目呼吁组建一个名为‘`A级预测()’,类似于“A级威胁”的小组,在海军情报部门负责人领导下从可公开利用的开放源信息中搜集情报。

4.文本挖掘

对于非结构化文本数据来说,作为从多种文本源中提取信息的结果,文本挖掘(数据挖掘的一种)是对先前未知模式的层层剥离。

数据被联接起来,从而形成新的理论或引出深层含义。

有人可能会把文本挖掘与使用互联网搜索引擎寻找信息这类做法联系在一起,但网上搜索只能查找那些已知的、有所记述的主题,而文本挖掘的目的是发现未知信息,很可能是以前没有明确记述的信息。

通过对电

子邮件信息、网上聊天室和其他文本源进行分析,文本挖掘可以成为一种用来搜寻潜在恐怖主义威胁的工具,美国隋报机构对此很感兴趣。

在英语方面,文本挖掘已经是一项十分庞大和艰巨的任务,而其他语言文本使这项工作更加复杂。

常规数据挖掘与文本挖掘的一个重要区别是,文本挖掘是从自然语言文本中提取一些模式,而不是从实际常规系统的事实数据库中提取。

从原始文本资料到内容总结过程中的用语提取,使文本资料中使用频率最高的字词和短语被罗列出来,而诸如连词之类的常用词并不包括在内。

较为困难的是获得这些字频列表并用某种数学模式来确定是否能提取出有意义的内在关联。

文本挖掘的一种分析方式被称为潜在语义索引(),它更注重从文献库中提取字词的潜在含义()。

换言之,一种普通语境被赋予了多种语义。

这类搜索引擎也会用到,以改善同义和多义情况下的文件查询和信息检索。

就同义来说,不同作者可能使用不同词语来描述同一种想法,因此,当一个人就某个主题进行查询、但使用的主题词与实际出现在文献中的并不相同时,

他可能就无法检索到这个文献。

相反,就多义来说,同一词语可能有多重含义,因此,检索者有可能查到并非自己想要的、而是与其他备选含义对应的文献。

应用的目的是找到信息检索的最理想层次。

充分利用概念性文献内容。

举例来说,检索不是对个别项的搜索,而是一种概念性搜索,比如,别克、丰田和福特在概念上都是被视为汽车,而不是它们各自的标识。

的主旨是对可成图()字词的潜在语境或语句源予以确认。

而后这些个别项被“成图”到一个能够将它们用数学方法表现出来的“概念空间”。

遗憾的是,由于所有信息都是以不带语义的数字形式存在,人类并非很容易就能理解此概念空间。

这会使难以理解,因而必须用专业软件完成结果解释并进行适当数值分配。

针对同现词找出有意义的关联规则是文本挖掘面临的一个主要挑战。

一个词(例如“炸弹,’)与其他不同的词(如“战争”或“百老汇,’)组合时。

数据挖掘技术及其应用

袁溪

(西安义理学院陕西西安

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1