医药卫生知识服务系统建设需求说明书.docx

上传人:b****5 文档编号:5916870 上传时间:2023-01-02 格式:DOCX 页数:21 大小:153.16KB
下载 相关 举报
医药卫生知识服务系统建设需求说明书.docx_第1页
第1页 / 共21页
医药卫生知识服务系统建设需求说明书.docx_第2页
第2页 / 共21页
医药卫生知识服务系统建设需求说明书.docx_第3页
第3页 / 共21页
医药卫生知识服务系统建设需求说明书.docx_第4页
第4页 / 共21页
医药卫生知识服务系统建设需求说明书.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

医药卫生知识服务系统建设需求说明书.docx

《医药卫生知识服务系统建设需求说明书.docx》由会员分享,可在线阅读,更多相关《医药卫生知识服务系统建设需求说明书.docx(21页珍藏版)》请在冰豆网上搜索。

医药卫生知识服务系统建设需求说明书.docx

医药卫生知识服务系统建设需求说明书

 

医药卫生知识服务系统建设需求说明书

1技术方案要求

项目概述

项目名称

医药卫生知识服务系统。

项目背景

医药卫生知识服务系统旨在为医药卫生领域专家提供医药、卫生相关领域的即时、权威、可靠的知识服务,包括舆情监测服务、一站式检索服务(中英文科学文献、科学数据、资讯等)、可视化知识图谱等。

该系统已完成基本的系统设计,正在开发项目已完成除了舆情监测功能外的所有前台展示页面的基本功能,包括一站式检索服务和可视化知识图谱等。

然而,考虑到本系统涉及到的来源数据,尤其是科学数据,具有较强的随意性,系统需要较强的数据整合能力;另外,系统目前尚不能提供全文检索功能,需要进一步对全文数据进行分布式存储、建立索引、建立一整套可定义的成熟的排序算法。

因此,现需要舆情监测子系统、资源整合子系统和资源检索子系统,与现有系统无缝衔接,实现更好地服务。

建设目标

舆情监测子系统需要实现定制化网络数据获取服务,实现数据监测和监测报告生成与展示,并在已构建的舆情监测资源的基础上,整合科学数据、文献资源等多类数据资源,完成索引构建功能,进而实现查准率高、查全率高的智能化检索功能,把检索结果传递给前台展示页面。

建设内容

需要建设的内容主要包括舆情监测子系统、资源整合子系统、资源检索子系统三个子系统。

舆情监测子系统将主要用于定制网络数据获取(限定主题|限定来源)、数据监测、监测结果展示、资源整合、检索,主要功能包括:

舆情发现、舆情分析、舆情报告、舆情预警。

资源整合子系统将主要用于不同来源数据的标准化存储。

把不同数据类型的数据,包括文献、科学数据、前沿资讯、专家、百科、机构、舆情监测数据等,灵活、高效地整合到一起,供检索用户使用。

并支持新数据源与数据库已有数据项的数据映射功能。

资源检索子系统在资源整合子系统的基础上,建立索引,实现快速、准确、可跨语言的检索功能。

系统功能要求

医药卫生知识服务系统(以下简称医药卫生系统)主要包括舆情监测子系统、资源整合子系统、资源检索子系统三个子系统,系统功能结构图如下图所示:

舆情监测子系统

舆情监测子系统整合互联网信息采集技术及信息智能处理技术,通过对网络各类信息进行自动抓取、分类、整合、筛选等技术处理,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握网络舆情动态,做出正确舆论引导,提供分析依据。

舆情监测子系统主要功能包括:

舆情发现、舆情分析、舆情报告、舆情预警等功能。

系统功能结构图如下图所示:

舆情发现

通过互联网进行多种信息的采集,采集数据包括HTML、XML、脚本等各种形式,支持对微博、博客、论坛、网页、搜索引擎等进行采集。

舆情监测子系统需要采集以下舆情信息:

1、抓取医药卫生相关微博数据,包括新浪微博、腾讯微博、网易微博等;

2、抓取医药卫生相关博客数据,包括科学网博客数据、XX博客数据等;

3、抓取医学卫生相关论坛数据;

4、抓取主流医学信息网站的新闻数据。

在抓取过程中,由于Internet上的一些站点常常存在着镜像网站(mirror),即两个网站的内容一样但网页对应的域名不同,这样会导致对同一份网页爬虫重复抓取多次,系统应确保不存在内容重复抓取的情况。

舆情发现模块包括以下功能要求:

网页结构自动分析

针对论坛、博客、网页等特点,一个物理网页中一般包含多个帖子(或评论),而且随着时间的推移,同一个网页中的帖子会动态变化,有新的帖子增加,也可能有旧帖删除。

要求舆情发现模块能够自动识别、分隔出论坛、微博、网页中的每一个帖子及其评论信息,满足舆情分析的需要。

同时,通过自动识别技术可以识别网页的标题、正文、中间的表格、图片、附件等,滤除广告(图片或flash)等无用信息。

元数据解析

在帖子自动分隔的基础上,舆情采集工具支持基于模版的元数据解析功能,对于每个网页可以解析出标题、内容、作者、来源、发布时间、点击数等元数据属性,这些属性是舆情分析的重要数据。

内嵌脚本执行引擎

随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、网页、博客等类型网站的建设。

舆情采集工具内嵌脚本引擎,能够实现网页中脚本语言的自动解析和执行,从而能够实现对采用脚本语言的论坛、博客、网页、微博的采集,为舆情分析提供全面的数据保障。

内容过滤

系统抓取的信息不一定符合医药卫生主题,因此,需要有内容过滤功能,保障信息的有效性。

支持RSS解析

舆情采集工具实现对RSS聚合内容的自动解析和采集。

所谓RSS,就是ReallySimpleSyndication(简易供稿)的缩写,是某一个网站用来和其它网站之间共享内容的一种简易方式,也叫聚合内容。

RSS是一种描述和同步网站内容的格式,是目前使用最广泛的XML应用。

RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。

发布一个RSS文件后,这个RSSFeed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用。

网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。

支持分类舆情发现

在对数据进行预处理时进行分类处理,具体分类模型可通过关键词配置进行调整。

用户进行舆情发现时可分类别进行监测发现。

敏感信息专项监测

对于包含某些特定关键词的信息,可进行专项监测

网站专项监测

对于已知的常见医学信息类网站进行专项监测。

重点对象监测

对于已知的医学专家、领导等重点对象进行专项监测,一旦出现最新发帖、微博或视频等信息,系统将进行专项监测。

支持境外网站监控

舆情采集工具在支持通用网页采集功能的基础上,集成代理技术,通过代理服务器,绕过我国出、入口防火墙的屏蔽,浏览被屏蔽境外网站,监控国外网站的相关信息。

从而能够实现对论坛、博客、网页等内容的及时精确采集,为舆情分析提供数据资源。

智能分析

智能分析模块实现由网页数据向舆情数据的转变,对采集到的网页等进行智能分析,为其它统计分析组件提供基础服务。

智能分析是以半结构或非结构的自然语言文本为对象,从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律的过程。

其基本思想是从文本中提取适当的特征,将文本标示成计算机能够理解的形式,采用各种文本挖掘方法发现隐藏的知识模式,以用户可以理解和接收的形式输出,成为有用的知识。

具体包括以下几个方面:

1、文本分类

可以自动地对文档进行分类,赋予文档一个预先定义的类别主题词,便于文档的组织,不需人工干预。

2、文本摘要和主题词标引

自动提取文本的主题词,并生成文本摘要,为用户快速浏览信息提供快捷有效的方式。

3、文本相似性检索

可以帮助用户检索与给定文档相似的文档,可以应用于文档查重等诸多领域。

4、文本信息抽取

自动对文档进行重要信息的抽取,抽取的信息包括命名实体、术语等信息,无须进行人工干预,术语主要指领域词汇。

5、文本聚类

可以自动对文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。

6、自动分词

将文本切分成词语,在词语切分的基础上可以方便地进行各种文本挖掘工作。

7、关系抽取

抽取文本中的特定实体之间的关系,例如人与人之间的亲属关系、机构与个人之间的从属关系、某个人的职务等。

8、相似性排重

快速扫描判断一组模式串在文本中是否出现,以及出现的具体位置信息。

至少支持三种模式串的匹配:

常规字符串模式、通配符模式、正则表达式的匹配。

智能分析模块的分析结果将作为网页数据的一个属性项存储,为其他分析组件提供支撑。

舆情分析

通过对重要的热点舆情信息进行分析和追踪,对舆情信息进行展现、分析、统计。

根据新闻、博客、微博等文章数及文章在各大网站和社区的传播链进行自动跟踪统计,提供不同时间段的热点信息。

对每条热点信息还可以查看相关的传播链,了解某一时间段内该热点信息在各站点的传播数量。

舆情分析包括以下功能要求:

智能关联

采用智能关联技术,可以把一条新闻或主题(包括热点人名,地名,机构名以及其他热点词汇)和相关的新闻、论坛评论、博客评论等信息(或主题)关联到一起,帮助用户多方位地了解新闻事件的进展情况,以及相关的网民评论等信息,全面地掌握各种相关信息。

自动对信息内容提取关键词并进行关联分析,查找与本话题类似的新闻信息、博客信息、论坛信息、微博等,对信息进行关联显示,从而进行多维度的信息展示。

趋势分析

在舆情分类和分析基础上,建立多个舆情指标,根据舆情指标和舆情分类的结果评估和分析当前的宏观舆情态势。

另外,提供全国与各地舆情对比功能,帮助用户及时准确地把握宏观舆情走势。

提供实时信息预警机制,可以将短时间内发生的突发热点事件以及敏感新闻通过短信、邮件方式通知用户,同时可以帮助用户快速制作出关于此热点事件的统计简报。

热点分析

采用基于内容相似的智能聚类技术,能够自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发现网民的关注焦点和热点。

同时,利用舆情分类信息,过滤用户不关注的热点信息,提高热点发现的准确性。

根据热点、关键词、专题等信息进行热度分析,考虑信息来源、所处网页位置、转载、点击、评论、回复等关键因素,能够对这些因素进行综合排名,并支持在相应时间段内进行统计分析,同时提供N天等时间序列的符合用户精确度要求的分类热点排序。

在热点分析工作中,要求支持相似文章的去重,实现对热点的准确分析。

热点追踪

对热点信息做到持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势以及来龙去脉,帮助用户更好地对舆情进行研判。

热词发现

从互联网不断更新的信息中寻找一定时期热度高的那些短语,比如人名、地名、机构名和其他常见短语,很多网络热词是词典中未收录的新词语。

舆情检测子系统对热度的定义主要考虑两个方面:

1、出现的频率信息,出现越多,热度越高;

2、历史波动信息,近期出现频率上升曲线越陡,热度越高。

热词发现工作有助于构建医药卫生服务系统的知识库,系统需要提取用户在相对较近时间段内在博客、微博等社交平台中出现频次较多、有意义的新词,作为热词集,并进一步加以标注,推送给系统。

由管理人员进一步加工提炼,发布到网站。

首发溯源

根据发布时间确定首发地、首发信息,分析传播路径,传播扩散范围和趋势,确定影响力。

分类分析

根据医疗卫生特定领域,根据文章内容的相似度,对系统抓取的信息进行聚类/分类。

正负面分析

支持征服面分析。

正负面分析也可称为情感分析,例如一篇评论微博,可以有对某一政策支持或者反对态度。

微博分析

微博内容比较特殊,如原创、转载、关注等多种形式,因此对于微博内容需要进行特殊的分析,生成带有微博特征的统计分析数据和关联模型,从而确定微博信息的发送方式、途径、热度等。

支持微博热点话题分析、人物关系挖掘、微博传播轨迹、重大事件引爆点分析消等,这些数据统计将辅助领导研判微博舆情信息的影响程度。

统计分析

对热点新闻和事件发展趋势等等内容进行统计分析,并进行图形化显示,帮助用户更加直观地了解舆情发展态势。

提供多种基于Flash的图表,包括全国地形图、趋势图、金字塔图、转载传播链等,具有更好的交互能力。

参数设置

在热点分析和热词发现等功能模块中,相关参数的变化,会形成不同的监测输出。

因此,系统应提供方便、可用的接口,用于设置阈值等参数,按需生成舆情监测报告。

舆情报告

系统应提供有效的舆情简报加工工具,可以辅助用户生成各种类型的互联网舆情简报。

报告的内容可编辑修改,报告模板可灵活定制,支持日报、周报、及时报等多种简报样式。

提供可以在线生成和编辑WORD格式的简报,支持复杂格式的简报,提高简报的表现能力。

简报形式

支持按需要提供及时报,及日、周、月等不同周期的报告,不同报告说明如下:

及时报:

当有重大突发事件时及时对事件主题进行报导,展示发展趋势、分布、传播链;

日报:

当日热点信息描述;

周报:

本周热点信息描述及统计图表;

月报:

本月热点信息描述及统计图表。

简报可视化编辑管理

系统应采用可视化编辑器作为文档内容的编辑器,当用户采集的文档类型为HTML内容时,用户可以直接编辑HTML页面,实现所见即所得的可视化文档内容编辑效果。

用户可随意指定文档内容的字体、字号、字体颜色、背景颜色、段落对齐方式、项目符号、段落缩进等属性并且可以插入超级链接、分页符、表格、图片、Flash、音频、视频、模板、特殊字符,可以任意调整图片的位置、大小等,充分实现混排功能,插入的图片、Flash等文件会自动上传到适当的目录,对用户透明。

整个可视化编辑的功能的使用方法和Word中大抵相同,符合编辑使用习惯。

可视化编辑主要用于简报和报告的生成,从舆情系统中选择多个文章,可直接生成多种格式的简报和报告,也可输出到Word,便于编辑打印。

简报模板定制

简报的及时报、周报和月报中包含大量图形信息,这些信息都将以模块的方式,在简报编辑过程中进行调用,可设定相关参数,如时间段、时间颗粒度,统计坐标,然后自动生成图形并插入简报文档中。

简报格式转换

为了方便打印输出,报告完成后,自动导出至Word、excel和PDF等文档形式。

简报推送

结合邮件系统和短信群发工具,可以实现以E-mail和短信等多种方式发送报告和突发性的及时报,尤其是及时报,需要更加快捷的推送方式。

此外,日常的简报可以通过WEB发布和推送,系统提供推荐页到个人配置区,例如领导,可以在登陆后在显著位置看到个性化自己的专用页面上的简报。

简报类型

系统应至少提供以下几类简报:

1、定向监测报表

根据给定主题生成定向监测报表,包括给定主题的信息抓取、给定主题的媒体覆盖分析、网友观点倾向性分析、关联分析等。

2、舆情聚焦报告

舆情聚焦报告,包括一个事件或新闻,其事件概述、媒体覆盖分析、网友观点倾向性分析和舆情小结等。

3、热点词报告

热点词报告,包括热点词含义,用法,由来,媒体覆盖分析等。

舆情预警

舆情预警应至少包括以下几个方面:

回帖量预警、点击量预警、关键词预警。

当上述参数的增长速度超过一定阈值便会触发预警,系统将通过短信或邮件的方式发送预警信息。

同时支持人工进行邮件或短信通知。

资源整合子系统

资源整合子系统是把不同数据类型的数据,包括文献、科学数据、前沿资讯、专家、百科、机构、舆情监测数据等,灵活、高效地整合到一起,供检索用户使用。

并支持新数据源与数据库已有数据项的数据映射功能。

资源整合子系统包括元数据管理、数据ETL、任务管理、可视化控制台等功能。

系统功能结构图如下图所示:

元数据管理

资源整合子系统的元数据主要指数据存储层面的库表结构(包括库/表、字段、字段元数据等)。

元数据是信息资源整合的基础,用户可以通过元数据了解医药卫生系统信息资源的整体结构和基本内容,发现和定位医药卫生信息资源,为后续的数据整合提供基础服务。

元数据注册

系统应提供元数据的注册功能,允许管理员将医药卫生系统中各类数据(文献、科学数据、前沿资讯、专家、百科、机构、舆情监测数据等)的元数据注册到元数据管理系统中。

元数据维护

系统应支持元数据的动态维护,当数据库的表结构发生变化时,能够对注册的元数据进行更新。

元数据映射

在进行资源整合时,有可能系统中存储的数据是杂乱的,需要对数据进行清洗、转换,然后将标准化的数据存储到数据仓库中。

因此,系统应支持元数据映射,将整合前的数据映射到标准库中。

同时,可通过元数据映射进行溯源查询。

元数据查询

系统应提供元数据的查询功能,方便管理员分类查询系统中的各类元数据。

数据ETL

数据ETL是指数据抽取(Extract)、转换(Transform)、整合和加载(Load),是将数据从数据源整合到数据仓库或数据集市的过程。

ETL主要实现两大功能:

一是对数据进行清洗(包括格式转换、字典清洗、相关性清洗等)、转换和计算;二是实现数据向数据仓库的增量加载。

数据ETL应包括数据抽取、数据转换、数据整合和数据加载四个模块:

数据抽取

系统应支持通过图形化适配器,以简单的拖放方式,把业务系统的资源导入到中转库中。

至少应支持数据库抽取、文件抽取、接口抽取三种抽取方式:

1、数据库抽取

数据库抽取支持数据库如MYSQL、SQLSERVER、ORACLE等。

2、文件抽取

文件抽取支持文本、Excel、CSV、XML等多种格式。

3、接口抽取

接口抽取至少支持WebService接口。

数据转换

系统应至少支持以下功能:

1、基本处理

主要用业务数据进行处理:

(1)数据编码和解码;

(2)数据压缩和解压缩;

(3)数据加密和解密。

2、数据清洗

系统应至少支持以下几种清洗功能:

(1)错误数据清洗

(2)重复数据清洗

系统应能够通过主键或设定的字段识别重复数据,对重复数据进行清洗。

对重复数据,应提供自动合并、手工处理等多种清洗方式。

3、数据转换

系统应提供字典映射功能,将数据源的杂乱数据映射为规定的标准化数据。

例如,假设数据源的性别字段中包含以下数据:

1、男、男性、男人、man

2、女、女性、女人、women

通过字典映射,数据转换后的结果如下:

原始数据

转换后的数据

男、男性、男人、man

01

女、女性、女人、women

02

数据整合

1、资源关联发现

支持文献、科学数据、前沿资讯、专家、百科、机构、舆情监测等不同数据类型之间资源的两两发现。

实现机制包括:

1、设计元数据(结合知识组织体系);

2、通过元数据的协同加工加以标注;

3、或完全匹配或机器学习完成语义匹配;

4、通过排序算法在页面展示最相关的若干结果

2、资源整合

系统应支持将两张或者多张表里的数据整合到一个表里。

例如,把GZ,DH和XB字段合成到一张新表。

数据加载

数据加载是ETL的最后一步,涉及到如何将经过抽取、清洗、转换、整合后的数据加载到数据仓库中,最终为用户提供干净、统一、永久的数据。

数据从缓冲库加载到数据仓库,加载的方法取决于提取阶段使用的技术,根据不同的主题需要,分为全量加载、增量加载两种加载方式。

数据同步时,采用MD5比对算法以及时间戳功能,实现数据的字段级别的增量更新,并提高更新的效率。

任务管理

资源整合子系统的数据处理应提供便捷易用的任务管理页面,支持如下四种方式的任务:

1、触发任务

2、定时任务

3、周期任务

4、手动任务

可视化控制台

数据源的配置、数据清洗方法、数据处理的流程(数据的来源、数据加工工序等)等,都可以通过可视化控制台进行配置。

提供方便直观的数据处理流程图的编辑功能,支持通过拖拉图标的方式来完成流程设计。

该控制台应支持跨平台特性,能运行在当前大多数主流操作系统上。

资源检索子系统

自动对每天采集的海量、无类别的数据(包括文献、科学数据、前沿资讯、专家、百科、机构等,以及舆情监测数据)进行归类,把内容相近的文档归为一类,自动为该类生成主题词。

系统应对信息资源提供多种检索服务,方便用户快速定位所需医学数据。

支持跨语言检索

另外,考虑到查询中可能存在中文查询、英文查询以及中英文夹杂查询的情况,需要支持跨语言检索(中英文)。

支持检索词语义扩展

系统应支持检索词语义扩展,使得检索系统能自动“联想”到与其同义或意思相近的词,提高信息匹配的准确度,从而提高检索系统的整体性能。

同时,系统应在检索前自动进行预处理,包括分词、过滤无效词、去除非法字符等,然后对预处理后的关键词进行同义词扩展。

支持动态生成候选检索词列表

为体现检索的智能化,需要实现在用户输入查询过程中,尤其是基本检索功能模块,动态生成相关候选检索词列表,辅助完成查询输入工作。

要求候选检索词列表准确、可有效缩减用户的查询输入时间。

支持全方位检索

系统应提供全方位的检索功能,包括以下几种检索方式:

1、关键词检索

关键词检索是检索系统最基本的检索功能之一,也是用户习惯使用的检索方式,系统实现全面的关键词检索功能。

与此同时,关键词检索功能还要能方便地与系统的其它功能结合使用,实现丰富的检索功能及相关应用。

2、分类导航检索

为实现更为精细准确的检索,系统应提供检索数据的导航服务。

根据数据的分类体系进行导航,用户在进行检索时,可以先选择某一具体的分类再进行检索,以缩小检索范围。

可以方便地定制各种分类检索的交互和表现界面,通过逐级展开分类树,展现每一个类别下所包含的内容。

用户可以在检索入口输入关键词,对分类以及各子分类下的内容进行检索。

3、高级检索

检索系统提供多个条件的高级组合检索功能,能够根据用户选择的检索条件处理检索请求并快速返回检索结果。

可以根据字段,例如标题、摘要、正文、作者、来源、时间、区域、分类、语种、文件格式等作为检索条件单独检索,也可以组成检索条件进行多条件检索。

每一次提交检索请求后保留用户的条件选择,方便再次变更条件检索。

4、逻辑表达式组合检索

系统提供多种检索运算符,可以直接开放给用户进行使用。

检索表达式包括合法的算术运算符、比较运算符、逻辑运算符、重复逻辑运算符、属性运算符、限制运算符、加权运算符等等。

通过逻辑表达式,用户可以方便地实现包括外部特征与正文内容的逻辑组合检索、位置检索、英文词根检索、大小写敏感检索等、中文简繁体扩展检索。

5、日历检索

提供日历(月历)检索页面,用户可以通过点击或选择日期或月份,列出的是该日或该月发布的所有信息,内容较多时分页显示。

日历检索是一种按时间进行检索结果过滤的服务。

日历检索通常用于展示历史,以数据库的信息为来源,用户通过浏览日历,就可以看到某个月或者某天的信息,展示的页面可以根据检索页面的要求和风格定制。

6、二次/渐进检索

系统实现在检索结果中能够逐步地继续输入检索词进行检索。

渐进检索帮助用户逐步缩小检索范围,精确定位想要查找的信息,从而可以更快地找到要找的信息。

渐进检索可以逐次扩展。

7、模糊检索

为了更准确地理解用户的检索意图,系统在自然语言技术的基础上提供一定的模糊检索的功能。

此外,模糊检索还应具有内码转换技术,能够将各种编码的字符转换成标准字符进行理解,从而能够实现中文文半角与全角之间的自动转换,例如检索CCTV,可检索到包括CCTV的信息。

检索结果排序

为提高检索人性化要求,系统应提供按照相关度、时间、权威性(要求数据类型的多样化)、信息来源等多种方式进行排序,并且可以为文档的不同字段设置不同的权重,提升关键字段的权重,以提升排序效果。

另外,对于具体的一项记录,应按照相关度等返回固定数目的相关记录。

考虑到前台展示页面已完成,系统需提供查询接收、检索结果返回的接口。

检索结果展示应至少满足以下要求:

1、结果分类展示(按数据类型、主题、时间、来源、中英文等);

2、提供结果可视化展示。

索引管理

系统需要根据数据的元数据,创建数据字段级别的索引。

需要创建的检索项,以文献资源为例,应包括:

标题、作者、关键字、摘要等。

其中,对于中文数据,需要提供相应的有效中文分词工具。

由于数据来源,主要指科学数据来源,有一定的不确定性,即元数据项可能有所变更,因此,系统需要提供对选定XML文档的特定数据项创建索引的接口。

检索管理

1、词库管理

系统提供成熟可用的相关词库,并有方便易用的管理维护工具,方便进行各种词库的管理维护工作。

用户可以进行词库维护操作,实现增、删、改、导入、导出等功能。

2、支持预处理

对查询需要一部分预处理工作,包括中文分词、去掉不必要的或者意义不大的词、截词(支持模糊检索)、实体识别、语义扩展等工作。

3、支持检索结果的分析

根据实际需求,综合考虑文本内容相关度、来源可信度、发表时间的相关度排序算法,支持对相似的检索结果进行聚类分

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 哲学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1