好医生搜索引擎Word格式.docx

资源描述

好医生搜索引擎Word格式.docx

《好医生搜索引擎Word格式.docx》由会员分享，可在线阅读，更多相关《好医生搜索引擎Word格式.docx（10页珍藏版）》请在冰豆网上搜索。

好医生搜索引擎Word格式.docx

和GOOGLE的差别

硬件要求

一、产品概述

好医生垂直搜索系统解决方案可用于网上行业信息集成。

最新版本的好医生垂直搜索技术包括几十项实用改进，它综合了多家搜索引擎技术公司的研发经验，以及数十名专业技术人员的研发成果。

由负责网站抓取的服务器端程序和前台搜索页面构成。

其主要特点是：

结构清晰，安装简单，可提供用户顶级的搜索体验。

产品基础模块如下：

1.全文检索服务

2.网页索引服务

3.自动摘要

4.简体中文分词

5.中文同义词库

6.网页内容提取

7.医学词库及症状至疾病逻辑关系库

8.拼音搜索

9.中英文对应词库

10.从正文提取症状

11.从症状自动关联相关疾病

12.提供各模块及搜索结果接口

注:

各模块要求可以便捷的维护更新。

系统总体结构如下：

Web

IndexDB

Searcher

Spider

Database

二、核心技术

好医生垂直搜索系统集成自然语言处理领域与医学数据库检索技术完美结合。

中文分词（CnTokenizer）

●可以作为独立的一个模块调用，作为二元分词方法的替代。

●分词准确率98%以上。

●同时支持分词和词性标注。

●提供参数调节分词准确性和切分速度。

●100%采用c++实现的分词组件，无内存泄漏问题。

可长期不间断运行。

●采用多种分词方法结合，包括基于概率的n元切分方法，隐马尔科夫模型，未登录词识别算法，歧义识别算法和基于规则的方法等。

●采用多个大规模语料库训练概率词库。

●针对多线程使用优化，占用内存少。

文本分类

●可以用中文，英文两种语言来进行文档分类。

中文文本分类内部集成好医生中文分词模块。

●可以采用SVM分类方法。

●采用概率估值算法，特征加权算法。

可选择多个特征评估函数，特征选择方式可以采用全局选取和按类别单独选取。

●提供参数调节分类准确性和速度。

●100%采用c++实现的分类组件，无内存泄漏问题。

●提供分类结果评测，让你随时了解分类的准确性。

●采用手工整理大规模语料库训练分类模型。

封闭测试准确率在95%以上。

关键词提取

●可以用中文，英文两种语言提取关键词。

●可以提取任意数量的关键词。

●可以针对行业优化提取关键词。

●可以根据一个给定词提取出相关关键词。

●可以从正文提取出,检查,药品,疾病,医院,手术,症状,医院,专家,并设定权重值。

三、功能简介

中文分词

中文分词可以全面提升返回结果的准确率。

好医生做为专业的医学搜索引擎，专注基础研发，不断打破查准率的极限。

搜索“美的”效果：

提供webservice，适应多种平台应用的需要。

具有智能化的学习新词功能，可以往词表添加新词。

可以自动从大规模文档中提取出新词。

准确度可达50%以上。

中英文同义词查找

可以同时查找中文和英文的多项同义词：

搜索引擎会根据同义词库查找出更多的相关结果。

按内容格式分别进行索引

网页，资讯，课件，文献,问答,论坛,商品。

关键字飘红显示及自动摘要

自动摘要边界显示准确：

网页内容提取

用户只需指定专题网页的URL，程序可以自动找出网页模版。

提取出页面内的标题或者日期，内容等,并将提取的正文自动分类并存入mysql数据库,要求提取正确率95%以上。

分类查找

文档可以自动分类。

用户可以按类别查询文档。

按药品,专家,疾病,症状,检查,机构,会议,营养,相关研究,

分类统计

可以按照分组统计统计返回搜索结果，并提供确切的匹配数量：

二次检索

支持在结果中再次查找，对查询结果进一步筛选。

关键词聚类

医药行业信息中的一些热门关键词：