好医生搜索引擎Word格式.docx
《好医生搜索引擎Word格式.docx》由会员分享,可在线阅读,更多相关《好医生搜索引擎Word格式.docx(10页珍藏版)》请在冰豆网上搜索。
和GOOGLE的差别
硬件要求
一、产品概述
好医生垂直搜索系统解决方案可用于网上行业信息集成。
最新版本的好医生垂直搜索技术包括几十项实用改进,它综合了多家搜索引擎技术公司的研发经验,以及数十名专业技术人员的研发成果。
由负责网站抓取的服务器端程序和前台搜索页面构成。
其主要特点是:
结构清晰,安装简单,可提供用户顶级的搜索体验。
产品基础模块如下:
1.全文检索服务
2.网页索引服务
3.自动摘要
4.简体中文分词
5.中文同义词库
6.网页内容提取
7.医学词库及症状至疾病逻辑关系库
8.拼音搜索
9.中英文对应词库
10.从正文提取症状
11.从症状自动关联相关疾病
12.提供各模块及搜索结果接口
注:
各模块要求可以便捷的维护更新。
系统总体结构如下:
Web
IndexDB
Searcher
Spider
Database
二、核心技术
好医生垂直搜索系统集成自然语言处理领域与医学数据库检索技术完美结合。
中文分词(CnTokenizer)
●可以作为独立的一个模块调用,作为二元分词方法的替代。
●分词准确率98%以上。
●同时支持分词和词性标注。
●提供参数调节分词准确性和切分速度。
●100%采用c++实现的分词组件,无内存泄漏问题。
可长期不间断运行。
●采用多种分词方法结合,包括基于概率的n元切分方法,隐马尔科夫模型,未登录词识别算法,歧义识别算法和基于规则的方法等。
●采用多个大规模语料库训练概率词库。
●针对多线程使用优化,占用内存少。
文本分类
●可以用中文,英文两种语言来进行文档分类。
中文文本分类内部集成好医生中文分词模块。
●可以采用SVM分类方法。
●采用概率估值算法,特征加权算法。
可选择多个特征评估函数,特征选择方式可以采用全局选取和按类别单独选取。
●提供参数调节分类准确性和速度。
●100%采用c++实现的分类组件,无内存泄漏问题。
●提供分类结果评测,让你随时了解分类的准确性。
●采用手工整理大规模语料库训练分类模型。
封闭测试准确率在95%以上。
关键词提取
●可以用中文,英文两种语言提取关键词。
●可以提取任意数量的关键词。
●可以针对行业优化提取关键词。
●可以根据一个给定词提取出相关关键词。
●可以从正文提取出,检查,药品,疾病,医院,手术,症状,医院,专家,并设定权重值。
三、功能简介
中文分词
中文分词可以全面提升返回结果的准确率。
好医生做为专业的医学搜索引擎,专注基础研发,不断打破查准率的极限。
搜索“美的”效果:
提供webservice,适应多种平台应用的需要。
具有智能化的学习新词功能,可以往词表添加新词。
可以自动从大规模文档中提取出新词。
准确度可达50%以上。
中英文同义词查找
可以同时查找中文和英文的多项同义词:
搜索引擎会根据同义词库查找出更多的相关结果。
按内容格式分别进行索引
网页,资讯,课件,文献,问答,论坛,商品。
关键字飘红显示及自动摘要
自动摘要边界显示准确:
网页内容提取
用户只需指定专题网页的URL,程序可以自动找出网页模版。
提取出页面内的标题或者日期,内容等,并将提取的正文自动分类并存入mysql数据库,要求提取正确率95%以上。
分类查找
文档可以自动分类。
用户可以按类别查询文档。
按药品,专家,疾病,症状,检查,机构,会议,营养,相关研究,
分类统计
可以按照分组统计统计返回搜索结果,并提供确切的匹配数量:
二次检索
支持在结果中再次查找,对查询结果进一步筛选。
关键词聚类
医药行业信息中的一些热门关键词:
相关搜索
当用户搜索安利时,会出现像:
雅芳直销这样的非字面扩展的相关搜索词。
当用户搜索奔驰也会出现奥迪欧宝宝马这样的同类品牌。
这些相关搜索词都是机器自动生成而非人工干预的结果。
相关文章
对一篇文献自动链接相关文章接口并与CMS集成。
搜索日志
可以统计搜索词和查询IP地址,日期等信息的搜索日志。
并且可以对搜索日志按地区,行业,时间等深入分析用户行为。
复杂条件查找
可以实现数据库式的多条件查找。
比如按照日期、价格等。
可以设置是否在标题前显示缩图。
自定义监测网站
可以指定一个或者多个网站作为搜索的信息来源。
同时可以定义网站的目录URL做为文档分类的依据。
可以定义遍历网站的层次。
监测网站
通过服务器端程序监测指定网站,自动对网站生成的静态页面进行SEO优化。
程序可以自动监测指定网站,采用每天或者每小时轮询方式发现新网页。
可以通过配置文件指定扫描网站的方式。
当然也可以通过命令行建立文档索引。
建立索引方式可以是全量或增量。
内部采用智能适应算法发现新增文档速度快。
一般的行业性网站每天的增量文档处理只需要100多秒即可完成。
自定义排序方式
可按时间或者相关度返回搜索结果,并显示相关度。
按时间,按相关度排序
高级查询功能
支持包括按关键字查询和词组查询,组合查询,以及查询修饰符等。
举例如下:
任意字符匹配
Ro?
e
前缀匹配
rom*
模糊匹配
rome~rome~0.8
把搜索范围限定在标题中
title:
木工
把搜索范围限定在内容中
body:
机械
逻辑查询
电脑&
&
!
IBM
增加关键词的重要度
相机^4手机
其配置情况可以在TXT文件中定义:
索引库管理和分析工具
拥有完整的索引库管理工具。
可以通过web登陆后台删除查询注释某条搜索结果不在前台展现。
三、环境要求及性能指标
支持Linux及Unix操作系统,采用C/C++语言开发。
各种版本可在如下环境稳定运行:
Version
OperatingSystem
SDK/.Net
Java
Linux
SunJava2SDK1.4
SunJava2SDK1.5
网站增量数据的索引一般可以在3分钟之内执行完毕。
10G左右的纯文本信息在数小时内即可索引完毕。
四、和XX的差别
XX不支持同义词查找,而好医生支持。
XX不支持全角字符大小写的原样保持,而好医生支持。
XX不支持多国语言精确查找。
五、和Google的差别
Google不支持中文分词的优化,而好医生支持。
以搜索“老师说明天考试”作为例子,google会出”说明”的结果这是错误分词内容。
六、搜索服务器推荐配置
两台以上2*至强2.0G/8G内存/4*70GSCSI硬盘安装Linux操作系统。