新搜索引擎与问天搜索对比分析报告Word下载.docx
《新搜索引擎与问天搜索对比分析报告Word下载.docx》由会员分享,可在线阅读,更多相关《新搜索引擎与问天搜索对比分析报告Word下载.docx(26页珍藏版)》请在冰豆网上搜索。
859
74233
798
259528
哲学类->
宗教学
625
7138
61718
经济学类
711
75332
经济学类->
经济学
296
749
48295
4搜索结果截图(详见附表1)
5结论
搜索时间:
当数据量不是很大时,两个搜索引擎的搜索时间差距不是很大,而当数据量很大时,新搜索引擎的用时少。
搜索数量:
从结果对比表可以看出,问天搜索的结果数量较少,甚至搜索结果为0,而新搜索引擎的结果数量较多。
搜索相关度:
大多数情况下,问天搜索的相关度不是很理想,没有达到预期的效果,新搜索引擎的相关度则相对来说较好,满足了搜索的预期要求。
另外知识库的关键字是自定义的,所以关键字定义的越全面,新搜索引擎的搜索结果也更加全面更加准确。
二、关键字搜索对比
服务器,数据量500万
新搜索引擎:
关键字
新搜素引擎
用时
记录数
吉林市长
218
600
851
730
而且是最重要的问题
2562
22866
939
61922
一直是国家最关心的
718
519
1067
1990
这是很多家长要关心的问题
815
141
793
2774
中国经济在将来将会有更快更好的发展
1328
3
1047
403
教育独生子女问题,这是很多家长要关心的问题
640
944
163
4搜索结果截图(详见附表2)
5结论:
当数据量不是很大时,两个搜索引擎用时没有很大的差距,但数据量很大时,新搜索引擎的用时明显少。
问天搜索的结果中包含有很多如“的”、“而且”等一些需要过滤的停用词,而且位置都排在搜索结果的前面,严重的影响着搜索的相关度。
新搜索引擎启用了较全面的停用词库,很好的过滤掉了那些不需要的停用词,相对于问天搜索,相关度明显提高很多。
问天搜索的搜索数量很少,而且停用词占了一部分,并且还存在搜索不出结果的情况,新搜索引擎的搜索数量比问天搜索的搜索数量高出很多。
附表1(知识库搜索截图)
1、知识库:
心理健康(专业导航)
问天搜索搜索结果如下:
(用时:
734ms记录数:
764)
新搜索引擎搜索结果如下:
725ms记录数:
59461)
2、知识库:
心理健康(专业导航)->
546ms记录数:
5)
729ms记录数:
58799)
3、知识库:
心理健康(课程导航)
531ms记录数:
737ms记录数:
36032)
4、知识库:
心理健康(课程导航)->
406ms记录数:
0)
719ms记录数:
1371)
5、知识库:
859ms记录数:
74233)
798ms记录数:
259528)
6、知识库:
625ms记录数:
7138)
61718)
7、知识库:
711ms记录数:
75332)
8、知识库:
经济学
296ms记录数:
749ms记录数:
48295)
返回
附表2关键字搜索截图
1、关键字:
218ms记录数:
600)
851ms记录数:
730)
2、关键字:
2562ms记录数:
22866)
939ms记录数:
61922)
3、关键字:
一直是国家最关心的
718ms记录数:
519)
1067ms记录数:
1990)
4、关键字:
这是很多家长要关心的问题
815ms记录数:
141)
793ms记录数:
2774)
5、关键字:
中国经济在将来将会有更快更好的发展
1328ms记录数:
3)
1047ms记录数:
403)
6、关键字:
640ms记录数:
0)
944ms记录数:
163)
三、多表联合查询搜索
关系型数据库中,多表关联是很常见的事情。
但是,目前使用的搜索引擎不具备多表连接搜索的功能,大大的限制了项目中搜索功能的强壮性。
新搜索引擎通过视图的方法对多表关联的情况建索引,从而解决了多表关联的全文搜索问题。
通过视图创建表可以逻辑分割索引,这样用户就不需要专门建一个大表来解决多表关联时的全文索引问题,无论是在索引效率或者维护方便程度上都比建一个大表效果高出很多。
查看地址:
四、H优缺点分析
优点分析:
1、缓存
如上图所示,新搜索引擎提供三种级别的缓存方案。
Indexcache:
索引级别缓存用于缓存倒排索引和单值索引。
这种缓存为系统自动管理,不能关闭。
索引级别缓存会自动监控数据的增删改,并进行相应修改。
Querycache:
查询级别缓存对查询的条件进行缓存,H系统服务会将不同查询条件对应的文档ID(DocId)缓存下来,下次查询时直接从缓存中获取符合条件的文档ID,不再访问低级别缓存或索引。
和索引级别缓存不同的是,当表的数据发生变化时,查询级别缓存将会失效,需要重新缓存。
Datacache:
数据级别缓存运行在客户端,客户端查询得到的数据被缓存下来,下次查询时将从数据缓存中直接获取数据,而不再到H系统服务中去获取数据。
和查询级别缓存一样,表的数据发生变化时,数据级别缓存将会失效,需要重新缓存。
2、并发控制
新搜索引擎设计了非常完善的并发控制机制,用户的增删改查可以同时进行,不会存在任何冲突。
3、内存管理
新搜索引擎以系统服务存在,不会像Lucene那样和应用程序共用内存。
新搜索引擎设计了一套内存管理机制,用户可以设置最大内存使用数量,一旦新搜索引擎使用内存超过这个数量,新搜索引擎就会自动启动内存整理程序,将一些不经常使用的缓存从内存中清理掉以腾出更多的内存空间给用户。
用户可以通过SP_CONFIGURE存储过程来查看和管理内存。
缺点分析
当视图的增、删、改操作很频繁时,需要对视图进行实时的同步,但是目前同步就比较麻烦。
五、H与L对比分析
总体来说,H相对于L有重大的改进。
1、H建立索引文件的时间比L短,而且索引文件大小比L小。
2、在对于结果集大小在50万以内的情况,新搜索引擎要比L快不少,而对于较大结果集,两者差别不大。
3、单个关键字的情况下,两者的搜索素的是接近的,但是多关键字情况下新搜索引擎比Lucene.Net具有明显的优势,查询速度快5-10倍,甚至上百倍。
下表列举的是一些细节上的比较。
功能
L
按词条搜索—TermQuery
支持
“与或”搜索—BooleanQuery
在某一范围内搜索—RangeQuery
使用前缀搜索—PrefixQuery
多关键字的搜索—PhraseQuery
相近词语的搜索—FuzzyQuery
通过分词来实现,EnglishAnalyzer可以完成类似功能
使用通配符搜索—WildcardQuery
通过分词来解决,盘古分词的最新版本已经提供类似解决方案
Contains-多个关键字之间按与方式匹配
不支持
Like-类似数据库的Like'
%xx%'
更新数据-Update
需要删除后再添加
直接调用Update语句完成,如果只更新非全文字段,不重新索引,速度非常快
增量索引
不同字段指定不同分词器
分组统计-Groupby
与关系数据库关联
可以单表管理,多表关联,基于现有表或视图创建索引
并发控制
读、写、优化等不能同时进行
读、写、优化等可以同时进行
内存管理
可设定最大内存使用阈值,到这个阈值后会自动将不常访问的缓存清理掉
重建索引(数据不动,只重建全文索引)
多表关联查询
消重-Distinct
分类,聚类等数据挖掘功能
后续版本开发
走到茶几边,我认出了外婆的杯子,但是哪一个才是妈妈的杯子呢?
突然之间,我觉得,自己真得太不了解父母了。
当妈妈为我倒水时,我却不知她的杯子是什么样的;
当妈妈为我夹我喜欢吃的菜时,我却没想过他们是爱吃淡一点,还是浓一点。
。
2009年到了,意味着过去一年的逝去和新的一年的到来。
妈妈为我操劳了一整年,仔细想想,现在的我也应该为她做一点点事了。
于是,我决定先将茶沏好再找杯子。
学着爸爸平时沏茶的顺序,我先从茶柜里找出了一罐普洱茶,再往烧水的壶里加入水放在电茶炉上烧,接着,我将爸爸已经掰好的普洱茶片拿了两片放在盖碗里,等了一会,水开了,我小心地将水注入盖碗,将盖盖上,把盖碗里第一遍的茶水滤掉,然后再次注水,盖上盖,焖一会才两手并用地将茶水倒入茶海里,因为第一次自己动手,盖碗的烫手是我所没想到的,手忙脚乱的我弄得茶几上一片片的水渍。
重复几次这样的程序后,我先帮外婆倒了一杯茶,因为外婆特别喜欢喝茶。
当外婆从厨房走出来的时候我已经把茶都给倒好了,这时,外婆才告诉我哪一个是妈妈的杯子。
妈妈起床了,我双手捧着水杯送到她的面前,就像捧着一颗温热的心。
妈妈一愣,随即脸上露出了微笑,她一手接过水杯,伸出另一只手将我拉进了她的怀里,那手轻轻柔柔地在我的头上抚摸着,接着妈妈在我的脸上深深地亲了一口。
虽然妈妈经常亲我,但这一刻的亲吻却最让我感到幸福。
我抬起头对妈妈说:
“妈妈快喝吧,要不茶要凉了。
”妈妈仰起了脖子,张着嘴巴,“咕咚,咕咚”地喝了几大口。
看她那甜蜜蜜的样子,仿佛微苦的普洱茶也是蜜一般甜。
我记得在我小学的时侯,就读过一首曹值的七步诗:
“煮豆持作梗,辘毂以为汁;
秸在釜下燃,豆在釜中泣;
本是同根生,相煎何太急”。
那时只知其大意,只知道曹操的长子曹丕继位,他在一些奸臣的影响下,担心他的同胞弟弟曹值篡位,便逼迫曹值在七步之内作出一首诗来,否则处死;
结果他的弟弟就在七步之内写出了流传至今的“七步诗”。
当时这首诗对曹丕也是一种极大的潮讽。
几个世纪过去了,社会和生活都发生了极大的变化;
应该说人的素质也应有所提高;
一个人生活在世上,是离不开亲情、友情和爱情的;
有人说:
打架亲兄弟,上阵父子兵,但是,兄弟姐妹的团结并不是真对与他人打架斗殴,在生活上,事业上应是不可或缺的照应;
俗话说“一根筷子容易断,十双筷子断就难”;
可见,团结是一种力量,只有团结才有攻不破的堡垒。
然而,就在生活优越的今天,兄弟姐妹往往因为一点小事,一点利益而你争我斗,反目成仇,甚而相残;
我和我的朋友在聊天时有时聊及这个问题,有人这样评论:
一个人生活在世上,如果不顾亲情,对兄弟姐妹甚至父母于不顾,那他在这个社会上和任何人都不要谈“情”字,特别是友情。
树大分枝,各自成立家庭后,在生活中一些小事是难免发生的,但要看你怎样去对待,把金钱和利益看的太重,那麽,你就会值亲情于不顾;
看淡名利,注重亲情才是做人的底线;
争则不足,让则有余,在利益和金钱面前,我们何不礼让一点,做一个有道德、有素质、有亲情的人呢?
家和万事兴,团结是一种力量,让我们团结友爱,和睦共处,为个人的事业、为家庭的生活、为国家的兴盛而看重亲情、友情、爱情;
把金钱和利益看淡一些吧!
人过留名,雁去留声,希望在几十年之后,当你离开这个世界的时侯,留给后人的不是唾泣,而是美愉。
今天是她父亲的生日,她要回家和父亲一起过生日.我很理解她的想法,更理解她的思念之情.是的,她父亲已经六十多岁了,为了子女的成长与幸福,含辛茹苦,真的的不容易.话说过来,人一辈子真的很不容易.人年老时非常希望能够和子女在一起,即使不能在一起,哪怕一个电话甚至一个短信,父母也已经很知足了.我由于长期在外,很想念爸爸妈妈.想起过去,心里真的很辛酸,父母亲为了我们的成长真的付出了很多,然而他们现在又生活得怎么样呢?
想起过去的一幕一幕,我心里很难受!
我很希望做做子女的我们,踏踏实实地做好每一件事情,不让父母担忧,这是最基本的我们应当做的事情.
谈到这里我不由自主地想起一部电影《我的兄弟姐妹》,这是一部关于亲情的影片,暂且不管故事的真实性,主要考究它的内涵. 主人公齐思甜和哥哥齐忆苦、妹妹奇妙、弟弟齐天生活在一个不富裕却充满温馨和爱的家。
然而在一个暴风雪的夜晚,他们的母亲旧病复发,咳得吐血了。
父亲背她去医院,却出了意外,他们俩都亡故了。
次日,另一家人搬进了四个孩子的家。
性格刚强的哥哥无法忍受这个新家庭的种种,无奈地带着弟弟妹妹离开了家。
他们开始四处奔波,寻找落脚之处。
当实在没有能力照顾弟弟妹妹的时候,他把妹妹齐思甜送给一对正要出国的夫妇;
把弟弟送给他的舅妈一家;
又把小妹妹带到一对老人家中请他们收养。
他自己和弟弟妹妹们便各奔东西……20年后,齐忆苦在北京当上了出租车司机;
齐思甜出国受到良好的教育,成了音乐家;
齐天成为东北大学学生;
齐妙却当上了舞厅小姐。
在北京的音乐会上,思甜蓦然回首的瞬间,音乐霎时凝固了。
他们四人拥抱在一起,泪水顺着另一支悠扬的乐曲落下,听众的掌声久久不息……终于,他们有了一次永久的重逢。
齐思甜的父亲是一个音乐教师,他们一家人都生活在音乐的天堂里,这也为后来思甜成为音乐家打好了基础。
父亲说:
“人生路上有许多困难的事情,只要有音乐在,你的灵魂便不再寂寞。
”这位父亲是伟大的,他乐观开朗,以身作则。
尽管他和蔼可亲,但同时又是一个严厉的父亲。
有一回,齐忆苦偷邻居家的鸡蛋,是为了满足妹妹小小的心愿。
而他却因此挨了父亲的鞭子,还罚他站在雪地里很久。
在父亲被分配到别的地方边劳动边教音乐时,他对这“莫须有的罪名”并没有悲愤倒下,而是瞒着家人当搬运工挨家挨户送木材,还干各种各样的粗活。
他也没有一丝怨言,还对孩子说:
“我没事。
”懂事的孩子们也拿起了工具,帮父亲干活。
他哼着小调,阳光幸福地洒在他们脸上。
可见,这位父亲是多么伟大,他以他的行动告诉了孩子们音乐的重要性及如何面对生活的苦难。
那么,又是一种什么样的力量,使后来的四个孩子重逢,使他们欢聚,使他们接受心灵的洗礼?
毋庸置疑,是亲情。
寒冷的冬天,四个孩子依偎在车站。
他们在为下一餐饭而担心着。
“哥,我饿。
”、“哥,我冷。
”、“哥,我想回家……”弟妹们的话刺痛了哥哥。
他说:
“只要我还有一口气,就不让你们受委屈。
”事实上他也这么做了。
如果不是亲情,他又何必活得如此累呢?
他又怎能忘记,那一晚,父母临走时对他的嘱咐:
“你是哥哥,要照顾好弟弟妹妹。
”
生活改变了许多人和事,也改变了他们。
但是,亲情是始终不渝的。
最小的妹妹齐妙长大后竟成了舞厅小姐!
她离开原来的家后,养父母去世得早,加上无人看管,就开始堕落下去了。
她在20年后与齐思甜相遇时,大言不惭地对她说她满足于当前腐朽昏暗的生活方式。
但是自那以后,她回忆起以前的一点一滴,又不免伤感和懊悔。
她发现自己对不起所有爱她的人,她的良心受到了谴责。
于是,亲情的归来使她的精神方面的巨人复活了!
她的灵魂才得以解放。
亲情给人以新生,亲情又犹如一支镇心剂。
亲情是心中的太阳,照耀着我们;
亲情是温柔的春风,抚摸着我们;
亲情如绵绵的春雨,滋润着我们。
亲情是雪,晶莹剔透;
亲情也可以是雷,惊天撼地。
亲情可以是灯,温暖柔和;
亲情也可以是微弱的烛光,不亮却很辉煌。
不管怎么说,亲情一定是无价的宝藏。
没有了亲情,世界变得荒芜、凄凉;
没有了亲情,生命则无法繁衍后代;
没有了亲情,生活就单调枯燥;
没有了亲情,人间也成了地狱。
亲情是沟通两代之间思想交流的桥梁,是一条连结两颗心的纽带。
“兄弟姐妹原是天上掉下的水花,谁也不认得谁。
但落在地下后,结成一体,结成冰,化成水,就永远也分不开了。
“临行密密封,意恐迟迟归”,是亲情。
“我在这头,母亲在那头”,也是亲情。
无价的亲情呵,愿我们在你的鼓舞下,驶向美好灿烂的明天。
关于亲情的影片..我看这部影片时,心情很沉重,流泪了.
我想,不论一个人的出身是多么卑微,只要我们能够记住亲情的鼓舞与期待,只要我们我们去刻苦努力,只要我们在心理上能够战胜自己,那么我们就是生活的强者!