搜索引擎的分词机制.docx
《搜索引擎的分词机制.docx》由会员分享,可在线阅读,更多相关《搜索引擎的分词机制.docx(11页珍藏版)》请在冰豆网上搜索。
搜索引擎的分词机制
(xx长官)
〃長官"
()14:
57:
53
今天我来给大家讲下搜索引擎的分词机制
〃長官"
()14:
57:
58
准备下马上就开始
〃長官"
()15:
00:
36
〃長官"
()15:
01:
38
下面举例:
比如你想要搜索的是“京珠高速的火车出轨并且无一人伤亡天上也掉下冰雹”这个语句的时候〃長官"
()15:
02:
40
如果搜索引擎直接用你段话与数据库中的数据来对比。
肯定搜索不出来任何数据。
因为这个是我自己随便写的。
〃長官"
()15:
03:
26
但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词和英文分词
〃長官"
()15:
03:
42
今天主要说中文英文以后在说
〃長官"
()15:
04:
50
当它用了分词后,用过动易CMS系统的朋友,应该知道。
他们采集后的数据,会把标题分割成2个字一组的关键词。
〃長官"
()15:
04:
58
比如:
京珠高速的火车出轨并且无一人伤亡天上也掉下冰雹
〃長官"
()15:
05:
55
这个标题动易的分词机制是这么分:
京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹
它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的技术含量在里面。
〃長官"
()15:
06:
39
之所以把词拆分开,就是为了与数据库中的相应数据来对比
〃長官"
()15:
08:
10
搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!
这些后面有介绍)〃長官"
()15:
09:
03
京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹
〃長官"
()15:
09:
35
也可以这样分〃長官"
()15:
10:
42
京珠高速|的|火车出轨|并且|无一人|伤亡|天上|也|掉下|冰雹
〃長官"
()15:
11:
51
怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系
〃長官"
()15:
12:
22
比如XX搜索引擎
〃長官"
()15:
13:
23
这样可以简单的看出他是怎么分的
〃長官"
()15:
13:
27
〃長官"
()15:
14:
45
京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹
〃長官"
()15:
16:
02
京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹
〃長官"
()15:
17:
22
下面来看看XX搜索引擎中的分词的理解与实践
〃長官"
()15:
17:
48
〃長官"
()15:
18:
15
大家可以看到这个是XX中的分法(不能一概而论)
〃長官"
()15:
19:
07
可以看出我在上面所规划出的词
〃長官"
()15:
19:
10
〃長官"
()15:
16:
02
京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹
〃長官"
()15:
19:
13
这个来`
〃長官"
()15:
19:
41
〃長官"
()15:
20:
01
而第二个呢
〃長官"
()15:
20:
08
就与上面有些出入了
〃長官"
()15:
21:
08
这些就是在数据库中所存的数据也可以说是字典
〃長官"
()15:
21:
17
http:
()15:
21:
26
大家可以打开这个地址看一下
〃長官"
()15:
21:
28
一会在看哦
〃長官"
()15:
23:
20
当这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词
〃長官"
()15:
23:
54
也就是相当于比如搜索的是某个成语
〃長官"
()15:
24:
37
胸有成竹东山再起
〃長官"
()15:
25:
02
刚刚我用的是只能ABC打出来的
〃長官"
()15:
25:
49
直接拼音出来胸有成竹东山再起这两个就能直接打出来。
搜索引擎的数据库原理是类似〃長官"
()15:
26:
45
比如你刚刚搜索的是胸有成竹这个成语
〃長官"
()15:
27:
04
http:
〃長官"
()15:
27:
29
〃長官"
()15:
27:
57
XX中主要是先用这个词来与数据库中的数据来对比
〃長官"
()15:
29:
01
如果数据库中的数据有这个词那么就先从这写词开始,然后在晒选,根据XX的规则,竟价等来顺序的显示数据
〃長官"
()15:
29:
40
http:
〃長官"
()15:
30:
06
当中间出现空格的话胸有成竹
〃長官"
()15:
30:
39
这就自动当成2个词语来算〃長官"
()15:
30:
36
〃長官"
()15:
31:
35
当你搜索拼音的时候为什么岢鱿窒嘤Φ氖菽?
〃長官"
()15:
31:
57
http:
〃長官"
()15:
32:
22
〃長官"
()15:
32:
42
因为他们的数据库中有拼音对比中文的数据库
〃長官"
()15:
33:
10
cpu
(1)15:
33:
30
长官图片出不来
〃長官"
()15:
33:
54
〃長官"
()15:
34:
15
现在本来搜索的是拼音tianmen而排在前面的是中文的,这就是XX讨厌的地方,因为他想怎么做就怎么做
〃長官"
()15:
35:
00
http:
〃長官"
()15:
35:
27
〃長官"
()15:
35:
43
还有错别字纠正
〃長官"
()15:
37:
21
他这些,也是从数据库中来对比的。
个人认为他们是在临时的数据库。
当一个词搜索量高的时候,这个词就会写入临时数据库中,来对比
〃長官"
()15:
38:
06
下面简单的介绍下GG的
〃長官"
()15:
38:
54
http:
()15:
39:
07
还是上面那句话,京珠高速的火车出轨并且无一人伤亡天上也掉下冰雹
〃長官"
()15:
40:
00
大家可以看到GG的中文确实不如XX做的好
〃長官"
()15:
40:
16
〃長官"
()15:
41:
03
这些搜索字词都已标明如下:
xx并且无天上也掉下
这些搜索字词仅在指向此网页的链接中出现:
珠高速火车出轨一人伤亡冰雹
〃長官"
()15:
41:
17
这些是GGxx标明的
〃長官"
()15:
42:
28
京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下冰雹(掉下)(冰雹)
这些是我之前所根据自己的思维来划分的词
〃長官"
()15:
43:
46
搜索引擎中还有一个重点就是
〃長官"
()15:
45:
03
当这个词出现的时候他们做的是从左到右或者是从右到左这么判断分析
〃長官"
()15:
46:
08
http:
〃長官"
()15:
46:
15
http:
〃長官"
()15:
46:
49
大家可以看这两个词的相关网页数量是相同的都是4,120,000篇
〃長官"
()15:
48:
00
以上就是搜索引擎中的分词机构
注明:
以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性
〃長官"
()15:
48:
14
〃長官"
()15:
48:
00
以上就是搜索引擎中的分词机制
注明:
以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性
〃長官"
()15:
48:
16
打错字了
〃長官"
()15:
49:
42补充一下如果你搜索完天天赚钱这个词后,在和天天赚钱这两个词对比一下,如果相同,就说明这个是搜索中的分词
〃長官"
()15:
49:
53
解释下上面说到的数据库
刷新
(6)15:
52:
23
〃長官"
()15:
52:
29
一会我去论坛上发表,在有一个就是补充,书本汉语自动分词系统-cdwd.PDF电子书
上面结实的比较详细
如果数学好的朋友可以根据算法体验中间的奥秘
好好学习
(8)15:
52:
35
辛苦长官了!
〃長官"
()15:
52:
37
xx大家今天到这里`