seo课件第一部分全体PPTPPT课件下载推荐.pptx

上传人:b****1 文档编号:14685685 上传时间:2022-10-23 格式:PPTX 页数:45 大小:2.46MB
下载 相关 举报
seo课件第一部分全体PPTPPT课件下载推荐.pptx_第1页
第1页 / 共45页
seo课件第一部分全体PPTPPT课件下载推荐.pptx_第2页
第2页 / 共45页
seo课件第一部分全体PPTPPT课件下载推荐.pptx_第3页
第3页 / 共45页
seo课件第一部分全体PPTPPT课件下载推荐.pptx_第4页
第4页 / 共45页
seo课件第一部分全体PPTPPT课件下载推荐.pptx_第5页
第5页 / 共45页
点击查看更多>>
下载资源
资源描述

seo课件第一部分全体PPTPPT课件下载推荐.pptx

《seo课件第一部分全体PPTPPT课件下载推荐.pptx》由会员分享,可在线阅读,更多相关《seo课件第一部分全体PPTPPT课件下载推荐.pptx(45页珍藏版)》请在冰豆网上搜索。

seo课件第一部分全体PPTPPT课件下载推荐.pptx

和浏览器一样,搜索引擎也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。

搜索引擎工作原理-蜘蛛Baiduspider+(+http:

/China;

http:

/Bing蜘蛛Sogou+web+robot+(+http:

/2、页面更新度3、导入链接4、与首页点击距离质量高,资格老的网站被认为权重比较高,这种网站上面页面被爬行的深度也会高,所以会有更多页面被收录。

搜索引擎工作原理-吸引蜘蛛1、网站和页面权重2、页面更新度3、导入链接4、与首页点击距离蜘蛛每次爬行都会把页面数据储存起来,如果蜘蛛第二次爬行发现与第一次收录完全一样,说明页面没有更新,蜘蛛也就没有必须经常更新,如果页面经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现新的链接,也自然会被蜘蛛更快的跟踪,抓取新页面。

搜索引擎工作原理-吸引蜘蛛1、网站和页面权重2、页面更新度3、导入链接4、与首页点击距离无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。

高质量的导入链接也经常使页面上的导出链接被爬行深度增加。

搜索引擎工作原理-吸引蜘蛛1、网站和页面权重2、页面更新度3、导入链接4、与首页点击距离一般来说网站上权重最高的是首页,大部分外部链接都是导入首页的,蜘蛛访问最频繁的也是首页。

离首页的距离越近,页面权限越高,被蜘蛛爬行的机会也越大。

4、地址库为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

1、人工录入的种子网站。

2、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

3、站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放到已访问地址库中。

大部分主流搜索引擎都提供一个表格,让站长提交网址,不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面的重要性如何,搜索引擎收录的绝大部分页面是蜘蛛自己跟踪链接得到了,可以说提交页面基本上是无用处的,搜索引擎更喜欢自己沿着链接发现新页面。

搜索引擎工作原理文件存储和爬行时的复制内容检测搜索引擎抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML是完全一样的,每个URL都有一个独特的文件编号。

文件存储爬行时的复制内容检测检测并删除复制内容通常是在后面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程序的复制内容检测。

遇到权重很低的网站上大量转载或抄袭的内容时,很可能不再继续爬行。

这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因。

搜索引擎工作原理预处理搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理,搜索引擎数据库中的页面都在数万亿级别以上,用户输入搜索词后,靠排名程序实习对这么多页面分析相关性,计算量太大,不可能在一两秒内返回结果,所以必须对抓取来的页面进行预处理,为最后的查询排名做好准备。

和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。

1、提取文字2、中文处理3、去停止词4、去除噪音5、去重6、正向索引7、倒序索引8、链接关系计算9、特殊文件处理搜索引擎工作原理预处理搜索引擎工作原理预处理现在的搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,JavaScript程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。

1、提取文字比如这段代码:

今天愚人节哈除去HTML代码后,剩下的用于排名的文字只有这一句:

今天愚人节哈陈了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字,链接锚文字等。

搜索引擎工作原理预处理分词是中文搜索引擎特有的步骤。

搜索引擎存储和处理页面及用户搜索都是以词为基础的。

英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。

而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的。

搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词。

比如“公务员考试”将被分词为“公务员”和“考试”两个词。

2、中文分词中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。

基于词典匹配:

将待分析的一段汉字与一个事先选好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有一词条匹配成功,或者说切他出一个单词。

基于统计匹配:

分析大量文字样本,计算机出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

基本统计的方法的优势是对新出现的词反应更快速,有利于消除歧义。

无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。

这些词被称为停止词,因为它们对页面的主要意思没什么影响。

英文中的常见停止词有the,a,an,to,of等。

3、去停止词搜索引擎工作原理预处理搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

4、去除噪音搜索引擎工作原理预处理绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等。

以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,这些页面本身与“分类”、“历史”这些词都没有任何关系。

用户搜索“历史”、“分类“这些关键词时仅仅因为页面上有这些词出现而返回博客贴子是毫无意义的,完全不相关。

所以这些区城都司于噪声,对页面主题只能起到分散作用。

搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。

消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。

对页面进行消噪后,剩下的才是页面主体内容。

5、去重搜索引擎工作原理预处理去重的基本方法是对页面特征关系词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词(经常是出现频率最高的关系词),然后计算这些关键词的数字指纹。

这些关键词选取是在分词、去停止词、消噪之后。

通常选取10个特征关键词就可以达到比较高的计算准备性,再选取更多词对去重准确性提高的贡献也就不大了。

简单的增加“的”“地”“得”调换文字段落的位置等伪原创的方法并不能逃避搜索引擎去重的算法。

6、正向索引搜索引擎工作原理预处理文件文件ID内容内容文件1关键词1,关键词2,关键词7,关键词10,.,关键词L文件2关键词1,关键词7,关键词30,,关键词M文件3关键词2,关键词70,关键词305,关键词M文件6关键词2,关键词7,关键词10,关键词M文件x关键词7,关键词50,关键词90,关键词Y7、倒排索引搜索引擎工作原理预处理文件文件ID内容内容关键词1关键词1,关键词2,关键词7,关键词10,.,关键词L关键词2文件1,文件2,文件15,文件58,文件I关键词3文件1,文件3,文件6,文件m关键词7文件1,文件2,文件6,文件x关键词Y文件80,文件90,文件100,文件x页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

8、链接关系计算搜索引擎工作原理预处理GooglePR值就是这种链接关系的最主要体现这一。

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。

我们在搜索结果中也经常会看到这些文件类型。

但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。

9、特殊文件处理搜索引擎工作原理预处理虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进上,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。

对图片、视频内容的排名还往往是依据与之相关的文字内容。

1、搜索词处理2、文件匹配3、初始子集的选择4、相关性计算5、排名过滤及调整6、排名显示7、搜索缓存8、查询及点击日志搜索引擎工作原理排名提高关键词排名的28个SEO技巧1、URL中出现关键词(英文)关键词位置、密度、处理:

2、网页标题中出现关键词(1-3个)3、关键词标签中出现关键词(1-3个)4、描述标签中出现关键词(主关键词重复2次)5、内容中自然出现关键词6、内容第一段和最后一段出现关键词7、H1,H2标签中出现关键词8、导出链接锚文本中包含关键词9、图片的文件名包含关键词10、ALT属性中出现关键词11、关键词密度2%-8%12、对关键词加粗或斜体1、原创的内容最佳,切忌被多次转载的内容内容质量、更新频率、相关性2、内容独立性,与其他页面至少30%互异3、1000-2000字,合理分段4、有规律更新,最好是每天5、内容围绕页面关键词展开,与整站主题相关6、具有评论功能,评论中出现关键词提高关键词排名的28个SEO技巧1、高PR值站点的导入链接导入链接和锚文本:

2、内容相关页面的导入链接3、导入链接锚文本中包含页面关键词4、锚文本存在于网页内容中5、锚文本周围出现相关关键词6、导入链接存在3个月以上7、导入链接所在页面的导出链接少于100个8、导入链接来自不同IP地址9、导入链接自然增加10、锚文本多样化(公务员和公务员考试网)提高关键词排名的28个SEO技巧SEO提升内容吸引力须知之用户阅读习惯在这样一个信息爆炸的时代,制造优质内容去赢得更多“眼球”尤为重要,为何有些内容如此具有吸引力?

另外一些却给人感觉很无聊?

为何你每天更新博客,却几乎没有人来浏览或者留言?

为何你的网站天天发布原创,流量始终上不去?

经过笔者这些年的观察和思考,我总结出优秀内容所具备的10点特质,现在就把秘诀分享给大家。

著名的Nielsen对用户浏览网页的行为作了一番研究,此研究是基于232个用户观看上千个页面后得出的结论,他们

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 信息与通信

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1