Cygwin网站日志分析的常见命令用法实战版.docx

上传人:b****8 文档编号:9685408 上传时间:2023-02-05 格式:DOCX 页数:10 大小:295.02KB
下载 相关 举报
Cygwin网站日志分析的常见命令用法实战版.docx_第1页
第1页 / 共10页
Cygwin网站日志分析的常见命令用法实战版.docx_第2页
第2页 / 共10页
Cygwin网站日志分析的常见命令用法实战版.docx_第3页
第3页 / 共10页
Cygwin网站日志分析的常见命令用法实战版.docx_第4页
第4页 / 共10页
Cygwin网站日志分析的常见命令用法实战版.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

Cygwin网站日志分析的常见命令用法实战版.docx

《Cygwin网站日志分析的常见命令用法实战版.docx》由会员分享,可在线阅读,更多相关《Cygwin网站日志分析的常见命令用法实战版.docx(10页珍藏版)》请在冰豆网上搜索。

Cygwin网站日志分析的常见命令用法实战版.docx

Cygwin网站日志分析的常见命令用法实战版

Cygwin日志分析的常见用法(实战版)

一、less的用法

less就是查看日志的目录内容,不确定日志文件有什么内容的或者输入命令想查看导出结果的,可以用less查看

如catXXX.log|less

二、wc–l的用法

wc–l就是看有多少条数据,在输入各种命令排查日志内容,可以优先用wc–l看看还剩下多少条数据。

Wc–l经常会用于查看各种搜索引擎蜘蛛数量、搜索引擎用户来源的数据。

如:

catxxx.log|wc–l

上者两者结合简单命令组合作用举例:

首先查看这份日志一天有多少个XX蜘蛛:

数据量较少的话,可以用less直接看蜘蛛访问的都是什么页面:

日志初级用法说明:

XX蜘蛛每次更新之前给到一个网站的数量基本差不多,比如一个网站XX蜘蛛一天给到的蜘蛛份额就只有30个,那么他每天正常来说只会爬30条内容(不算大量录入新内容吸引)。

用wc–l可以监控蜘蛛增长的情况,以便增加或者减少seo操作,less可以查看蜘蛛爬行到什么内容,如果爬行到无用的内容,我们在robots.txt那边禁止蜘蛛爬到无用内容。

三、查看网站的稳定性。

这里的稳定性是查看状态码,其中状态码200是正常的,301以及302是重定向和临时定向,这部分如果网站自己内部操作也属于正常,非正常的代码是“404”、“500”、“502”我们可以通过日志分析监控这部分的数据:

同样的日志,我们分析正常的XX蜘蛛访问的代码,得出,我们200正常的有74条,但是我们这份日志一天蜘蛛访问95条,也就是说有19条是错误代码,可以进一步排查

进一步排查命令

可以发现这份网站一天XX蜘蛛访问返回404的结果有12条,304(网站页面之前已经收录,无变动)结果9条:

然后我们就用less命令查看详细的404页面:

发现爬的全是网站之前上传的压缩包,这部分在XX站长后台死链提交工具把这些都提交。

四、查看蜘蛛访问目录

蜘蛛进入网站并不是一定会访问有用的内容,只要上传到服务器,没被robots禁止的内容,蜘蛛都有可能会爬,那么我们就要看蜘蛛访问的是什么内容:

从图中我们可以看出访问的大部分都是无用的url,我们需要对这部分的数据进行处理,所以要把这些数据都导出来,那么我们就可以输入:

这里的“>”是把左边的命令结果导出到右边的url.txt(如果没这文件,自动生成)。

导出后,我们就可以根据这份日志,把在robots文件写上对应的禁止规则:

按上图所示,/m/以及/uploads//tags.php都是不能让蜘蛛爬的,网站也属于无效内容,在robots里面添加

Disallow:

/m/

Disallow:

/uploads/

Disallow:

/tags.php*

这样我们就禁止蜘蛛爬行这些无效目录,大大提高了蜘蛛的效率。

五、掌握优化时间

搜索引擎的优化事实上就是蜘蛛的优化,蜘蛛优化的根本就是让更多的蜘蛛能够访问到我们网站优质的内容,增加权重所以掌握优化时间很重要,什么时候才是优化的好时机呢?

1、蜘蛛访问高峰期发优质内容,更容易有排名。

2、蜘蛛访问低峰期,发外链以及发布文章吸引蜘蛛访问。

掌握蜘蛛爬行的时间

首先对于日志文件20171030.log的初步处理

导出20171030.log中XX蜘蛛的数据,命名为baidu.log:

然后输入命令

catbaidu.log|awk'{if($9~"200")print$4}'|awk-F":

"'{print$2}'|sort|uniq-c|sort-nrk1,1|less

得出结果:

就是说这个网站蜘蛛访问的最多时间就是早上的四点到五点之间(左边是次数、右边是时间)。

取网站日志半个月的平均统计时间,得出蜘蛛哪个时间段内访问最多,哪个时间段内访问最少,即可知道什么时候应该发文章,什么时候应该发外链。

名词解释:

awk–F:

输出分割符号sort分类uniq–c汇总并且排序sort-nrk1,1由多至少排序

六、其他应用

查看网站哪里蜘蛛访问最多(可以做内链优化)

catbaidu.log|awk'{if($9~"200")print$7}'||sort|uniq-c|sort-nrk1,1|less

得出这个网站访问权重最高的就是第一个。

七、我们网站日志分析(9月11日数据,已经修改完毕)

首先把我们网站日志属于XX蜘蛛的全部导出

3、分析蜘蛛访问时间

4、catbaidu.log|awk'{if($9~"200")print$4}'|awk-F":

"'{print$2}'|sort|uniq-c|sort-nrk1,1|less

可以知道我们网站文章录入最佳的时间就是早上十点、下午17点,外链发布最佳时间就是13~14点,晚上凌晨到六点是蜘蛛访问的低峰。

这个说明我们网站外链更新不多。

非人工干预最新发布外链吸引不到更多的蜘蛛。

那么继续分析我们网站哪个页面最受搜索引擎青睐:

catbaidu.log|awk'{if($9~"200")print$7}'|awk-F":

"'{print$2}'|sort|uniq-c|sort-nrk1,1|less

其余蜘蛛大量爬行无用的数据

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 临床医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1