当前位置:首页 > 问答聚合 > 正文内容

从蜘蛛日志分析网站(网站蜘蛛爬取日志在哪里看)

zhuangbi888.com2022-05-16 06:50问答聚合123

本篇文章给大家谈谈从蜘蛛日志分析网站,以及网站蜘蛛爬取日志在哪里看对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文导读目录:

如何进行网站日志分析

一个合格的站长或者seoer必须要能看懂网站的服务器日志文件,这个日志记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力佐证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,这将非常有利于我们做优化。另外,学习分析网站日志文件也是站长必须具备的能力,也是你从一个初级seo进阶到seo高手的必由之路。但是前提是要主机服务商开通日志统计功能,一般虚拟主机提供商都不会开通,你可以申请开通,或者自己到服务器管理后台开通这个日志统计功能,不过日志也会占用空间的,我们在看完日志文件后,可以隔段时间清理下日志文件。那么如何分析服务器日志文件呢?听我娓娓道来。

搜索引擎抓取网站信息必会在服务器上留下信息,这个信息就在网站日志文件里。我们通过日志可以了解搜索引擎的访问情况,一般通过主机服务商开通日志功能,再通过FTP访问网站的根目录,在根目录下可以看到一个log或者weblog文件夹,这里面就是日志文件,我们把这个日志文件下载下来,用记事本(或浏览器)打开就可以看到网站日志的内容。那么到底这个日志里面隐藏了什么玄机呢?其实日志文件就像飞机上的黑匣子。我们可以通过这个日志了解很多信息,那么到底这个日志给我们传递了什么内容呢?

如果想要知道网站日志文件包含了什么内容,首先必须知道各搜索引擎的蜘蛛名称,比如百度的蜘蛛程序名称是baiduspider,Google的机器人程序名称是Google-Googlebot等等,我们在日志的内容里搜索上述的的蜘蛛名就可以知道哪个搜索引擎已经爬取过网站了,这里就留下了他们的蛛丝马迹。再者,必须能看懂常见的http状态码,最常见的HTTP状态码有200(页面抓取成功)、304(上次抓取的和这次抓取的没变化),404(未找到页面,错误链接)500(服务器未响应,一般由服务器维护和出故障,网站打不开时出现的),这些状态码是我们站长朋友必须能看懂的,服务器状态码的值是我们和蜘蛛交流的信号。知道了这些基本信息以后我们就可以根据网站日志进行分析了,一般来说我们只看百度和谷歌蜘蛛的爬行和抓取情况,当然有特殊需要的也可以对其他几个蜘蛛的爬行情况进行分析。网站日志中出现大量的谷歌蜘蛛和百度蜘蛛,说明搜索引擎蜘蛛时常来光顾你的网站。

说到分析日志文件,我们就不得不说分析日志文件的时机了,那么在什么情况下我们要去分析日志文件呢?首先,新网站刚建立的时候,这个时候也是站长朋友最急切的时候,我们一般都会焦急的等待搜索引擎收录网站内容,经常会做的事情就是去百度或者Google用命令site:下网站域名看看是否被收录,这个时候,其实我们没必要频繁的查询网站是否被收录,要想知道搜索引擎是否关顾我们的网站。我们就可以借助网站日志文件来查看,怎么看?看网站日志是否有搜索引擎的蜘蛛来网站抓取过,看返回的状态码是200还是其他,如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。一般抓取成功后被搜索引擎放出来的时间也会晚点,一般谷歌机器人放出来的比较快,最快可秒杀,但是百度反应就慢了,最快也要一周左右,不过11月份百度算法调整后,放出来的速度还是很快的。其次,当网站收录异常时我们要把正常收录的日志和异常的日志进行对比分析,找出问题所在,这样可以解决网站收录问题,也是对完整优化大有裨益的。第三,网站被搜索引擎K掉后,我们必须要观察网站日志文件来亡羊补牢,一般这种情况下,日志文件里只有很少的几个蜘蛛爬行了首页和robots,我们要找出被K的原因并改正,再提交给搜索引擎,接下来就可以通过观察日志来看蜘蛛是否正常来临,慢慢过一段时间,如果蜘蛛数量增加或者经常来临并且返回200状态吗,那么恭喜你,你的网站又活了,如果半年都没反应,那么建议放弃该域名重新再战了。

很多站长朋友不懂得如何利用网站日志文件,遇到网站收录问题就去提问别人,而不好好自检,这是作为站长或者seoer的悲哀。而且网上的很多软文都提到要做好日志文件的分析,但是那只是软文而已,说不定写文章的作者都没有去看日志文件。说到底,还是希望站长朋友一定不要忽略了网站日志文件,合理的利用好网站日志文件是一个站长或seoer必备的技能。再者说,看懂网站日志文件并不需要你有多么高深的编码知识,其实只要看得懂html代码和几个返回的状态码就可以了,一定不能懒,或者抱着侥幸心理去对待你的网站,这种心理会导致你输得很惨。如果你是一个小站长,或者你是一个seoer,如果你以前没有意识到网站日志文件的重要性,那么从看到我写的这篇文章开始要好好对待你的网站日志了。

怎么从网站log日志判断百度蜘蛛来过

那么我们如何判断百度蜘蛛来过呢?答案是要根据网站log日志,如果百度蜘蛛来过那么网站log日志中会有相关记录。一个是百度蜘蛛名字 Baiduspider,一个是百度蜘蛛ip,这两点要综合考虑才能正确分析,下面我们说说具体如何操作。

1、先确认log日志对客户端访问机器名以及访问ip进行了记录。

如果没有记录这两项就没有Baiduspider字样显示,也没有百度蜘蛛IP记录。可以问下你虚拟主机的空间商,如何设置日志记录蜘蛛踪迹,如何下载下来日志,客服会详细告诉你。

2、下载网站log日志,可记事本打开文件,用查找 找 Baidu,字样并记录,各条数据IP。

因为有些站是仿百度蜘蛛来访问你的网站,他们名字也起的是Baiduspider,所以,为了避免被迷惑,我们还要根据IP进行反查,来确定这些IP对应的服务器名。下面是一些log日志中含Baiduspider的记录:

123.125.71.26 - - [14/Feb/2014:01:03:29 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

123.125.71.41 - - [14/Feb/2014:07:04:36 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

220.181.108.117 - - [14/Feb/2014:01:03:49 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

220.181.108.100 - - [14/Feb/2014:07:05:14 +0800] "GET / HTTP/1.1" 200 10599 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

117.28.255.53 - - [14/Feb/2014:08:30:11 +0800] "GET / HTTP/1.1" 200 4111 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

60.172.229.61 - - [14/Feb/2014:09:37:56 +0800] "GET / HTTP/1.1" 200 4123 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

3、点“开始” “运行”  》 输入cmd 点“确认”  进入命令行模式,在命令行模式 输入 nslookup 回车 进入反查操作。输入你记录的百度蜘蛛ip 回车 看是否返回百度蜘蛛相关信息。如果返回就证明是百度蜘蛛;如果没有,证明是其他站仿的百度蜘蛛。

新手如何简单的分析网站日志

一、网站日志可以为我们做什么?

1、 可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);

2、排查网站页面中存在的404错误页面,500服务器错误等

3、页面重要内容是否被爬虫完整爬到并且快速遍历;

4、正确分辨蜘蛛爬虫

二、常见HTTP状态码解读

1、200代码,表示蜘蛛爬取正常

2、404代码,访问的这个链接是错误链接

3、301代码,永久重定向

4、302代码,表示临时重定向

5、304代码,客户端已经执行了GET,但文件未变化。

6、500代码,表示网站内部程序或服务器有错

接着,我列举一个网站日志的案例:

日志里的含义,可以大家看下网站日志中各个数据都代表什么意思,总之这个文件是记录的一天发生在网站上的一些行为。当我们拿到这么一个网站日志,我们就可以审视我们的日志,并且通过对日志文件分析解决网站存在的问题;

三、日志代码解读

从日志文件当中可以解读出两个部分内容:

1、搜索引擎抓取情况

从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重负页面(噪音行为)

备注:可以通过nslookup ip 识别蜘蛛的真假

/date-2016-01.html(低质量重负页面)

/author-1.html(低质量重负页面)

/downloads/(低质量页面)

/contact.html(死链接接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题;

所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。爬虫纠偏,让爬虫花更多的精力放在我的详情页面上。

2、用户访问网站情况

关于用户网站访问情况, 主要分析用户访问网站行为轨迹及用户属性,大兵seo在这就不进行讲述

怎么从网站日志分析网站不收录的原因

网站不收录原因和如何解决。

一、网站不收录的主要原因

1、网站域名之前有不良历史记录

在购买域名之间检查一下域名有没有否被注册过,如果以前注册过了,需要查看以前是否被K,是否被搜索引擎惩罚。顺便在教大家几个查看方法:

(1)、到域名查询中心,比如万网。如果以前注册过,则要小心,查看是否被搜索引擎惩罚过。

(2)、利用site指令,查看方法,site:+域名。如果收录为零,但外链很多,说明此域名被K。

(3)、直接在搜索引擎中输入网址有记录(需要加http://),而site却没有记录,那么也有可能被k过了。

2、网站服务器空间的不稳定

影响网站空间不稳定的因素有虚拟主机IP被屏蔽、服务器频繁宕机,空间访问速度很慢。搜索引擎蜘蛛来抓取你的网站,如果都打不开或者速度超慢,蜘蛛也没办法抓取,久而久之,蜘蛛光顾的次数只会越来越少,所有说空间不稳定是网站不收录的重要因素之一,这个在购买空间的时候要注意了。

3、robots协议文件设置错误

有些新手对robots协议文件不是太懂,一边禁止搜索引擎抓取或者无意中错误修改了robots协议文件,这就导致蜘蛛无法抓取你网站内容,也就无法收录,最好到百度站长平台工具里的robots中检测一下是否设置正确,你不懂robots你可以让你的程序员检查一下,或是找我上海老张SEO博客帮你看看也行。

4、网站频繁的改版

网站上线后切忌不要频繁的改版,百度最不友好的操作就是更换域名,更换空间,修改首页标题,搞不好几个月都没有排名,没收录。最好的做法是在还没有上线前就提前想好,上线后不要轻易改动。网站改版一定会影响收录,频繁的改版也是网站不收录的重要因素之一,因为你改版所以的代码都是有变动的,因为蜘蛛只能识别代码的,所以你改版会让百度蜘蛛对你的网站有一次的从新认识一样。

5、新站整体权重低影响收录

刚上线的新网站,权重比较低,就算你的文章是原创,内容也很丰富,搜索引擎也是不收录的,这个时候最重要的就是提高权重,权重高了,文章自然也就收录了,这个都是有个收录周期的,一般都是先收录新站的收录,然后在慢慢的把内容收录的页面放出来,这个周期有的长的要1.2个月。

6、网站友情链接的质量影响收录

交换友情链接一定要慎重,交换前要在站长工具里查看对方网站基本情况,质量好的或者权重差不多可以交换,不要与不健康的、垃圾网站、被降权的网站交换,友链质量也是影响网站不收录的因素之一,这里大家一般一个月可以在第三放站长平台工具查看一下友情链接。

7、网站外部缺乏高质量外链

现在网站的高质量外链对网站排名仍然有作用的,网站缺少外链或者优质外链太少,也是影响网站不收录的原因之一。到高权重平台发布相关外链可以吸引蜘蛛,可以增加网站收录速度的。

8、网站优化过度

网站刻意优化,会被搜索引擎认为是作弊。比如说,关键词堆砌、隐藏文字、文章中锚文本过多、锚文本都指向同一个关键词、友情链接过多等,经常遇到网站是这么干的,都是被惩罚了。一旦被搜索引擎识别为作弊,里K站就不远了,自然网站也就不收录了。

9、网站内包含灰色内容

网站中包含一些法律不允许的、明令禁止的词语或者短语,页面出现敏感词等。黄、赌、博这都是搜索引擎所排斥的,当然网站也就不会被收录了。

10、网站内容原创性低

有的网站文章原创度低或者都是采集、复制别人的内容,自己都不优化的,复制过来直接就用,这个是搜索引擎最不喜欢,搜索引擎喜欢新鲜的、没有出现的,又能解决客户的问题的内容。相似度太高或者直接采集的内容是网站不收录的重要因素之一。

11、网站优化中存在作弊现象

网站优化中存在作弊现象直接导致网站不收录、情节严重的直接降权、K站。作弊主要有隐藏文字、隐藏链接、垃圾链接、买卖链接、链接农场、隐藏页面、PR劫持、桥页、跳转、大规模站群等,这些都是属于黑帽SEO希望大家不要去采用。

12、网站结构层次过深

网站链接过深,会影响搜索引擎蜘蛛抓取,蜘蛛会迷路,时间久了,蜘蛛来的次数就会减少,最后导致网站不收录,一般建议在三层以内。

13、搜索引擎更新新算法

搜索引擎是经常更新算法的,有的时候更新之后,你的网站优化不符合它的算法,也会导致网站不收录或者收录减少,站长朋友不必惊慌,只需做好基础优化,更新高质量的文章,很快网站就会恢复收录了。

14、网站存在安全问题

网站被挂了黑链,植入了恶意代码,严重影响了安全,搜索引擎会做出判断,导致网站不收录或者收录减少。

二、网站不收录的解决方法

1、网站上线之初,检查域名是否注册,是否健康。被搜索引擎惩罚的域名不注册。

2、网站空间尽量选择正规的、大品牌、稳定的、速度快的、功能齐全的空间商。

3、正确设置robots协议文件,如果设置错误修改即可,并到百度站长平台检查。

4、网站上线后切忌频繁改版,万不得已需要改版,请到百度站长平台添加改版规则,申请闭站保护,使网站尽快恢复,实现收录。

5、交换友情链接时,注意相关性、数量不要超过30个、注意是否健康。交换后,检查下你的友情链接是否链接了被K的网站,对方被K,你的网站也会受到牵连的,这个时候你要在第一时间把对方的链接撤掉。

6、有计划、有步骤的到高权重平台发布高质量外链,注意相关度,多样化。

7、网站优化避免过度优化,关键词不能堆砌、锚文本自然出现、不要使用作弊手法。

8、网站无意中出现灰色词、敏感词要及时修改或者删除。

9、网站文章内容尽量保持原创或者伪原创,伪原创内容尽量修改80%以上内容,减低相似度,利于收录。

10、网站使用正规手法,白帽SEO优化,有利于收录,有利于排名。不要使用黑帽手法。

11、一般网站结构建议为3层,超过3层不利于蜘蛛抓取,不利于网站收录。

12、网站应该定期检查代码,发现黑链、挂马及时清除。定期备份,以防万一,做好网站安全工作。

其实网站不收录的因素很多,作为SEO人员应该学会分析,要找出不收录的原因并解决。SEO优化工作从网站还没上线就已经开始,网站上线后需要我们定期的检查网站代码,分析网站日志,每一次的调整、修改做好记录,方便以后网站不收录了知道原因,才能做出相应的对策。

谁能告诉我怎样看百度蜘蛛有没有爬过我们的网站。

1.要观察百度蜘蛛的爬行记录,最好的办法是通过查看网站日志。

2.只要你的网页被访问过,不管是人还是百度蜘蛛、或者其他搜索引擎蜘蛛。网站日志中都可以把它记录下来。正规的网站空间一般提供网站日志服务。网站日志的下载可以通过ftp。具体的目录可以咨询网站空间商。比较常见的目录有:www_logs、logs等。

3.如果网站空间不提供网站日志服务,你应该考虑更换网站空间了。因为这是最基本的网站空间服务。如果连网站日志记录功能都没有,说明空间质量肯定不会很高。

另外,如果你的网页是php动态的。即网页后缀为php。我们也可以安装一组查看蜘蛛的代码,来实时记录百度蜘蛛的爬行记录。

如何查看网站日志中搜索引擎蜘蛛的来访记录

1、打开FTP登录软件,我用的是FlashFXP,登录空间FTP

2、打开wwwlogs文件夹后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件,这些就是我们需要下载到本地的日志文件。

3、下载到电脑桌面后,解压缩打开,里面是一个记事本格式的文件,打开文件

4、分析代码

百度蜘蛛baiduspider

如何通过IIS日志来跟踪分析搜索引擎蜘蛛

平时我们经常说的多的就是通过分析百度相关域和收录、yahoo反向链接以及PR等等来分析我们网站的权重和网站的好坏。如果是我们的网站出了什么问题,我们做站长的最关心的也就是我们的网站的收录、相关域以及反向链接的变化,在这里我要和大家分享的是IIS日志的分析,下面简单的由我来分析下。

IIs(internet information services)日志是我们每个网站都具有的功能,只是我们大部分的站长都不怎么去关心它,还有部分站长用的空间或许没有IIs日志功能,这就需要你去找你的服务器提供商来帮你开通IIS日志功能,只有我们的空间有了这样一个功能后,蜘蛛来到我们的网站了与服务器的对话才会被记录到IIs日志里面,我们通过分析IIS日志就可以知道蜘蛛来我们网站做了什么,爬取和收录了我们的哪些页面,包括蜘蛛来我们网站的爬取次数和地址,哪些是蜘蛛喜欢爬取的,哪些是蜘蛛不喜欢的或者说是无法爬取到的页面,知道这些了我们就能针对蜘蛛爬取的动向来更好的分析和优化我们的网站页面,更清楚我们网站在搜索引擎的动态,那么我们怎么去分析IIS日志?

第二,查看蜘蛛的IP地址,这个没多大用处,我们知道就行,IP地址就像平时我们用手机给你的朋友打电话的时候一样,你给你的朋友打电话的同时,你朋友的手机上就会显示你的手机号码是同一个道理,蜘蛛也是一样,它来到了你的网站就会用一个IP来显示它的“手机号码”。

200:页面访问成功但不一定会收录下载

301:资源永久重定向

302:资源临时重定向

304:页面未更新,蜘蛛来到了我们的这个页面后发现这个页面我以前来过,这次再来的时候发现这人页面里面的内容完全是和第一次来的时候一样的,IIS日志里面就会返回大量的304。

404:访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。

从蜘蛛日志分析网站的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于网站蜘蛛爬取日志在哪里看、从蜘蛛日志分析网站的信息别忘了在本站进行查找喔。

相关文章

如何组装一台电脑如何挑选配件(组装电脑配件怎么选择)

如何组装一台电脑如何挑选配件(组装电脑配件怎么选择)

本篇文章给大家谈谈如何组装一台电脑如何挑选配件,以及组装电脑配件怎么选择对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文导读目录: 1、怎么组装台式机电脑,怎么购买适合的配件? 2、如...

免费域名稳定(域名不稳定)

免费域名稳定(域名不稳定)

本篇文章给大家谈谈免费域名稳定,以及域名不稳定对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文导读目录: 1、请大家推荐一个稳定可用的免费域名网站 2、有没有永久免费的、长期稳定可靠的...

2017拼音域名拍卖(鎷嶅崠 鎷奸煶)

2017拼音域名拍卖(鎷嶅崠 鎷奸煶)

今天给各位分享2017拼音域名拍卖的知识,其中也会对鎷嶅崠 鎷奸煶进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文导读目录: 1、域名拍卖去哪家平台比较好? 2、这种拼音...

石家庄门户网站制作(石家庄网站设计制作)

石家庄门户网站制作(石家庄网站设计制作)

今天给各位分享石家庄门户网站制作的知识,其中也会对石家庄网站设计制作进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文导读目录: 1、石家庄网站建设价格是多少?我想做个门户网站...

潍坊网站制作熊掌号(潍坊网站制作江门公司)

潍坊网站制作熊掌号(潍坊网站制作江门公司)

今天给各位分享潍坊网站制作熊掌号的知识,其中也会对潍坊网站制作江门公司进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文导读目录: 1、熊掌号对网站有哪些帮助? 2、为什么...

全国vps(全国vpd值)

全国vps(全国vpd值)

本篇文章给大家谈谈全国vps,以及全国vpd值对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 文章目录列表: 1、便宜的国内vps 2、全国拨号VPS? 3、国内vps服务商有哪些?...

做网站和做网店哪个好(网店哪个平台好做)

做网站和做网店哪个好(网店哪个平台好做)

本篇文章给大家谈谈做网站和做网店哪个好,以及网店哪个平台好做对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文导读目录: 1、电子商务 是自己做一个购物网站好 还是在淘宝上开店好 2、道...

长沙网站设计工作室(长沙手机网站设计公司)

长沙网站设计工作室(长沙手机网站设计公司)

本篇文章给大家谈谈长沙网站设计工作室,以及长沙手机网站设计公司对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文导读目录: 1、长沙做网站比较好的公司有哪些 2、湖南长沙,最完善的网站设...