百度官方解读你的网站为什么不收录

最近看了百度搜索学院的一篇文章,是关于网站不收录的解释,大致说了4个方面的原因,这和我之前在《SEO搜索引擎实战详解》中提到的原因大致相同,但增加了一个关于配额限制的因素,由于百度官方文章对不收录原因讲得比较粗略,以及为分析新的影响因素,这里我们对网站不收录再做一个解读,详细告诉你,什么样的网站不会被收录。

百度官方解读你的网站为什么不收录

    先来看看百度官方原文:

    目前百度Spider抓取新链接的途径有两个,一是主动出击发现抓取,二就是从百度站长平台的链接提交工具中获取数据,其中通过主动推送功能“收”上来的数据最受百度Spider的欢迎。对于站长来说,如果链接很长时间不被收录,建议尝试使用主动推送功能,尤其是新网站,主动推送首页数据,有利于内页数据的抓取。

    那么同学们要问了,为什么我提交了数据还是迟迟在线上看不到展现呢?那涉及的因素可就多了,在Spider抓取这个环节,影响线上展现的因素有:
    1、网站封禁。你别笑,真的有同学一边封禁着百度蜘蛛,一边向百度狂交数据,结果当然是无法收录。
    2、质量筛选。百度Spider进入3.0后,对低质内容的识别上了一个新台阶,尤其是时效性内容,从抓取这个环节就开始进行质量评估筛选,过滤掉大量过度优化等页面,从内部定期数据评估看,低质网页比之前下降62%。
    3、抓取失败。抓取失败的原因很多,有时你在办公室访问完全没有问题,百度spider却遇到麻烦,站点要随时注意在不同时间地点保证网站的稳定性。
    4、配额限制。虽然我们正在逐步放开主动推送的抓取配额,但如果站点页面数量突然爆发式增长,还是会影响到优质链接的抓取收录,所以站点在保证访问稳定外,也要关注网站安全,防止被黑注入。

 

    以上是百度官方原文,从中我们可以看出一下几个问题:

    1、关于网站封禁,实际就是网站Robots文件的设置,或者页面不跟踪代码的使用,一般Robots文件只需要设置后台或者配置文件夹不可抓取就行了,另外也不要将百度设置为不可抓取。有的网站会使用Nofollow的属性,虽然这个属性是为了防止传递权重,并不是禁止抓取,但是通过对比,我们发现用Nofollow链接自己的网站,网站的收录量确实有所下降,所以在内部使用时,尽量不要误出现这个属性。

    2、百度近两年推出了很多关于原创内容的算法,可见百度对原创内容的保护的决心和打击垃圾内容的力量,但是原创并不代表就是优质,优质的内容是包含原创,并且有实质的意义和长度,那些论坛的口水贴就非优质内容;另外内容的形式可以更丰富,比如有视频、音频、图片、文字多种组合,以及相关优质内容的引用和被引用;用户的点击量阅读量;热点内容的时效性等,这些都是评定优质内容的因素,所以不要以为你的文章被写后,你再写也不会收录,实际上你只是没懂制作优质内容的方法。

    3、我们大部分做优化的人员都知道网页不能怎样设计,会影响抓取,比如JS链接图片、Flash、内容在JS中,页面过大,载入速度慢、访问出错等等,这些问题本可以在制作网站时就规避掉,或者你认为不会有网站这样,那你真的错了,很多公司或者看过我书的同学让我帮助分析网站,这样的网站真的太多了。这些网站要么是体量大时间长,以前开发时并没有注意,现在很难修改,也有的是老板觉得比较酷炫,让产品和开发这样改那样改,最终搞出来一个他们认为完美的网站,实际上有很多SEO的问题存在,最终造成网站上线很难被收录。

     4、以前关于配额限制的研究并不多,从16年开始,百度配合打击垃圾内容,关于行业或内容的限额越来越明显,以前我们调查发现,一篇相同标题和内容的网页是有收录限制的,在首页展示的最多6篇,后面的页面更少甚至没有,所以我们知道相同内容的收录和展现肯定是有限额的,一般收录不会超过10篇(可能有的大网站能利用权重收录更好),展示不超过6篇,所以如果你复制粘贴过来的时候,发现已经有很多相同的内容了,那还是放弃吧,发了也不会收录。这是相同内容的配额,除了这个相同行业也有大致的页面收录数量限制,这个限制是根据时间而定的,每1到3个月会增加一些,根据你的行业而定,通过站长之家的工具,你可以对比发现,每隔几个月行业内网站都会有一个收录提升,这是行业配额升级的效果,但是在这个周期内的平稳期,你会发现网站收录增长缓慢,发了也不怎么收录,甚至有所下降,其实并不是你受到了惩罚,有可能是搜索引擎的调整,降低你的内容收录,利用腾出来的名额给了其他优质的网站和内容,所以就呈现出在平稳期,有的网站收录上升了很多,有的下降了很多的情况,注意观察站长之家的行业收录数据,你可以大致了解自己行业的配额平稳期和配额增量期,在平稳期的收录下降不要慌,以优质内容为主,而增量期时多发内容多提交。

    5、除了以上百度官方对网站不收录的几个说法之外,其实还有些他们是没有公开来说的,比如网站外链因素,没有外链的引用,长期只收录了首页是很常见的情况;权重因素,网站在搜索引擎的真实得分也是重要影响因素,为什么同样的内容几个网站能收录,就你的不能收录,说白了就是你的网站还没入它的眼,大把高权重的网站等着在收录;网站类型和行业因素,网站类型和行业会决定你的收录上线,行业平台网站、企业站、论坛就算发相同的内容数量,做相同的外链数量,企业站永远是收录最少的,这是网站类型使然,如果一个行业受到限制,你网站做得再好,也不会有很好的收录,因为这个行业百度是监管起来的,只对某些网站的开放的。