Google Search Console 出现 “已发现 – 尚未编入索引” 解决方法


google Search Console

最近有一位朋友问我 Google Search Console(以下简称 GSC)中较多网页都是“已发现 – 尚未编入索引”(Discovered But Currently Not Indexed)

“已发现 – 尚未编入索引” 的说明

首先看下官方的内容。英文版内容如下:

Discovered – currently not indexed: The page was found by Google, but not crawled yet. Typically, Google tried to crawl the URL but the site was overloaded; therefore Google had to reschedule the crawl. This is why the last crawl date is empty on the report.

中文版如下:

已发现 – 尚未编入索引:Google 已发现相应网页,但尚未将其编入索引。这通常意味着:Google 尝试抓取该网址了,但当时相应网站正处于超载状态;因此,Google 不得不重新安排抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。

注:我认为这里的超载并不是服务器的超载,而是抓取队列的超载

John Mueller 的解读

John Mueller 在 2018 年的 一次 hangout 中也对 “已发现 – 尚未编入索引” 的问题做了解读。他认为,首先,Google 并不会抓取和索引所有的网页,部分网页是没有太多抓取和索引的价值。其次,这些网页是已经被 Google 发现的,可能是通过 sitemap,也可能是通过内链。最后,Google 认为这些网页暂时没有太大的抓取价值,所以并没有将这些网页加入到抓取队列,于是就有了 “已发现 – 尚未编入索引” 的提示。

John Mueller 的建议

John Mueller 给出了 3 个针对性的建议。

第一、排查技术故障导致的多套 URL 问题因为很多网站因为技术问题,导致多套 URL 并存的情况,产生了重复页面,占用了抓取和索引的配额,也影响了整站的质量。

第二、确保内链系统的覆盖度所有网页都有内链导向,这一点对抓取的影响很大。可以通过第三方的抓取工具测试,看内链系统是否能覆盖所有的网页。

第三、压缩网页数量、提高网页质量通过压缩网站,网页的数量减少,网页的质量提高,都有利于收录的增长。

我的解读和建议

第一、每个网站都有抓取和索引的配额。也容易理解,Google 用于抓取和索引的服务器和数据库资源是有限的,会只抓取和索引更有价值的网页。

第二、内链对网页优先级的影响。那网页的价值怎么确定呢,尤其是在抓取之前。内链是很重要的一个因素,如果有内链,则增加了加入抓取队列的可能性。

第三、问题主要在抓取环节。 并未到网页内容质量的环节,因为 Google 并未抓取网页。

第四、另一个解决方案,内链模块。John Mueller 有个建议并未点透,就是内链。可以针对 “已发现 – 尚未编入索引” 的网页做特定的内链模块,比如 “最近更新” 这个模块也能满足需求。

第五、网页数量的压缩。除了增加每个网页的内容之外,其实还有其他的方式来压缩网页的数量,提高 Google 抓取的效率,以及整站的质量。

参考链接

  • 《Google Discovered But Currently Not Indexed Help》https://www.seroundtable.com/google-discovered-currently-not-indexed-help-26697.html
  • 官方文档 《“索引涵盖范围状态”报告》https://support.google.com/webmasters/answer/7440203?hl=zh-Hans#discovered__unclear_status
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享