|
Post by account_disabled on Dec 30, 2023 4:09:47 GMT
而不是抓取网站时发现的 URL。 但这并不意味着您应该将所有页面添加到站点地图中。这样做会导致 Google 优先考虑所有内容,并在访问不必要的资源上浪费您的抓取预算。 #6。AMP 页面 越来越多的网站推出其内容的 AMP 版本。2018 年 5 月,网络上 有超过60 亿个 AMP 页面,自那时以来,这个数字肯定显着增长。 Google 已经确认 AMP 页面也会消耗抓取预算,因为 Googlebot 也必须抓取这些资源。 这样做是为了验证页面是否有错误,并确保常规页面与其 AMP 对应页面之间的内容相同。 如何优化抓取预算 根据上述信息,您可以了解抓取预算问题的严重程度。好消息是,您还可以根据预算优化您的网站,以最大限度地提高爬虫为您的网站分配的时间。 有一些通用的东西会有所帮助。其一是提高网 手机号码数据 站的整体速度。避免重复内容是另一回事。同样,消除损坏的页面或简化网站的架构将帮助用户和爬虫轻松访问您最关键的内容。 但是,以下是您应该优化的其他因素,以防止爬行预算浪费。 减少可抓取 URL 的数量 优化爬行预算的关键是确保可爬行的 URL 数量不超过预算。否则,一旦预算达到,谷歌就会停止抓取该网站。 但是,如果要抓取的 URL 少于分配的请求数,则抓取工具访问您所有内容的机会就会大得多。 您可以通过多种不同的方式来实现这一目标。以下是一些最常见的方法: #1. 修复 30 次重定向 任何损坏的链接或重定向对于 Googlebot 来说都是死胡同。 当涉及到损坏的链接时,爬虫可能会认为没有其他地方可去并转移到另一个网站。通过重定向,它可以通过一些跃点。然而,即使是谷歌也建议不要超过五跳,否则,爬虫将继续前进。 为了避免这些问题,请确保所有重定向的 URL 直接指向最终目的地,并修复任何损坏的链接。 #2. 删除 4xx - URL 不再有效 - 链接 删除任何指向 404 页面的链接还可以优化抓取预算的使用。随着网站的老化,您网站上的内部链接指向不再有效的 URL 的风险会更高。 #3。优化分面导航 我们已经讨论过分面导航的问题。
|
|