Google 停止支持 robots.txt 中的 noindex
Posted: Thu Jan 02, 2025 10:22 am
分享
Google 最近宣布,从今年 9 月 1 日开始,将不再支持带有 noindex 指令的 robots.txt 文件。因此,将无法再阻止网页,例如 HTML 格式的网页。
为什么 Google 更新
如果你想知道为什么现在会出现这种变化,事实是谷歌多年来一直在寻求改变这一现实,努力确保机器人排除协议成为标准而不是例外。
在分析了 robots.txt 对应的规则是否得到遵守后,Google 决定分析抓取延迟、nofollow 和 noindex 等实现,得出的结论是“由于 Google 从未记录过这些规则,自然地,它们的使用与Googlebot 的水平非常低。”
谷歌表示:“这些错误以我们认为网站管理员无意的方式对搜 约旦电话号码列表 索结果中网站的存在进行惩罚(……)。”
因此,如果您当前在 文件中使用 noindex 指令,则应采用下面提到的替代方案。
确保您使用的是nofollow还是crawl-delay命令也很重要,因为有必要在9月份使用真正支持的方法。
的替代品
但是,如果您依赖此规则,我们为您提供 5 种替代方案:
元标签中没有索引;
使用代码 404 和 410;
密码保护;
阻止 robots.txt;
使用“删除 URL”工具
1. 元标签中没有索引
noindex 指令继续在 HTTP 和 HTML 响应标头中受支持,使其成为在允许爬网时从索引中删除 URL 的最有效方法。
2. 代码404和410的使用
代码404和410意味着某个页面不存在,一旦这些URL被抓取和处理,就会从Google索引中删除。
3. 密码保护
除非使用标记来指示订阅或付费专区内容,否则隐藏登录后的页面通常会导致其从 Google 索引中删除。
搜索引擎只能索引它们知道存在的页面。
因此,阻止某个页面被抓取通常意味着其内容不会被索引,而搜索引擎也可以根据其他页面的链接来索引该 URL,而不会看到其内容。
Google 最近宣布,从今年 9 月 1 日开始,将不再支持带有 noindex 指令的 robots.txt 文件。因此,将无法再阻止网页,例如 HTML 格式的网页。
为什么 Google 更新
如果你想知道为什么现在会出现这种变化,事实是谷歌多年来一直在寻求改变这一现实,努力确保机器人排除协议成为标准而不是例外。
在分析了 robots.txt 对应的规则是否得到遵守后,Google 决定分析抓取延迟、nofollow 和 noindex 等实现,得出的结论是“由于 Google 从未记录过这些规则,自然地,它们的使用与Googlebot 的水平非常低。”
谷歌表示:“这些错误以我们认为网站管理员无意的方式对搜 约旦电话号码列表 索结果中网站的存在进行惩罚(……)。”
因此,如果您当前在 文件中使用 noindex 指令,则应采用下面提到的替代方案。
确保您使用的是nofollow还是crawl-delay命令也很重要,因为有必要在9月份使用真正支持的方法。
的替代品
但是,如果您依赖此规则,我们为您提供 5 种替代方案:
元标签中没有索引;
使用代码 404 和 410;
密码保护;
阻止 robots.txt;
使用“删除 URL”工具
1. 元标签中没有索引
noindex 指令继续在 HTTP 和 HTML 响应标头中受支持,使其成为在允许爬网时从索引中删除 URL 的最有效方法。
2. 代码404和410的使用
代码404和410意味着某个页面不存在,一旦这些URL被抓取和处理,就会从Google索引中删除。
3. 密码保护
除非使用标记来指示订阅或付费专区内容,否则隐藏登录后的页面通常会导致其从 Google 索引中删除。
搜索引擎只能索引它们知道存在的页面。
因此,阻止某个页面被抓取通常意味着其内容不会被索引,而搜索引擎也可以根据其他页面的链接来索引该 URL,而不会看到其内容。