🛠️ 配置选项
允许所有 阻止所有 标准建议 WordPress 优化
📂 路径规则
⚙️ 高级设置
📄 文件预览

什么是 robots.txt?它对您的网站意味着什么?

robots.txt(爬虫协议)是一个放置在网站根目录下的纯文本文件。它的作用是告诉搜索引擎爬虫(如 Googlebot 或 Baiduspider)哪些页面可以抓取,哪些页面需要避开。正确配置 robots.txt 是解决网站收录异常、保护敏感数据以及优化“抓取预算”的具体且有效的手段。

为什么每个网站都需要一个精心配置的 robots.txt?

如果不设置 robots.txt 或设置错误,您的网站可能会面临以下问题:

本工具的优势

常见问题解答 (FAQ)

Q: robots.txt 可以用来隐藏页面吗?
A: 不行。它只是一个“建议”,并不具备强制性。如果需要完全隐藏页面,请使用 noindex Meta 标签或设置密码保护。

Q: 为什么我设置了 Disallow,页面还是出现在搜索结果里?
A: 如果其他网站有链接指向该页面,搜索引擎可能仍会索引它。robots.txt 仅阻止抓取,不一定能完全阻止索引。

Q: 抓取延迟 (Crawl-delay) 有必要设置吗?
A: 对于大型网站或服务器性能较弱的站点,设置合理的延迟可以防止爬虫造成的服务器压力。但主流爬虫(如 Googlebot)通常会根据服务器响应速度自动调整。