什么是 Robots.txt?它对 SEO 有什么影响?
Robots.txt(机器人协议)是一个放置在网站根目录下的纯文本文件。它告诉搜索引擎爬虫(如 Googlebot, Bingbot)哪些页面可以被抓取,哪些页面应该被忽略。虽然它不能强制爬虫停止抓取(它是建议性质的),但主流搜索引擎都会严格遵守该协议。
核心指令详解
-
User-agent:
指定规则适用的爬虫名称。
*代表所有爬虫。 -
Disallow:
告诉爬虫不要访问的路径。例如
/admin/会阻止抓取整个管理后台。 - Allow: 明确允许抓取被父目录 Disallow 的子路径。
- Sitemap: 指向网站的 XML 站点地图,帮助爬虫更高效地发现新内容。
解决“敏感页面被搜索到”的安全风险
许多开发者忘记屏蔽后台、用户私有数据或临时测试环境,导致敏感信息出现在 Google
搜索结果中。通过正确配置
Disallow
,您可以:
-
保护隐私:
隐藏
/api/、/config/或/tmp/等路径。 - 节省抓取配额: 阻止爬虫浪费资源去抓取搜索结果页、过滤页等重复内容。
- 防止镜像站收录: 引导爬虫只收录您的主域名。
常见的 Robots.txt 配置错误
配置错误可能导致整个网站从搜索结果中消失。常见的坑包括:
-
全站屏蔽:
误写
Disallow: /。 - 语法不规范: 每一条指令应独占一行。
-
大小写敏感:
路径
/Admin/与/admin/在 Linux 服务器上是不同的。
Robots.txt 与 安全性:不要过度依赖
请记住,Robots.txt 是 公开可见 的。不要在里面写下非常隐秘的后台路径,因为攻击者也会查看这个文件来寻找可能的攻击目标。对于真正的敏感数据,应使用 身份验证 和 No-index Meta 标签 ,而不是仅仅依赖 Robots.txt。
使用我们的可视化生成器,您可以快速构建符合最佳实践的 Robots 协议,保护隐私的同时提升 SEO 效率。