已复制到剪贴板!

Robots.txt Generator

可视化配置爬虫抓取规则,精准控制搜索引擎对您网站内容的访问权限。

⚙️ 爬虫访问规则

🚀 常用预设

Google AdSense 横幅展示位

什么是 Robots.txt?它对 SEO 有什么影响?

Robots.txt(机器人协议)是一个放置在网站根目录下的纯文本文件。它告诉搜索引擎爬虫(如 Googlebot, Bingbot)哪些页面可以被抓取,哪些页面应该被忽略。虽然它不能强制爬虫停止抓取(它是建议性质的),但主流搜索引擎都会严格遵守该协议。

核心指令详解

  • User-agent: 指定规则适用的爬虫名称。 * 代表所有爬虫。
  • Disallow: 告诉爬虫不要访问的路径。例如 /admin/ 会阻止抓取整个管理后台。
  • Allow: 明确允许抓取被父目录 Disallow 的子路径。
  • Sitemap: 指向网站的 XML 站点地图,帮助爬虫更高效地发现新内容。

解决“敏感页面被搜索到”的安全风险

许多开发者忘记屏蔽后台、用户私有数据或临时测试环境,导致敏感信息出现在 Google 搜索结果中。通过正确配置 Disallow ,您可以:

  • 保护隐私: 隐藏 /api//config//tmp/ 等路径。
  • 节省抓取配额: 阻止爬虫浪费资源去抓取搜索结果页、过滤页等重复内容。
  • 防止镜像站收录: 引导爬虫只收录您的主域名。

常见的 Robots.txt 配置错误

配置错误可能导致整个网站从搜索结果中消失。常见的坑包括:

  • 全站屏蔽: 误写 Disallow: /
  • 语法不规范: 每一条指令应独占一行。
  • 大小写敏感: 路径 /Admin//admin/ 在 Linux 服务器上是不同的。

Robots.txt 与 安全性:不要过度依赖

请记住,Robots.txt 是 公开可见 的。不要在里面写下非常隐秘的后台路径,因为攻击者也会查看这个文件来寻找可能的攻击目标。对于真正的敏感数据,应使用 身份验证No-index Meta 标签 ,而不是仅仅依赖 Robots.txt。

使用我们的可视化生成器,您可以快速构建符合最佳实践的 Robots 协议,保护隐私的同时提升 SEO 效率。