🤖 Robots.txt 生成器

⚡ 快速预设
🎯 选择爬虫
按 Enter 添加自定义爬虫
📜 爬取规则
🗺️ Sitemap
⚙️ 高级选项
建议爬虫两次请求之间的间隔时间
指定主域名 (Yandex 特有)
📄 生成的 robots.txt
robots.txt

💡 robots.txt 说明

  • User-agent : 指定规则适用的爬虫
  • Disallow : 禁止爬取的路径
  • Allow : 允许爬取的路径 (优先级更高)
  • Sitemap : 网站地图位置
  • 文件应放在网站根目录: example.com/robots.txt

⚠️ 注意事项

robots.txt 只是一个建议,恶意爬虫可能会忽略它。对于敏感内容,应使用服务器端的访问控制。

📚 什么是Robots.txt?

Robots.txt是一个文本文件,放在网站根目录下,用于告诉搜索引擎爬虫(如Google Bot、Baidu Spider等)哪些页面可以被爬取,哪些页面不能被爬取。这是SEO优化和网站管理的重要工具。

通过Robots.txt文件,您可以控制搜索引擎爬虫的行为,保护敏感信息,提高网站爬取效率,优化SEO效果。

核心作用:控制爬虫访问、保护隐私、优化爬虫预算、提升SEO效果。

✨ 主要特点

  • ✅ 完全免费:无需注册,无使用限制,所有功能永久免费
  • 🔒 隐私安全:所有数据在浏览器本地处理,不上传到服务器
  • ⚡ 实时预览:输入即时响应,实时显示生成结果
  • 📱 跨平台支持:支持桌面和移动设备,随时随地使用
  • 🎯 多种模板:提供常见网站的预设规则
  • 🔧 自定义选项:支持自定义爬虫规则和延迟设置
  • 📋 一键复制:生成后一键复制到剪贴板

📖 Robots.txt知识

基本语法

User-agent:指定爬虫类型(如 * 表示所有爬虫)
Disallow:禁止爬虫访问的路径
Allow:允许爬虫访问的路径
Crawl-delay:爬虫访问间隔(秒)
Sitemap:网站地图URL

常见规则示例

禁止所有爬虫:
User-agent: *
Disallow: /

禁止特定路径:
User-agent: *
Disallow: /admin/
Disallow: /private/

允许特定爬虫:
User-agent: Googlebot
Disallow: /

最佳实践

• 保护敏感目录(如 /admin、/private、/temp)
• 设置合理的爬虫延迟,避免服务器过载
• 包含Sitemap URL,帮助搜索引擎发现页面
• 定期检查和更新Robots.txt规则
• 使用Google Search Console验证Robots.txt

常见爬虫

• Googlebot - Google搜索引擎爬虫
• Baiduspider - 百度搜索引擎爬虫
• Bingbot - 必应搜索引擎爬虫
• YandexBot - Yandex搜索引擎爬虫
• * - 所有爬虫

❓ 常见问题

Q: Robots.txt文件放在哪里?

A: 必须放在网站根目录下,例如:https://example.com/robots.txt

Q: Robots.txt会影响SEO吗?

A: 会的。正确配置Robots.txt可以提升SEO效果,但错误配置可能导致重要页面无法被索引。

Q: 爬虫一定会遵守Robots.txt吗?

A: 大多数正规爬虫会遵守,但恶意爬虫可能不会。Robots.txt不是安全工具,敏感信息应该用其他方式保护。

Q: 如何测试Robots.txt是否正确?

A: 可以使用Google Search Console的Robots.txt测试工具,或者访问 https://example.com/robots.txt 查看文件内容。

Q: 可以禁止所有爬虫吗?

A: 可以,但不建议。禁止所有爬虫会导致网站无法被搜索引擎索引,影响流量。

🔒 隐私与安全

完全本地处理:所有的Robots.txt生成都在您的浏览器本地进行,不会将任何数据发送到服务器。您的隐私完全得到保护。

无需注册:使用这个工具无需创建账户或提供任何个人信息。完全匿名使用。

离线可用:您可以将页面保存到本地,完全离线使用,不依赖任何网络连接。

开源透明:这个工具的代码是开源的,您可以查看源代码了解它的工作原理。