Robots.txt 生成器 - 可视化爬虫规则与 Sitemap | WebUtils

⚡ 快速预设

🎯 选择爬虫

自定义 User-agent 按 Enter 添加自定义爬虫

📜 爬取规则

🗺️ Sitemap

Sitemap URL

同时添加 sitemap_index.xml

⚙️ 高级选项

Crawl-delay (秒) 建议爬虫两次请求之间的间隔时间

Host (主域名) 指定主域名 (Yandex 特有)

📄 生成的 robots.txt

robots.txt

💡 robots.txt 说明

User-agent : 指定规则适用的爬虫
Disallow : 禁止爬取的路径
Allow : 允许爬取的路径 (优先级更高)
Sitemap : 网站地图位置
文件应放在网站根目录: example.com/robots.txt

⚠️ 注意事项

robots.txt 只是一个建议，恶意爬虫可能会忽略它。对于敏感内容，应使用服务器端的访问控制。

怎么用

选择预设或自定义 User-agent
添加 Allow / Disallow 规则
填写 Sitemap 与高级选项
复制或下载 robots.txt 到网站根目录

常见问题

robots.txt 能保证不被抓吗？ 不能强制；它是礼貌协议，敏感内容还需登录与权限。
Sitemap 要写进 robots 吗？ 建议写，方便发现站点地图。
Disallow 全站会怎样？ 搜索引擎可能不再抓取公开内容，谨慎用于生产前台。
Crawl-delay 都支持吗？ 并非所有爬虫支持，Google 通常忽略。

相关工具

robots.txt 是什么？

robots.txt 放在网站根目录，用于提示爬虫哪些路径可以抓取。它是公开文件，不能当作安全机制。真正的私密内容应使用鉴权、权限与 noindex 等组合策略。

本生成器支持什么？

允许全部 / 禁止全部 / 标准配置等快速预设
WordPress、电商、SPA 常见规则模板
多 User-agent、Allow/Disallow、Sitemap、Crawl-delay、Host
一键复制与下载生成结果

推荐写法

先保证前台重要频道可抓取
屏蔽后台、购物车、内搜死循环参数页等
在文件中声明 Sitemap 地址
改完后用 Search Console robots 测试工具验证

易错点

Disallow: / 误伤全站
把敏感 API 只写进 robots 却不设权限
规则顺序与前缀匹配理解错误
多环境域名各用不同 robots 未同步

FAQ

robots.txt 能保证不被抓吗？ 不能强制；它是礼貌协议，敏感内容还需登录与权限。

Sitemap 要写进 robots 吗？ 建议写，方便发现站点地图。

Disallow 全站会怎样？ 搜索引擎可能不再抓取公开内容，谨慎用于生产前台。

Crawl-delay 都支持吗？ 并非所有爬虫支持，Google 通常忽略。