当前位置:首页 > 问答 > 正文

SEO优化|搜索引擎屏蔽指南:Robots协议怎么写?如何用Robots协议禁止搜索引擎收录某个页面或目录

🔍 SEO优化 | 搜索引擎屏蔽指南:Robots协议怎么写?如何用Robots协议禁止搜索引擎收录某个页面或目录

场景引入
小明最近建了个个人博客,写了不少生活随笔,但有个"私密日记"文件夹他不想被百度、Google搜到,同事告诉他:"用Robots协议啊!"小明一脸懵:"啥是Robots?机器人要来我家打扫卫生?" 😅 别急,今天就用大白话教你玩转这个"搜索引擎门禁卡"!


📜 一、Robots协议是啥?

简单说,它是你放在网站根目录的一个txt文件(比如example.com/robots.txt),专门用来和搜索引擎"喊话":"大哥,这些内容别抓啊!" 就像在门口贴张纸条:"快递小哥,储物间别进!"

特点

SEO优化|搜索引擎屏蔽指南:Robots协议怎么写?如何用Robots协议禁止搜索引擎收录某个页面或目录

  • 免费、无需代码基础
  • 非强制(但主流搜索引擎都会遵守)
  • 只能建议屏蔽,不能完全阻止(想彻底屏蔽得用密码或其他技术)

✏️ 二、手把手写Robots协议

1️⃣ 基础格式

打开记事本,按这个模板写:

User-agent: [搜索引擎名称]  
Disallow: [不想被收录的路径]  

🌰 例子1:禁止所有搜索引擎抓取/secret目录

User-agent: *  
Disallow: /secret/  

🌰 例子2:只禁止百度抓取"个人相册"页面

SEO优化|搜索引擎屏蔽指南:Robots协议怎么写?如何用Robots协议禁止搜索引擎收录某个页面或目录

User-agent: Baiduspider  
Disallow: /photos/private.html  

2️⃣ 常用指令

指令 作用
User-agent 指定搜索引擎(代表所有)
Disallow 禁止收录的路径
Allow 特别允许收录(优先级高于Disallow)
Sitemap 告诉搜索引擎你的网站地图位置

3️⃣ 高级技巧

  • 屏蔽所有内容(慎用!):
    User-agent: *  
    Disallow: /  
  • 允许收录除某个页面外的全部内容
    User-agent: *  
    Allow: /  
    Disallow: /admin/login.php  

🚫 三、常见屏蔽需求解决方案

场景1:不想被收录的后台目录

User-agent: *  
Disallow: /wp-admin/  
Disallow: /admin/  

场景2:临时活动页过期后屏蔽

User-agent: *  
Disallow: /promo/2024-summer/  

场景3:屏蔽图片被搜索(但页面正常显示)

User-agent: Googlebot-Image  
Disallow: /images/avatars/  

⚠️ 四、注意事项

  1. 文件位置必须正确:必须放在网站根目录(如www.yoursite.com/robots.txt
  2. 区分大小写/Secret//secret/可能被当作不同路径
  3. 生效需要时间:搜索引擎下次抓取时才会生效,可通过站长平台提交更新
  4. 别用来藏秘密应该用密码保护,Robots协议能被任何人看到

🔍 五、如何检查是否生效?

  1. 浏览器直接访问你的robots.txt文件
  2. 在Google Search Console或百度站长平台测试工具里验证
  3. 搜索site:你的网站.com/屏蔽路径,看是否还有结果

💡 冷知识
有些"叛逆"的恶意爬虫会无视Robots协议(比如偷邮箱地址的爬虫),这时候就需要结合meta标签或服务器权限来防护啦!

现在你知道怎么给网站"贴封条"了吧?下次见到robots.txt别再以为是机器人订单啦~ 🎉

发表评论