上一篇
场景引入:
小明最近建了个个人博客,写了不少生活随笔,但有个"私密日记"文件夹他不想被百度、Google搜到,同事告诉他:"用Robots协议啊!"小明一脸懵:"啥是Robots?机器人要来我家打扫卫生?" 😅 别急,今天就用大白话教你玩转这个"搜索引擎门禁卡"!
简单说,它是你放在网站根目录的一个txt
文件(比如example.com/robots.txt
),专门用来和搜索引擎"喊话":"大哥,这些内容别抓啊!" 就像在门口贴张纸条:"快递小哥,储物间别进!"
✅ 特点:
打开记事本,按这个模板写:
User-agent: [搜索引擎名称]
Disallow: [不想被收录的路径]
🌰 例子1:禁止所有搜索引擎抓取/secret
目录
User-agent: *
Disallow: /secret/
🌰 例子2:只禁止百度抓取"个人相册"页面
User-agent: Baiduspider
Disallow: /photos/private.html
指令 | 作用 |
---|---|
User-agent |
指定搜索引擎(代表所有) |
Disallow |
禁止收录的路径 |
Allow |
特别允许收录(优先级高于Disallow) |
Sitemap |
告诉搜索引擎你的网站地图位置 |
User-agent: *
Disallow: /
User-agent: *
Allow: /
Disallow: /admin/login.php
User-agent: *
Disallow: /wp-admin/
Disallow: /admin/
User-agent: *
Disallow: /promo/2024-summer/
User-agent: Googlebot-Image
Disallow: /images/avatars/
www.yoursite.com/robots.txt
) /Secret/
和/secret/
可能被当作不同路径 robots.txt
文件 site:你的网站.com/屏蔽路径
,看是否还有结果 💡 冷知识:
有些"叛逆"的恶意爬虫会无视Robots协议(比如偷邮箱地址的爬虫),这时候就需要结合meta标签
或服务器权限来防护啦!
现在你知道怎么给网站"贴封条"了吧?下次见到robots.txt
别再以为是机器人订单啦~ 🎉
本文由 朱傲旋 于2025-08-02发表在【云服务器提供商】,文中图片由(朱傲旋)上传,本平台仅提供信息存储服务;作者观点、意见不代表本站立场,如有侵权,请联系我们删除;若有图片侵权,请您准备原始证明材料和公证书后联系我方删除!
本文链接:https://vps.7tqx.com/wenda/517239.html
发表评论