新手做网站最容易遇到的一个小尴尬,就是第一次听到“robots.txt”这个词的时候,脑子里一堆问号:这啥东西?必须要有吗?如果我用WordPress建站,它在哪里?我去根目录翻半天也没找到,是不是我删掉了?会不会影响SEO收录?
放心,基本所有刚入坑的小伙伴都碰到过这个问题。
先告诉你一个事实哈:WordPress默认是没有robots.txt文件的!
是的,你没有看错,它本来就不存在。你要自己新建一个txt文本,把内容写进去,然后手动上传到网站根目录。也就是你的域名直接访问能打开的位置,例如:你的域名.com/robots.txt。很多新手不知道这一点,结果一直在wp-content、wp-admin里面翻,越翻越怀疑人生。

其实robots.txt没有你想象的那么神秘,它就是一个告诉搜索引擎爬虫哪些地方能看、哪些地方别看的小说明书而已。
所以今天这篇文章,我就站在新手视角,把关于robots.txt最常见的困惑、作用、SEO误区、常见坑、正确写法、如何上传到WordPress根目录,以及怎么检测是否生效,一次性给你讲清楚。看完这篇,别说你能自己写一个robots.txt,你甚至还会比大部分所谓“老站长”更懂它。
本文目录
一、robots.txt是什么?
如果你刚开始做站,第一次听到robots.txt这个词,多半会懵:“啊?这是啥?要不要我自己建个文件?里面写啥?写错了会不会把网站搞炸?”
robots.txt其实就是一个告诉搜索引擎爬虫:“我网站哪些地方能来、哪些不要来”的小纸条,位置固定在根目录下(比如:你的域名.com/robots.txt)。你可以把它想成网站大门口的“告示牌”。
不过提醒一句:这是“君子协定”,不是强制命令。大部分正规爬虫(Google、Baidu)都会听你的,但流氓爬虫嘛……你懂的。
二、robots.txt有什么作用?
robots.txt的作用说多不多,说少也不少,但对一个新站来说,它主要干的就是两件事:
1. 告诉搜索引擎哪些目录你不希望它抓
比如后台目录/wp-admin/,一些私密目录、一些临时文件夹,等等。
2. 避免搜索引擎抓到一堆“没用内容”浪费抓取预算
新站抓取预算本来就有限,你让爬虫进进出出乱逛,没重点,反而影响收录效率。
总而言之,robots.txt能帮你提高爬虫抓取效率,也帮助你屏蔽不想被抓的东西。但是需要注意的是:它不是万能的,想靠robots.txt提升SEO?那还差得远。
三、robots.txt怎么写?常用写法模板演示
(1)全站允许抓取(最常用)
User-agent: *
Allow: /
(2)WordPress常用写法(屏蔽后台)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
(3)屏蔽临时目录
User-agent: *
Disallow: /temp/
Disallow: /test/
(4)只允许Google抓
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
(5)带Sitemap(强烈推荐)
User-agent: *
Allow: /
Sitemap: https://你的域名.com/sitemap.xml
四、robots.txt文件放在哪里?
上面也说了,它必须放在网站根目录!也就是可以直接访问:https://你的域名.com/robots.txt
下面这些都是错误示范:
- /wp-content/robots.txt
- /public/robots.txt
- /某个子目录/robots.txt
五、robots.txt常见的一些坑
坑1:误把全站禁止抓取
User-agent: *
Disallow: /
很多人测试写上去忘记删,直接导致全站不收录。
坑2:以为“禁止抓取=禁止收录”
错!爬虫不抓,不代表不会被动收录。如果别人链接到你的URL,它可能仍然进索引。
坑3:Sitemap路径写错
路径错误=爬虫找不到。
坑4:中文路径、额外空格
robots.txt不能写中文路径,也不能写奇怪空格,容易解析出错。
坑5:问号(?), 等号(=), 结尾斜杠(/)等特殊字符写法错误
/search? 和 /search 完全不是一个意思,新手最容易写乱。
六、robots.txt和SEO有没有关系?
很多新手觉得robots.txt是SEO神器:
“我用robots.txt屏蔽一下,排名是不是就上来了?”
“我给Google多开几个目录,是不是更容易收录?”
答案:robots.txt几乎不影响排名!
它只是爬虫抓取规则,不参与评分,也不影响排名算法。
几个误区直接给你摆在这里:
误区1:写了robots.txt=SEO更好?❌
没有任何直接作用。
误区2:禁止抓取=禁止收录?❌
前面说过,会被动收录。
误区3:robots.txt能阻止别人访问隐私文件?❌
它不是安全工具!
只不过告诉爬虫“别来”,但黑客照样能访问。
误区4:写得越复杂越好?❌
robots.txt越简单越好,别整复杂规则弄得爬虫都迷路。
七、robots.txt怎么检测是否生效?
写完robots.txt,新手都会问:“我怎么知道它有没有在工作?”
很简单,这几个方法:
1. 直接访问你的域名:
https://你的域名.com/robots.txt
能看到内容,就成功了。
2. Google Search Console(有官方工具)
GSC里有专门的robots测试工具,能告诉你语法有没有问题。
3. 看日志(有点进阶)
如果你有服务器日志,可以观察爬虫有没有访问被禁止的目录。
4. 在线robots检测工具
网上有一堆,不推荐具体名字,但一般输入域名就能看到解析情况。
八、总结
robots.txt这个东西吧,说简单它真不难,说重要它确实也挺关键。对新手来说,你不用把它想得太高深,它就是个“告诉爬虫怎么走路的小纸条”。你把常见规则写清楚,把该放的目录放好,大部分问题都不会出。
当然,robots.txt不是SEO神器,也不是安全工具,更不是你网站的“防火墙”。它能解决的问题有限,不要把所有希望都压在它头上。你要做的,就是让爬虫少走弯路、多抓重点内容,这就够了。
发表评论