关于网络爬虫：Robots.txt：只允许主要 SE

Robots.txt: allow only major SE

有没有办法配置robots.txt，使网站只接受来自谷歌、雅虎的访问？和 MSN 蜘蛛？

根据您所谈论的国家/地区，有 3 个以上的主要搜索引擎。 Facebook 似乎做得很好，只列出了合法的：https://facebook.com/robots.txt

所以你的 robots.txt 可以是这样的：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /

众所周知，robots.txt 是爬虫必须遵守的标准，因此只有表现良好的代理才会这样做。所以，放不放都无所谓。

如果您有一些数据，您也没有在网站上显示，您可以更改权限并提高安全性。