这部分是介绍如何测试robots.txt文件以防WEB应用程序目录或文件夹路径的信息泄露。此外,还可通过将目录列表创建为MAP执行路径来避免爬虫,机器人或爬网程序的进攻。
1.WEB应用程序的目录或文件夹路径的信息泄露。
2.创建一个目录防止被爬虫,机器人或爬虫程序访问
网页爬虫,机器人,或者是爬虫检索页面,然后递归遍历的链接来发现更多的WEB内容。它们可接受行为由WEB根目录中的robots.txt文件的协议而定。
比如,以下引用了2013年8月11日采用的https://www.google.com/robots.txt 中robots.txt文件的开头:
User-Agent会直接引用指定的web爬虫/机器人/爬虫。例如, User-Agent: Googlebot是指GOOGLE的爬虫。而”user-Agent:bingbot” 是指Micosoft/Yahoo !的爬虫。User-Agent:在以上实例中,适用于所有的网络爬虫/机器人爬取顺序,如下所示:
user-agent: *
disallow会指定Spider/Robot/Crawler禁止使用哪些资源,在上面的示例中,禁止使用以下目录:
WEB爬虫/机器人爬虫会有意忽略robots.txt文件中指定的disallow指令,例如来自Social Networks的指令,以确保共享链接仍然有效。因此robots.txt不应被视为对第三方的访问,储存或重新发布WEB内容的方式会实施限制的机制。
从网络服务器中的网络根目录来检索robots.txt文件。例如,使用wget/cul来检索谷歌的robots.txt文件:
$ wget http://www.google.com/robots.txt
—2013-08-11 14:40:36— http://www.google.com/robots.txt
Resolving www.google.com… 74.125.237.17, 74.125.237.18, 74.125.237.19, …
Connecting to www.google.com|74.125.237.17|:80… connected.
HTTP request sent, awaiting response… 200 OK
Length: unspecified [text/plain]
Saving to: ‘robots.txt.1’
[ <=> ] 7,074 —.-K/s in 0s
2013-08-11 14:40:37 (59.7 MB/s) - ‘robots.txt’ saved [7074]
$ head -n5 robots.txt
User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
$
$ curl -O http://www.google.com/robots.txt
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
101 7074 0 7074 0 0 9410 0 —:—:— —:—:— —:—:— 27312
$ head -n5 robots.txt
User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
$
rockspider自动为网站的文件和目录的Spider/Robots/Crawlers创建初始范围。
例如使用rockspider基于www.google.com 的Allowed:指定初始创建范围:
$ ./rockspider.pl -www www.google.com
“Rockspider” Alpha v0.1_2
Copyright 2013 Christian Heinrich
Licensed under the Apache License, Version 2.0
网站站长可以使用Google的”Analyze robots.txt”功能分析网站,作为其工具的一部分该工具可以协调测试,过程如下:
使用GOOGLE账号登录GOOGLE站长工具
在仪表盘上输入要分析的URL
在可用方法之间进行选择,然后按照屏幕上的说明进行操作
<META>位于每个HTML文档的HEAD里面,并且在机器人/爬虫的启动不是从webroot以外的文档链接开始的。在正常情况下网站应保持一致。
如果没有<META NAME=“ROBOTS”…>条例, 则机器人协议是默认为index, follow。因此”机器人排除协议”,定义的其它两个有效条例均为NO..为前缀,即NOINDEX和NOFOLLOW
WEB爬虫/机器人爬虫会故意忽略<META NAME=”ROBOTS”标记,因为首选robots.txt文件约定。因此,标签不应被视为主要机制。而应视为robots.txt的补充条件
根据wwebroot的robots.txt文件列出的Disallow指令,对每个网页的<META NAME="Robots">进行正规则表达式搜索并将结果与webroot中的robots.txt文件进行比较。
例如来自facebook.com的robot.txt文件会有一个Diasllow: /ac.php 进入到 http://facebook.com/robots.txt 中而且显示了如下<META NAME=”ROBOTS”的结果:
用户名 | 金币 | 积分 | 时间 | 理由 |
---|---|---|---|---|
奖励系统 | 100.00 | 0 | 2020-09-09 10:10:24 | 投稿满 10 赞奖励 |
奖励系统 | 50.00 | 0 | 2020-09-08 10:10:12 | 投稿满 5 赞奖励 |
打赏我,让我更有动力~
© 2016 - 2023 掌控者 All Rights Reserved.