(转载翻译)OWASP v5 4.1.3 查看WEB服务器元文件来了解信息泄露

nicky   ·   发表于 2020-03-29 22:08:59   ·   技术文章投稿区

概要

这部分是介绍如何测试robots.txt文件以防WEB应用程序目录或文件夹路径的信息泄露。此外,还可通过将目录列表创建为MAP执行路径来避免爬虫,机器人或爬网程序的进攻。

测试目的

1.WEB应用程序的目录或文件夹路径的信息泄露。
2.创建一个目录防止被爬虫,机器人或爬虫程序访问

如何测试

网页爬虫,机器人,或者是爬虫检索页面,然后递归遍历的链接来发现更多的WEB内容。它们可接受行为由WEB根目录中的robots.txt文件的协议而定。

比如,以下引用了2013年8月11日采用的https://www.google.com/robots.txt 中robots.txt文件的开头:

User-Agent会直接引用指定的web爬虫/机器人/爬虫。例如, User-Agent: Googlebot是指GOOGLE的爬虫。而”user-Agent:bingbot” 是指Micosoft/Yahoo !的爬虫。User-Agent:在以上实例中,适用于所有的网络爬虫/机器人爬取顺序,如下所示:
user-agent: *

disallow会指定Spider/Robot/Crawler禁止使用哪些资源,在上面的示例中,禁止使用以下目录:

WEB爬虫/机器人爬虫会有意忽略robots.txt文件中指定的disallow指令,例如来自Social Networks的指令,以确保共享链接仍然有效。因此robots.txt不应被视为对第三方的访问,储存或重新发布WEB内容的方式会实施限制的机制。

Webroot中的robots.txt使用wegt或crul

从网络服务器中的网络根目录来检索robots.txt文件。例如,使用wget/cul来检索谷歌的robots.txt文件:
$ wget http://www.google.com/robots.txt
—2013-08-11 14:40:36— http://www.google.com/robots.txt
Resolving www.google.com… 74.125.237.17, 74.125.237.18, 74.125.237.19, …
Connecting to www.google.com|74.125.237.17|:80… connected.
HTTP request sent, awaiting response… 200 OK
Length: unspecified [text/plain]
Saving to: ‘robots.txt.1’

[ <=> ] 7,074 —.-K/s in 0s

2013-08-11 14:40:37 (59.7 MB/s) - ‘robots.txt’ saved [7074]

$ head -n5 robots.txt
User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
$

$ curl -O http://www.google.com/robots.txt
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
101 7074 0 7074 0 0 9410 0 —:—:— —:—:— —:—:— 27312

$ head -n5 robots.txt
User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
$

Webroot中的robots.txt 使用Rockspider

rockspider自动为网站的文件和目录的Spider/Robots/Crawlers创建初始范围。

例如使用rockspider基于www.google.com 的Allowed:指定初始创建范围:
$ ./rockspider.pl -www www.google.com
“Rockspider” Alpha v0.1_2

Copyright 2013 Christian Heinrich
Licensed under the Apache License, Version 2.0

  1. Downloading http://www.google.com/robots.txt
  2. “robots.txt” saved as “www.google.com-robots.txt”
  3. Sending Allow: URIs of www.google.com to web proxy i.e. 127.0.0.1:8080
    /catalogs/about sent
    /catalogs/p? sent
    /news/directory sent
  4. Done.

使用GOOGLE站长工具分析robots.txt

网站站长可以使用Google的”Analyze robots.txt”功能分析网站,作为其工具的一部分该工具可以协调测试,过程如下:
使用GOOGLE账号登录GOOGLE站长工具
在仪表盘上输入要分析的URL
在可用方法之间进行选择,然后按照屏幕上的说明进行操作

元标记

<META>位于每个HTML文档的HEAD里面,并且在机器人/爬虫的启动不是从webroot以外的文档链接开始的。在正常情况下网站应保持一致。

如果没有<META NAME=“ROBOTS”…>条例, 则机器人协议是默认为index, follow。因此”机器人排除协议”,定义的其它两个有效条例均为NO..为前缀,即NOINDEX和NOFOLLOW

WEB爬虫/机器人爬虫会故意忽略<META NAME=”ROBOTS”标记,因为首选robots.txt文件约定。因此,标签不应被视为主要机制。而应视为robots.txt的补充条件

利用BURP的元标记

根据wwebroot的robots.txt文件列出的Disallow指令,对每个网页的<META NAME="Robots">进行正规则表达式搜索并将结果与webroot中的robots.txt文件进行比较。

例如来自facebook.com的robot.txt文件会有一个Diasllow: /ac.php 进入到 http://facebook.com/robots.txt 中而且显示了如下<META NAME=”ROBOTS”的结果:

转载:https://github.com/OWASP/wstg/blob/master/document/4-Web_Application_Security_Testing/01-Information_Gathering/03-Review_Webserver_Metafiles_for_Information_Leakage.md

用户名金币积分时间理由
奖励系统 100.00 0 2020-09-09 10:10:24 投稿满 10 赞奖励
奖励系统 50.00 0 2020-09-08 10:10:12 投稿满 5 赞奖励

打赏我,让我更有动力~

0 Reply   |  Until 2020-3-29 | 472 View
LoginCan Publish Content
返回顶部 投诉反馈

© 2016 - 2022 掌控者 All Rights Reserved.