为了使搜索引擎正常工作,计算机程序或者是机器人会定期爬取数据(从网上数十亿个网站中进行抓取,这些程序通过跟踪其它网页的连接或者查看站点地图来查找网页)。如果网站使用了’robots.txt’的特殊文件列出它不希望被搜索引擎获取到的页面就可以忽略其中所列出的页面。这也是最基本的概念。
测试人员可以使用搜索引擎在网站和WEB应用程序上进行信息收集。搜索引擎的发现和侦察具有直接和间接的两种方式:直接方法涉及从缓存中搜索索引和相关内容。而间接方法是通过搜索论坛,新闻组和招标网站来学习敏感信息的设计和配置。
搜索引擎机器人一旦完成抓取,就会基于标签和相关属性(比如TITLE)对网页进行索引,以便返回相关的搜索结果。如果robots.txt文件在有效期内未进行更新,并且未使用指示机器人不对内容进行索引的内联HTML标记。则索引可能包含不打算包含在其中的WEB内容。网站的站长可以使用前面提到的robots.txt HTML元标记,身份验证和搜索引擎提供的工具来删除此类信息。
去了解应用程序,系统或组织的哪些敏感设计和配置信息是直接(在组织的网站上)或间接(在第三方网站上)公开的。
使用搜索引擎搜索潜在的敏感信息包括:
不要局限与只使用一个搜索引擎,不同的搜索会产生不同的结果 具体取决于引擎上次对内容爬取的时间以及确定相关网页的算法。可以考虑下下列搜索引擎:
DuckDUckGo和startpage都通过不使用跟踪器或保留日志为用户提供了更多的隐私。这样可以减少用户信息泄露
搜索运算符是一个特殊的关键字。它扩展了常规搜索查询的功能,并可以帮助获得更具体的结果。它们通常采用operator:query 这样的形式。以下是常用的搜索字符:
site:将搜索限制为提供的URL
inrul:返回网志中包含关键字的结果
intitle:只返回页面标题中包含关键字的结果
intext/inbody:仅在页面正文中搜索关键字。
filetype:仅匹配特定的文件类型 php或者是png
比如通过搜索引擎查找关于owasp.org的内容就可以用site:owasp.org
要搜索以前已被索引的内容可以用cache:xxx 这对于查看自建立索引以来可能已更改或不在可用的内容非常有帮助。并非所有搜索引擎都提供搜索缓存内容。在作者编写文章的时候,他们认为最有用的资源是GOOGLE。
查看owasp.org缓存内容的语法为:
cache:owasp.org
傻瓜式数据库(Google hacking database在群里的Kali机器上有提供点开浏览器就看到了)是有用的资源可以帮助发现特定信息。此数据库上可用的类别包括
其它搜索引擎的数据库可以从BishopFox的Google Hacking Diggity Project等资源中获取
用户名 | 金币 | 积分 | 时间 | 理由 |
---|---|---|---|---|
奖励系统 | 100.00 | 0 | 2020-09-17 12:12:59 | 投稿满 10 赞奖励 |
奖励系统 | 50.00 | 0 | 2020-09-14 10:10:15 | 投稿满 5 赞奖励 |
打赏我,让我更有动力~
© 2016 - 2022 掌控者 All Rights Reserved.