过滤搜索引擎的抓取数据

软件发布|下载排行|最新软件

当前位置:首页IT学院IT技术

过滤搜索引擎的抓取数据

Mysticbinary   2020-04-17 我要评论

一些规定

  • 搜索引擎不区分大小写;
  • Google限制最多搜索32个单词,包含搜索项和高级运算符。不过也有一些其他方法绕过这种限制,比如使用通配符来代替某些搜索项。
  • 同样的搜索语法,百度有时也会得到惊喜。

基础型查询

  • inurl
    搜索包含有特定字符的URL。例如输入inurl:/admin_login,则可以找到带有admin_login字符的URL,通常这类网址是管理员后台的登录网址。

  • intext
    搜索网页正文内容中的指定字符,例如输入intext:后台登陆
    这个语法类似我们平时在某些网站中使用的“文章内容搜索”功能,把网页中的正文内容中的某个字符做为搜索条件,

  • intitle
    搜索网页标题中包含有特定字符的网页。例如输入intitle:后台登陆,这样网页标题中带有上科互联的网页会被搜索出来。和上面那个intext差不多,搜索网页标题中是否有我们所要找的字符,例如搜索:intitle:安全天使,将返回所有网页标题中包含“安全天使”的网页。同理allintitle也同intitle类似。
    allintext:家庭住址

  • filetype
    搜索指定类型的文件。例如输入filetype:PDF,将返回PDF文档。这个我要重点推荐一下,无论是撒网式攻击还是我们后面要说的搜索指定类型的文件。
    doc .bak .db .mdb .inc

  • site
    指定域名搜索,这个过滤比较精确,后面会在复合型查询时 作为一个前提条件。例如输入site:www.sunghost.cn。所有和这个网站有关的URL都会被显示。

  • cache
    有些页面已经访问不了,或者想看他的网页历史快照,可以用cashe,cache:www.juwan888.com

  • define
    搜索某个词语的定义。搜索:define:微积分,将返回关于微积分的一些定义。

  • info
    查找指定站点的一些基本信息。info:www.douban.com,返回一些关于豆瓣公司的一些介绍,动态,公告。

  • link
    例如搜索:link:www.cnblogs.com/mysticbinary,返回所有网页包含www.cnblogs.com/mysticbinary链接的URL。



符号使用

Google 不区分大小写,除了 or 被用作布尔运算符时,所以必须写做OR。 符号的使用和正则匹配很像,很多规则可以通用。

  • “特定搜索”
    加上“ ”英文引号,指定搜索结果必须一样。

  • 通配符 *
    必须在 “ ”中使用*,"kali * web渗透测试"

  • 点号 .
    与通配符星号*一样也必须在“” 内使用, 不一样的是点号.匹配的是字符,不是字、短语等内容,而是符号。保留的符号有,.[(-等。


布尔逻辑

  • 逻辑与 就是空格、AND

  • 或 (java|php)

  • 非 -java
    不包含

  • 约束条件 +
    “mysticbinar” + “不可能发送的事”

  • 括号分组 ()
    和正则一样

  • 时间范围 2020..2020
    "美团*术" 2020..2020



复合型查询

下面从安全的角度来过滤出想要的数据,我感觉使用谷歌语法搜索这也是一种数据分析,只不过分析的流量来自搜索引擎,1.是你得先知道你想要搜索什么,定出特征,才好分析出来。2.是搜索引擎必须收录(爬取)有数据才能过滤出来,一些小站本来就没收录几个url,任你过滤语法在精确,也没啥用。

站点的信息收集

  • 子域名查询
# 使用site限定范围并使用*来进行泛查询,最后用-排除掉主域名,得到的就是子域名:
site:*.jd.com -www.jd.com
  • C段查询
# 如果你知道这个网站的IP,你也可以使用site结合通配符来查询在C段上存在的网站
site:18.18.18.*

过滤出功能

  • 登陆接口查找
allback=|api=|interface=|function=|functions=|count=
passlogin|ftppwd|password|secret|credentials|token
conf|config|security|jdbc|auth|system|db|ini|init
security_credentials|connetionstring
ssh2_auth_password|send_keys
doc|docx|xls|xlsx|pdf
oa|rem|ehr|cms|main|wp|test|ceshiboos|bossbook
word|master|count|log|login|reg|register|phpMyAdmin

site:jd.com intext:管理|后台|登陆|用户名|密码|帐号|注册|admin|login|manage
site:jd.com intext:管理|后台|登录|用户名|密码|验证码|系统|账号|服务端|后端|phpMyAdmin
site:jd.com intitle:管理|后台|登录|用户名|密码|验证码|系统|账号|服务端|后端|phpMyAdmin
site:jd.com intext:(password|passcode|pass|密码) intext:(username|userid|user|用户|账户)
site:jd.com intext:oa|rem|ehr|system|test|guanli|denglu|manager|register|houtai|guanli|forgotten
site:ly.com intext:rem|ehr|guanli|denglu
site:jd.com intext:"Powered by"
  • 搜特定功能
site:jd.com inurl:ewebeditor|editor|uploadfile|eweb|edit|php?id=|asp?id=
site:jd.com inurl:upload|upfile|saveup intext:提交|确定|上传
site:jd.com inurl:"path="|"readfile="|"file="|"url="
site:jd.com intext:提交|确定|评论
site:jd.com intext:个人信息管理|会员|个人空间 OR inurl:member|zone

site:jd.com inurl:"/uddiexplorer/SetupUDDIExplorer.jsp"
site:jd.com inurl:admin|login|manage|manager|register|prelogin|logincheck
site:jd.com inurl:admin|administration|administrator|manage|login|sys|managetem|password|username
site:jd.com inurl:login|admin|manage|admin_login|login_admin|system|boos|master|main|cms|wp
site:jd.com inurl:oa|rem|ehr|system|test|guanli|denglu
site:jd.com inurl:*"gk"*|*"publick"*|*"pub"*

site:jd.com intext:"sql syntax near"|"syntax error has occurred"| "incorrect syntax near"|"unexpected end of SQL command"|"mysql_connect()"|"mysql_query()"|"Warning: pg_connect()"
site:jd.com intext:"/var/lib/"|"/var/www/"|"D:\"|"C:\"
# 查看是否还遗留木马页面
site:example.com intext:剑眉大侠|不灭之魂|仗剑孤行|通杀版|法客论坛|上传的口令|"导出DLL文件出错”|"token虚拟机管理"|老子的绝对路径|免杀版
site:example.com intext:法克|后门|木马|小马|大马|脱库|黑客|一句话后门|挂马|清马|"扫描IP”|开放端口|提权|执行命令|设置密码|提升权限
site:example.com intext:一句话木马|过狗|安全狗|"K8飞刀"|"K8拉登哥哥"|"K8搞基大队"|反弹端口|"hacked by"
site:example.com inurl:phpspy|udf|JFolder|JspSpyJDK5|AspxSpy2014Final
site:example.com intext:"Georg says" intext:"All seems fine"
site:example.com intext:"Struts2 Exploit Test"
# 一些容器特征
site:example.com intext:"Dumping data for table"
site:example.com intitle:"apache tomcat/" "Apache Tomcat examples"
site:example.com inurl:examples|jsp|snp|snoop.jsp
site:example.com (inurl:"robot.txt” | inurl:"robots.txt") intext:disallow filetype:txt
site:example.com filetype: reg HKEY_CURRENT_USER username
site:example.com inurl:tmp|temp|cache…

过滤出敏感文件

  • 邮箱/QQ/群
site:example.com intext:qq|qq群|企鹅|腾讯|email|邮件
site:example.com intitle:qq|qq群|企鹅|腾讯|email|邮件
site:example.com intext:邮箱|邮件|email|e-mail
site:example.com intext:"@qq.com"|"@163.com"
site:example.com intext:电话|手机号|联系方式|请拨打

  • index of/*
site:jd.com index of/*
site:xxx.xxx intitle:index of
Index of /password
Index of / passwd 
"index?of/" config
"Index of /" password.txt
site:example.com intitle:index .of "parent directory"
site:example.com intitle:index .of name size
site:example.com intitle:index .of inurl:admin
site:example.com intitle:index .of "Application Data/Microsoft/Credentials"
site:example.com intitle:index .of etc|.sh_history|.bash_history|passwd|people.lst|htpasswd
  • phpmyadmin
site:ulnetworks.co.kr ?inurl:.php ?intext:CHARACTER_SETS,COLLATIONS, ?intitle:phpmyadmin
  • 文件查找
这个语法不能使用 |,为什么不用布尔逻辑汇总在一条查询里呢?
因为在实际测试中,发现 filetype 和 ext 运算符与布尔逻辑的合作性并不是很好,
经常有查不到任何数据的情况出现,因此宁愿多进行几次查询,来增加我们查询的命中率。

site:jd.com filetype:doc
mdb
ini
php
asp
aspx
jsp
json
xml
pdf
doc
xlsx
xls
csv
git
txt
text
log
sql
cnf
conf
zip
rar
tar
tar.gz
7z
cab
gz
iso
bz2
jar
bkf
bkp
bak
old
backup
dll
ctl
inf
cfg

sql
db
dbf
mdb
wdb
backupdb


site:example.com filetype:doc "密码"
site:example.com filetype:xls|xlxs "密码"
site:example.com filetype:doc intitle:"管理"


参考

http://absec.cn/?p=751
https://www.cnblogs.com/xuanhun/p/3910134.html

Copyright 2022 版权所有 软件发布 访问手机版

声明:所有软件和文章来自软件开发商或者作者 如有异议 请与本站联系 联系我们