CTF学习2023/12/7

今天看了几道攻防世界的题,在这里放点用到的工具先

在线GIF图片帧拆分工具 – UU在线工具 (uutool.cn)

在线工具 – Bugku CTF

然后是JD-GUI,一个jar文件的反编译,反编译的知识点后面会总结

今天的web题做的是有关robots协议的内容

关于robot协议:

robots是搜索引擎爬虫协议,也就是你网站和爬虫的协议。

简单的理解:robots是告诉搜索引擎,你可以爬取收录我的什么页面,你不可以爬取和收录我的那些页面。robots很好的控制网站那些页面可以被爬取,那些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后,会读取上面的协议,并准守协议爬取网站,收录网站。

robots文件是一个纯文本文件,也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。因此,robots的优化会直接影响到搜索引擎对网站的收录情况。

robots协议直接访问就能看

User-agent: * 代表所有爬虫都要遵守下面的规则

disallow是不允许爬取的页面,用于描述不希望被访问到的一个URL。这个URL可以是一条完整的路径,也可以是部分路径,任何以Disallow开头的URL均不会被Robot访问到。

robots协议是写爬虫最开始的内容,要知道什么能爬什么不能爬

现在一般的网站都希望搜索引擎能更全面地抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面地被抓取到,网站管理员可以建立一个网站地图,即SiteMap。许多搜索引擎爬虫会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么搜索引擎爬虫可以很方便地把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注