CTF学习2023/12/7

12 月 7, 2023

—

由

A_M10

于 A、M10的学习笔记, ctf, 全部文章

今天看了几道攻防世界的题，在这里放点用到的工具先

在线GIF图片帧拆分工具 – UU在线工具 (uutool.cn)

在线工具 – Bugku CTF

然后是JD-GUI，一个jar文件的反编译，反编译的知识点后面会总结

今天的web题做的是有关robots协议的内容

关于robot协议：

robots是搜索引擎爬虫协议，也就是你网站和爬虫的协议。

简单的理解：robots是告诉搜索引擎，你可以爬取收录我的什么页面，你不可以爬取和收录我的那些页面。robots很好的控制网站那些页面可以被爬取，那些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后，会读取上面的协议，并准守协议爬取网站，收录网站。

robots文件是一个纯文本文件，也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。因此，robots的优化会直接影响到搜索引擎对网站的收录情况。

robots协议直接访问就能看

User-agent: * 代表所有爬虫都要遵守下面的规则

disallow是不允许爬取的页面，用于描述不希望被访问到的一个URL。这个URL可以是一条完整的路径，也可以是部分路径，任何以Disallow开头的URL均不会被Robot访问到。

robots协议是写爬虫最开始的内容，要知道什么能爬什么不能爬

现在一般的网站都希望搜索引擎能更全面地抓取自己网站的网页，因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面地被抓取到，网站管理员可以建立一个网站地图，即SiteMap。许多搜索引擎爬虫会把sitemap.htm文件作为一个网站网页爬取的入口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么搜索引擎爬虫可以很方便地把整个网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担。

CTF学习2023/12/7

评论

发表回复 取消回复

发表回复取消回复