5种方法来抓取一个网站

admin 2019-5-11 996

来自维基百科


Web爬虫(有时称为蜘蛛)是一种系统地浏览万维网的Internet机器人,通常用于Web索引。


Web爬网程序以要访问的URL列表开头,称为种子。当抓取工具访问这些网址时,它会识别网页中的所有超链接,并将其添加到要访问的网址列表中。如果爬虫正在执行网站存档,它会复制并保存信息。存档称为存储库,旨在存储和管理网页集合。存储库类似于存储数据的任何其他系统,如现代数据库。


让我们开始!!


Metasploit的
此辅助模块是模块化Web爬网程序,可与wmap(某天)或独立使用。


use auxiliary/crawler/msfcrawler
msf auxiliary(msfcrawler) > set rhosts www.example.com
msf auxiliary(msfcrawler) > exploit
从截图中你可以看到它已经加载了爬虫,以便从任何网站中确定隐藏文件,例如about.php,jquery联系表单,html等,这是不可能使用浏览器从网站手动确定的。对于任何网站的信息收集,我们可以使用它。



的HTTrack

HTTrack是由Xavier Roche开发的免费开源Web爬虫和离线浏览器
它允许您从Internet下载万维网站点到本地目录,递归构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相对链接结构。
在终端内输入以下命令



httrack //tptl.in –O /root/Desktop/file


它会将输出保存在给定目录/ root / Desktop / file中

从给定的屏幕截图中你可以观察到这一点,它内部的网站信息是愚蠢的,包括html文件以及JavaScript和jquery。



黑寡妇

此Web spider实用程序检测并显示用户选择的Web页面的详细信息,并提供其他Web页面工具。
BlackWidow干净,逻辑标签式界面非常简单,适合中级用户关注,但提供足够的内容以满足高级用户。只需输入您选择的URL,然后按“执行”。BlackWidow使用多线程快速下载所有文件并测试链接。对于小型网站,该操作只需几分钟。
你可以从这里下载。
在地址字段中输入您的URL //tptl.in,然后按开始。

点击上启动左边给定的按钮开始扫描URL,并选择一个文件夹来保存输出文件。
从屏幕截图中,您可以观察到我已经浏览了C:\ Users \ RAJ \ Desktop \ tptl,以便将输出文件存储在其中。

当您打开目标文件夹tptl时,您将获得网站的全部数据,无论是图像还是内容,html文件,php文件和JavaScript都保存在其中。



网站开膛手复印机

网站开膛手复印机(WRC)是一款用于保存网站数据的通用高速网站下载软件。WRC可以将网站文件下载到本地驱动器进行离线浏览,提取一定大小和类型的网站文件,如图像,视频,图片,电影和音乐,检索大量文件作为具有恢复支持的下载管理器,和镜像站点。WRC也是一个站点链接验证器,资源管理器和标签式反垃圾邮件Web /离线浏览器。
网站Ripper Copier是唯一可以恢复HTTP,HTTPS和FTP连接中断下载,访问受密码保护的站点,支持Web cookie,分析脚本,更新检索到的站点或文件以及启动50多个检索线程的网站下载工具
你可以从这里下载。
选择 “离线浏览的网站”选项。

输入网站URL为//tptl.in,然后单击下一步。

提及目录路径以保存输出结果,然后单击立即运行。

当您打开所选文件夹tp时,您将获取其中的CSS,php,html和js文件。



Burp Suite Spider

Burp Spider是一种用于自动抓取Web应用程序的工具。虽然通常最好手动映射应用程序,但是您可以使用Burp Spider为非常大的应用程序部分自动执行此过程,或者在您没有时间的情况下。
有关更多详细信息,请阅读此处的文章。
从给定的屏幕截图中你可以看到我已经获取了//tptl.in的http请求; 现在在动作标签的帮助下发送给蜘蛛。

目标网站已添加到目标选项卡下的站点地图内,作为Web爬网的新范围。从截图中,您可以看到它开始对目标网站进行网页抓取,它以php,html和js的形式收集了网站信息。

少客联盟- 版权声明 1、本主题所有言论和图片纯属会员个人意见,与少客联盟立场无关。
2、本站所有主题由该帖子作者发表,该帖子作者admin少客联盟享有帖子相关版权。
3、少客联盟管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者admin少客联盟的同意。
5、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任。
6、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
7、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意。
8、官方反馈邮箱:chinasuc@chinasuc.cn


上一篇:看的太快没有啦!下一篇:Android Qualcomm WLAN驱动程序安全漏洞
Whatever is worth doing is worth doing well. juvenile hacker league
最新回复 (1)
  • admin 2019-5-11
    0 2
    评论测试
    • 少客联盟
      3
        登录 注册 QQ登录(停用)
返回