Cum se clonează orice site web cu HTTrack

Cuprins

HTTrack este un software gratuit și gratuit și multiplatformă al cărui scop este captarea web, adică este descărcat întregul sau o parte a unui site web, pentru a putea ulterior să îl navigați offline. Există o versiune pentru Linux numită WebHTTrack, iar versiunea sa pentru Windows se numește WinHTTrack. Putem descărca software-ul HTTrack de pe site-ul său oficial:

În cazul Linux, îl putem instala și din depozite, folosind următoarea comandă.

 sudo apt-get install httrack

Acest software este folosit foarte mult pentru copierea site-urilor web apoi încărcați-le pe alt server și folosiți-le pentru a redirecționa traficul către pagina de copiere, trimițând vizitatorii către o pagină falsă. De asemenea, este utilizat de cei care doresc să vadă codul sau funcționarea unui anumit site web. Să vedem un exemplu cu site-ul web httrack.com, care este locul unde este găzduită aplicația.

 httrack "httrack.com"
Această comandă va descărca fișierele de pe web într-un folder www.httrack.com, pe care îl putem vedea local.

HTTrack preia orice site web și face o copie în folderul sau unitatea în care suntem poziționați. Acest lucru poate fi util atunci când căutați date pe site-ul offline, cum ar fi adrese de e-mail, informații utile pentru SEO sau structura unui site web. HTTrack vine atât în ​​Windows, cât și într-o versiune pentru Linux, iar utilizarea este aceeași doar că în Windows are intergaz vizual.

Putem utilizați Httrack pentru testarea penetrării și testarea securității, întrucât atunci când faceți o replică a unui site web, acesta permite analizarea conținutului complet și a fișierelor descărcate, pentru a determina faptul că niciun fișier critic nu este văzut de un atacator. Când colectăm date și informații, putem efectua teste, căuta și analiza coduri sau cuvinte cheie, putem colecta și date care pot fi utilizate ulterior.

Tot în acest fel lhackerii folosesc copiile făcute pentru ao încărca pe un server cu un domeniu de tip web copiat pentru a emula site-urile web și apoi a le utiliza prin phishing pentru a fura date de la utilizatori nebănuși sau pentru a efectua atacuri de inginerie socială. Httrack are multe opțiuni și parametri de utilizat pentru a îmbunătăți descărcarea pentru această comandă este utilizată:

 httrack --help

Unii parametri importanți pe care îi putem folosi cu instrumentul Httrack sunt:

  • -m: indică dimensiunea maximă a fișierului în octeți de descărcat, de exemplu -m 20000000 echivalent cu 20 mb.
  • -mima: folosit pentru a descărca doar un anumit tip de fișier pe care îl vom indica cu extensia acestuia, de exemplu cu comanda
 httrack www.WEB.com -mime: application / * + mime: application / pdf
Utilizarea httrack este simplă, trebuie să adăugăm domeniul site-ului web pe care dorim să îl copiem și apoi să începem scanarea poziționat într-un director de pe hard disk-ul nostru unde vom stoca site-ul web. Trebuie să ținem cont de câte linkuri sau conținut poate avea un site web din cauza cantității de informații de descărcat. Explorarea copiei webului poate fi utilizată pentru a căuta defecte și vulnerabilități care pot pune în pericol navigarea, precum și pentru a determina ce părți este convenabil să cripteze sau să sporească securitatea.

Dacă obiectivul descărcării este de a găsi informații despre o companie sau liste de utilizatori, telefoane sau alte date, în special pentru inginerie socială sau încercarea de a falsifica un site web sau un login pentru a obține date de utilizator, HTTrack este un instrument excelent pentru ambele sarcini.

Interfață grafică cu WebHTTrack
WebHTTrack este o interfață grafică pentru httrack care este utilizată dintr-un browser web și permite copiile unor site-uri web întregi pentru acces offline și modifică automat linkurile. Instrumente precum WebHTTrack vă pot ajuta și permit actualizarea copiei fără a fi nevoie să vă amintiți parametrii pentru a descărca sau copia un site web și conținutul acestuia. Îl putem instala cu comanda:

 sudo apt-get install webhttrack
Apoi la rulați-l vom scrie aceeași comandă:
 webhttrack
La porniți interfața grafică, putem merge direct prin meniul de aplicații și căutăm aplicația Browse Mirrored Websites.

O altă opțiune este pur și simplu, așa cum am spus mai sus din fereastra terminalului, să scrieți comanda webhttrack pentru a porni un server web local pe portul 8080, apoi deschidem browserul ținând cont că nu este în modul incognito sau privat și în browser scriem adresa localhost: 8080.

Aceasta ne va arăta expertul grafic care ne va ajuta să lucrăm cu httrack, pentru a începe va trebui să configurăm limba și să facem clic pe Următorul. În continuare vom configura un proiect nou, avantajul de a avea interfața grafică este că putem salva datele site-urilor web descărcate și parametrii utilizați într-un fișier text.

Apoi vom atribui site-ul web pe care urmează să îl copiem:

Apoi în Definire opțiuni vom configura parametrii și filtrele printr-un expert:

Apoi, după configurarea filtrelor, pe următorul ecran vom începe cu scanarea.

Dezavantaje ale utilizării HttrackUtilizarea instrumentului Httrack pentru a efectua acest tip de scanare și descărcare de pe un site web prezintă unele dezavantaje, cum ar fi următoarele:

  • Nu captează conținut dinamic sau pagini scriptate.
  • Descărcarea site-urilor care sunt prea mari sau cu fișiere mari poate provoca blocarea serverului.
  • Dacă folosim httrack în prea multe conexiuni simultane la același site web, am putea încetini serverul sau îl putem scoate din serviciu.

Tutorialul în care este creat un cod pentru a urmări linkurile poate fi de interes pentru dvs.:

Urmăriți legăturile web cu Python

V-a plăcut și ați ajutat acest tutorial?Puteți recompensa autorul apăsând acest buton pentru a-i oferi un punct pozitiv

Vei ajuta la dezvoltarea site-ului, partajarea pagina cu prietenii

wave wave wave wave wave