Cuprins
Googlebot este un robot care vă permite să urmăriți rețeaua de Google, este, de asemenea, cunoscut sub numele de păianjenul Google. În acest fel, sistemul descoperă noile pagini care au fost indexate în baza sa de date unde sunt actualizate și este încorporat înapoi în indexul Google.Google folosește o cantitate mare de echipamente informatice pentru a accesa cu crawlere miliarde de pagini distribuite pe web. Se bazează pe un proces de urmărire algoritmică, în care programele de computer determină site-urile de urmărit, precum și frecvența și numărul de pagini de căutat pe fiecare site. Procesul începe cu o listă de pagini web generate anterior, care este extinsă pe baza datelor furnizate de sitemap-urile încorporate de webmasteri. Googlebot detectează link-urile la fiecare vizită pe care le efectuați către acele site-uri web, adăugându-le la lista de pagini care vor fi accesate cu crawlere. Sistemul detectează site-uri noi, modificări aduse site-urilor existente și linkuri care nu sunt actualizate, apoi actualizează indexul Google.
Cum accesează Googlebot site-ul
Googlebot de obicei nu accesați site-urile de mai multe ori și pentru câteva secunde. În general, sistemul descarcă o singură copie a fiecărei pagini, în cazul în care descărcați aceeași pagină de mai multe ori, se datorează probabil opririi și repornirii crawlerului.
Googlebot este distribuit pe mai multe computere, plus unele păianjeni rulează de pe computere care sunt situate în apropierea site-urilor pe care le indexează. Este posibil ca jurnalele de pagină să afișeze vizite de la mai multe computere ca utilizator-agent.
Scopul este de a accesa cu crawlere cel mai mare număr de pagini de pe un site web la fiecare vizită pe care o efectuați fără a restrânge lățimea de bandă a serverului.
Sistemul găsește site-uri prin linkurile de pe paginile lor. În caz de erori de urmărire, acestea pot fi văzute în Instrumentele pentru webmasteri furnizate de Google. Acesta enumeră problemele întâmpinate la accesarea cu crawlere a unui site. Este o idee bună să verificați în mod regulat orice erori de accesare cu crawlere care pot apărea pentru a le identifica și a le remedia.
Deoarece adresele IP gestionate de Googlebot tind să varieze din când în când, idealul este să folosiți robotul „user-agent” (Googlebot). Spider-ul Google va respecta liniile directoare găsite în fișierul robots.txt, cu toate acestea, este posibil ca utilizatorii rău intenționați să nu le respecte.