✅ Robots.txt sau standard de excludere a roboților și accesarea cu crawlere a motorului

Cuprins

Bună ziua tuturor, încep cu acest tutorial pe robots.txt, sper să vă placă

Permiteți tuturor roboților să viziteze toate fișierele stocate în directorul rădăcină al web-ului:

 User-agent: * Nu permite:

Împiedicați accesul la toți roboții și la toate fișierele stocate în directorul rădăcină:

 User-agent: * Nu permite: /

Permiteți accesul unui singur robot, în acest exemplu numai Google va putea să acceseze cu crawlere

 User-agent: googlebot Disallow: User-agent: * Disallow: /

Cei mai populari roboți au un nume de utilizat în user-agent
googlebot => pentru Google
msnbot => Căutare MSN
yahoo-slurp => Yahoo!
scrubby => Scrub Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Există, de asemenea, roboții mai specifici, cum ar fi cei din imagini
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Un alt exemplu, astfel încât toate subdirectoarele care includ metacaracterul (/) trebuie blocate, numai acestea, cu excepția tuturor celorlalte fișiere și directoare care nu conțin un metacaracter, în mod nominal sunt blocate directoriile de sistem sau back-end:

 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Împiedicați urmărirea unui anumit fișier

 Agent-utilizator: * Nu permiteți: /page.htm

Acest lucru este folosit foarte mult atunci când vrem să eliminăm o pagină care dă o eroare 404 sau să eliminăm o pagină din rezultatele căutării, împiedicând astfel să fie accesată cu crawlere.
Gestionați frecvența robotilor cu crawlere
Din Google Analytics și din instrumente webmaster puteți vedea statisticile, de asemenea, puteți vedea că, uneori, unii roboți necesită mult timp pentru a revizui site-ul nostru și a trimite cereri către server, roboții consumă lățime de bandă și resurse ca și când ar fi doar un alt vizitator.
Există o modalitate prin care roboții nu scapă de sub control, le putem spune fiecăruia
User-agent: googlebot Crawl-delay: 30
Prin aceasta, informăm robotul Google să aștepte 30 de secunde între fiecare accesare cu crawlere. Aveți grijă, deoarece este posibil ca întârzierea accesării cu crawlere să nu fie acceptată de toate motoarele de căutare, așa cum fac Bing și Google.
Site-ul oficial al robots.txt Este http://www.robotstxt.org/ unde vom găsi numele tuturor roboților, specificații despre cod. Aici se arată că roboții servesc la standardizarea celor care trebuie urmărite și sunt utilizate în alte platforme pentru urmărirea și validarea html, validarea linkurilor, indexarea informațiilor, actualizarea conținutului în motoarele de căutare, protejarea site-urilor web.V-a plăcut și ați ajutat acest tutorial?Puteți recompensa autorul apăsând acest buton pentru a-i oferi un punct pozitiv