Tidy în Python

Cuprins
Screen Scraping sau răzuirea ecranului, ne permite să extragem informații dintr-o pagină web descărcând pagina menționată și apoi procesând-o cu un program; Acest lucru este foarte util mai ales atunci când avem nevoie de informații actualizate de pe un site web care nu are API disponibile sau unele Serviciu web.
Pentru a efectua o Screen Scraping, pur și simplu trebuie să descărcăm conținutul și să îl putem manipula astfel încât să putem extrage ceea ce ne interesează, pentru aceasta putem folosi diverse tehnici, cum ar fi utilizarea expresiilor regulate sau poate să ne ajutăm cu alte biblioteci, cum ar fi Ordonat.
Ce este Tidy?
Pentru a putea citi un HTML Trebuie să avem încredere în structura sa, deoarece, deoarece nu știm exact ce conținut are, cel puțin știm că dacă căutăm structuri HTML ceva ce putem obține, totuși, nu întotdeauna HTML este bine format, fie din cauza unei erori de omisiune, fie pentru că programatorul știe că unele browsere tind să interpreteze HTML chiar dacă există unele defecte.
În acest moment intră în joc Ordonat, care nu este altceva decât un instrument care ne permite să reparăm HTML malformat, este foarte configurabil și ne permite să personalizăm modul în care ar trebui să interpreteze corecțiile pe care le poate face, în acest fel vom ști cu certitudine ce tip de document va rezulta în final.
Să vedem mai întâi o imagine a unui cod HTML Cu multe erori, acest cod poate fi interpretat de unele browsere, totuși nu este un cod corect în formarea sa:

După cum putem vedea, fiecare linie are practic o eroare, cea mai frecventă este neînchiderea etichetelor, apoi vedem etichete care se închid într-un loc greșit etc.
Apoi folosim Ordonat și să vedem codul deja corectat, acolo vom realiza cât de importantă este această bibliotecă și tot ajutorul pe care ni-l poate oferi:

În imagine vedem cum a fost corectată Ordonat, trebuie să menționăm că, deși Tidy este o bibliotecă mare, probabil că nu poate rezolva toate erorile din HTMLCu toate acestea, ne ajută foarte mult atunci când vine vorba de construirea HTML-ului nostru bine format.
Tidy
Există mai multe modalități de a obține Tidy prin intermediul paginii sale oficiale http: / /tidy.sf.net. putem obține biblioteca, totuși nu există nicio modalitate în sursa respectivă de a o integra Piton deci trebuie să recurgem la o sursă alternativă, pentru aceasta avem două opțiuni: uTidy disponibil la http: / /utidylib.berlios.de și mxTidy disponibil la http: /egenix.com/files/python/mxTidy.html, uTidy pare a fi cel mai actualizat dintre cele două, dar mxTidy este puțin mai ușor de instalat, este la latitudinea tuturor să vadă care este a folosi.
Să vedem un exemplu de utilizare Ordonat Odată ce îl avem instalat, în următorul cod ceea ce vom face este să deschidem un HTML cu erori și să-l citim folosind Tidy, apoi vom afișa informațiile pe ecran.
 din importul subprocesului Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) ordonat. stdin.close () print tidy.stdout.read () 

După cum putem vedea, este destul de simplu de utilizat OrdonatOdată ce avem suficientă încredere în ea, cunoscând bine comportamentul bibliotecii, putem realiza lucruri foarte interesante.V-a plăcut și ați ajutat acest tutorial?Puteți recompensa autorul apăsând acest buton pentru a-i oferi un punct pozitiv
wave wave wave wave wave