Python - HTMLParser

Cuprins
La efectuarea lucrărilor cu analizor în Piton se recomandă ca, dacă lucrăm cu documente HTML folosiți standard XHTML, deoarece acesta din urmă este mai strict atunci când vine vorba de manipularea etichetelor de deschidere și închidere a elementelor, cu aceasta putem face mai ușor programe care pot interpreta acest lucru.
În Piton avem la dispoziție HTMLParser, acest lucru nu trebuie confundat cu clasa cu același nume de modul htmllib, deoarece prima face parte din biblioteca standard, când obținem un document de la Ordonat putem folosi HMTLParser pentru a putea naviga prin conținutul său.
Folosind HTMLParser
Folosește HTMLParser, înseamnă într-adevăr subclasarea acestuia, astfel încât să putem suprascrie metodele la conveniența noastră și astfel să putem îndeplini cerințele noastre, să vedem mai jos o listă a principalelor metode pe care le obținem atunci când folosim HTMLParser.
  • handle_starttag (tag, attrs): Când se găsește o etichetă de start, attrs este o secvență de perechi (nume, valoare).
  • handle_startendtag (tag, attrs): Folosit pentru etichete goale. În mod implicit, gestionează pornirea și oprirea separat.
  • handle_endtag (etichetă): Folosit atunci când se găsește o etichetă de închidere.
  • handle_data (date): Se folosește atunci când găsim date textuale.
  • handle_charref (ref): Se folosește atunci când se lucrează cu referințe de caractere ale formei & # ref;.
  • handle_entityref (nume): O folosim atunci când avem referințe la entități de formă & name;.
  • handle_comment (date): Se apelează numai atunci când există conținut comentat.
  • handle_decl (decl): Este folosit pentru declarațiile formularului.
  • handle_pi (date): Este folosit pentru procesarea instrucțiunilor.
Odată ce am văzut principalele metode ale HTMLParserApoi, vom vedea o imagine cu un exemplu de cod și apoi vom explica în ce constă:

MARI

Primul lucru pe care îl observăm este că pentru asta Screen Scraping nu vom folosi OrdonatAcest lucru se datorează faptului că HTML-ul pe care îl vom inspecta nu este format prost, apoi vedem că primul lucru pe care îl declarăm sunt câteva variabile booleene cu care vom controla dacă suntem în interiorul unui element H4 sau în cadrul unui element sau link.
Avem ceva în special cu această metodă handle_dataDeoarece suntem într-un mediu real, trebuie să ne pregătim pentru cele mai complexe scenarii și prin aceasta vrem să spunem că, fiind aproape sigur că nu vom obține informațiile necesare la primul apel, pregătim această metodă pentru a o putea obține în părți, odată ce obținem tot ce facem este să alăturăm datele.
Acțiunea programului nostru începe când apelăm metoda a hrani () către care transmitem textul care este conținutul paginii web pe care îl obținem cu metoda urlopen () și când toate acestea au fost procesate, procedăm la apelarea metodei close ().
În cele din urmă, am realizat un program de Screen Scraping mai ușor de citit decât utilizarea expresiilor regulate și puțin mai robust în aspectul că nu ne limităm la structuri fixe, cu aceasta putem obține informațiile noastre corect.
Cu aceasta încheiem tutorialul nostru HTMLParser, după cum putem vedea, există multe modalități de a ajunge la aceste soluții, pentru a obține informațiile de pe o pagină web.V-a plăcut și ați ajutat acest tutorial?Puteți recompensa autorul apăsând acest buton pentru a-i oferi un punct pozitiv

Vei ajuta la dezvoltarea site-ului, partajarea pagina cu prietenii

wave wave wave wave wave