Krásné polévka projekt je Python HTML / XML parser určen pro rychlá otočka, projekty, jako obrazovky-škrábání. Tři vlastnostem je silný:
Krásné polévka nebude dusit, pokud ji dát špatné značení. To dává derivační strom, který dělá přibližně tolik smyslu, jako původní dokument. To je obvykle dost dobrý, aby sbírat data, která potřebujete, a utéct.
Beautiful Soup uvádí několik jednoduchých metod a Pythonic idiomy pro navigaci, vyhledávání, a úpravy derivační strom: soubor nástrojů pro rozebírá dokument a extrahování to, co potřebujete. Nemáte vytvořit vlastní parser pro každou aplikaci.
Beautiful Soup automaticky převede příchozí dokumenty Unicode a odchozích dokumentů na UTF-8. Nemusíte přemýšlet o kódování, pokud dokument neurčuje kódování a Beautiful Soup nemůže rozpoznat, jeden. Pak stačí zadat původní kódování.
Beautiful Soup analyzuje všechno, co ho dát, a dělá strom traversal věci pro vás. Můžete říct, že to "Najít všechny odkazy", nebo "Najít všechny odkazy třídního externalLink", nebo "Podívejte se na všechny odkazy, jejichž adresy URL odpovídají" foo.com ", nebo" Najít v tabulce okruhu, který je dostal tučný text, pak se dá mi tento text. "
Cenná data, která byla kdysi zavřený v špatně navržených webových stránek je nyní na dosah ruky. . Projekty, které by trvalo hodiny trvat jen pár minut, s krásnými polévka
Požadavky na :
- Python
Komentáře nebyl nalezen