LXML je sofistikovaný, silný, svobodný a jedinečný Python modul, který se váže libxml2 a libxslt knihovny, umožňuje vývojářům Python pracovat s oběma souborů XML a HTML zasvěcených jejich Python code.An zpracování XML librarylxml je XML (Extensible Markup Language ) zpracování knihovna napsaná v programovacím jazyce Python, speciálně navržen tak, aby sledovat specifikace API ElementTree co nejvíce.
To může prodloužit ElementTree API vystavit specifická funkce libxslt a libxml2 knihovny, jako je Relax NG (Next-Generation), XPath, XML Schema, c14n, XSLT (Extensible Stylesheet Language), etc.Use LXML volat Python kód z XSLT stylesheetsDevelopers budou moci používat program LXML volat Python kód z XSLT stylů a výrazů XPath prostřednictvím rozšíření funkcí. Široká škála kurzů jsou k dispozici na projektu a rsquo; s homepage (viz odkaz na konci článku).
Tento software je open source záměrné a kombinuje funkce úplnost a rychlost z výše uvedených knihoven s jednoduchostí Python & rsquo; s API (Application Programming Interface) .Getting začal lxmlIt je poměrně snadná instalace LXML na distribuci GNU / Linuxu pomocí zdrojový archiv distribuován na Softoware a projektu & rsquo; s oficiální internetové stránky. Jednoduše stáhnout zdrojový balíček, uložte jej na vašem domovském adresáři, rozbalíme jej, otevřete Terminal aplikaci a přejděte do umístění extrahované archivních souborů (např cd /home/softoware/lxml-3.4.1).
Spustit & lsquo, jak & rsquo; příkazu sestavit program, který by měl trvat asi 1-2 minut v moderním počítači. Po úspěšné kompilaci, spustit a lsquo, make install-rsquo; příkaz jako root, nebo-lsquo, sudo make install & rsquo; příkaz jako privilegovaný uživatel nainstalovat LXML systému wide.Supports GNU / Linux a Microsoft Windows operační systémyCílem software je oficiálně podporována v operačních systémech GNU / Linux a Microsoft Windows. To byl úspěšně testován na 32-bit a 64-bitové počítače
Co je nového v této verzi:.
- Vlastnosti přidal:
- New htmlfile HTML generátor doprovázet přírůstkové xmlfile serializace API. Patch by Burak Arslan.
- Opravené chyby:
- lxml.sax.ElementTreeContentHandler ani inicializovat jeho nadřazenou.
Co je nového ve verzi 3.3.1:
- Opravené chyby:
- LP # 1014290: HTML dokumenty parsované s parser.feed (), se nepodařilo najít prvky během štítkem opakování .
- LP # 1273709: Budova PyPy se nezdařilo z důvodu chybějící podpory PyUnicode_Compare () a PyByteArray _ * (), ve PyPy v C-API .
- LP # 1274413: Kompilace v MSVC se nezdařilo z důvodu chybějící & quot; stdint.h & quot; standardní soubor záhlaví.
- LP # 1274118: iterparse () se nepodařilo analyzovat BOM s předponou souborů .
Co je nového ve verzi 3.0 Alpha 2:
- Vlastnosti, které zní:
- Metoda .iter () prvků nyní přijímá značek argumenty jako & quot; {*} název & quot; hledat prvky s danou místní název v jakémkoli oboru názvů. S tímto Kromě toho jsou všechny kombinace zástupných znaků nyní fungují podle očekávání: & quot; {ns} jméno a quot ;, & quot; {} jméno a quot ;, & quot; {*} jméno a quot ;, & quot; {ns} * & quot ;, & quot; {} * & quot; a & quot; {*} * & quot ;. Všimněte si, že & quot; název & quot; je ekvivalentní & quot; {} název & quot ;, ale & quot; * & quot; je & quot; {*} * & quot ;. Totéž změna se týká .getiterator (), .itersiblings () .iterancestors () .iterdescendants () .iterchildren () a .itertext () metody, přičemž strip_attributes () strip_elements () a strip_tags () funkce jakož i iterparse () třídy.
- C14N umožňuje zadáním inclusive předpony mají být povýšen na nejvyšší úrovni v exkluzivní serializaci.
- Opravené chyby:
- Předávání dlouhé řetězce Unicode do krmiv () analyzátor rozhraní nedokázal přečíst celý řetězec.
Co je nového ve verzi 2.3.5:
- Crash při slučování textových uzlů v element.remove ( ).
- Crash v sax / cílové analyzátoru při hlášení prázdné typ dokumentu.
Co je nového ve verzi 2.3.4:
- Crash při budování nsmap (vlastnost Element) se prázdný namespace URI.
- Crash kvůli sporu, když dojde během stromového zpracování XSLT chyby (nebo uživatelské zprávy).
- XSLT stylesheet kompilace by mohl ignorovat chyby kompilace.
Co je nového ve verzi 2.3.2:
- Vlastnosti, které zní:
- lxml.objectify.deannotate () má nová logická cleanup_namespaces k odstranění objektivizovat deklarace oboru názvů (a obecně vyčistit deklarace oboru názvů), po odstranění typu poznámky.
- lxml.objectify získal svou funkci vlastní dílčí prvek () jako kopie etree.SubElement aby se zabránilo jinak redundantní dovoz lxml.etree na straně uživatele.
- Opravené chyby:
- Pevné & quot; potomek & quot; chyba v cssselect podruhé (po prvním opravy v LXML 2.3.1). Předchozí změna vedla k vážné výkonu regrese založené XPath vyhodnocení překládaného výrazu. Všimněte si, že to zlomí využití některých vytvořených výrazů XPath Místo cest, XSLT, který dříve pracoval v 2.3.1.
- opraveno parsování některých voliče v cssselect. Mezery po kombinátorů & quot; & Gt; & quot ;, & quot; + & quot; a & quot; ~ & quot; je nyní správně ignorována. Dříve je bylo analyzovat jako potomek combinator. Například, & quot; div & gt; .foo & quot; byl zpracován stejně jako & quot; div & gt; * .foo & quot; místo & quot; div & gt; .foo & quot;.
Co je nového ve verzi 2.3.1:
- Vlastnosti, které zní:
- Nová možnost kill_tags v lxml.html.clean odstranit konkrétní značky a jejich obsah (tedy jejich celého podstromu).
- pi.get () a pi.attrib na zpracování instrukcí analyzovat pseudo-atributů z obsahu textu zpracování instrukcí.
- lxml.get_include () vrací seznam zahrnout cesty, které mohou být použity k sestavení externího C kód proti lxml.etree. To je nezbytné pro zvláštní potřeby staticky spojené LXML staví, když kód musí sestavit proti přesně stejné verze souborů záhlaví LXML sebe.
- Resolver.resolve_file () má další možnost close_file že nastaví-li soubor (-like), objekt bude uzavřena po přečtení, nebo ne. Ve výchozím nastavení bude soubor uzavřen, protože se nepředpokládá, že uživatel, aby odkaz na něj.
- Opravené chyby:
- čištění HTML neodstranil "data: '. Odkazy
- Integrace html5lib Analyzátor nyní používá 'oficiální' implementaci v html5lib sobě, což umožňuje pracovat s novějšími verzemi knihovny.
- V lxml.sax, endElementNS () by mohl nesprávně odmítnout prostý název značky, když odpovídající startu události vyvodit stejný běžný název značky být ve výchozí názvů.
- Při otevření souboru, jako objekt předán do parse (), nebo iterparse (), bude parser již blízko, že po použití. To se vrátí ke změně LXML 2,3, kdy by všechny soubory budou uzavřeny. Je uživatelé odpovědnost za řádné uzavření souboru (-jako) objektu, a to i v případě chyby.
- chyba Uplatnění v lxml.html.cleaner při likvidaci prvky na nejvyšší úrovni.
- V lxml.cssselect, použijte XPath "// B" (zkratka pro "A / potomek-nebo-self :: uzel () / B") namísto "A / potomek :: B" pro CSS potomek volič ("B"). Tím se několik případů hrany, aby bylo v souladu s chováním voliče v WebKit a Firefox, a dělá více CSS výrazy platné umístění cesty (pro použití v xsl: template zápas).
- V lxml.html, non-vybraný značky již nebudou zobrazovat v sebraných hodnoty formuláře.
- Přidání / odebrání hodnoty z / do více select pole formuláře řádně vybírá je a unselects je.
- Další změny:
- Statický staví můžete zadat adresář pro stahování s možností --download-dir.
Co je nového ve verzi 2.3:
- Vlastnosti, které zní:
- Při pohledu na děti, lxml.objectify bere '{} značku ", v tom smyslu, prázdný jmenný prostor, na rozdíl od mateřské názvů.
- Opravené chyby:
- Po dokončení čtení z objektu souboru podobné, parser okamžitě volá svou metodu .close ().
- Po dokončení rozebrat, iterparse (), okamžitě zavře vstupní soubor.
- obejití libxml2 chyby, které mohou opustit HTML parser v nefunkčním stavu, po analýze se hrozně rozbité dokument (opravené libxml2 2.7.8).
- značka tag v HTML kódu vyčištění je správně určen stan.
- Další změny:
- Některé veřejné funkce v C-API Cython úrovni mají přesnější návratové typy.
Co je nového ve verzi 2.2.8 / 2.3 Beta 1:
- Crash v novějších verzích libxml2 když pohybující se prvky, mezi dokumenty, které měly atributy nahrazeny XInclude uzlech.
- funkce XMLID () chyběl volitelných parser a base_url parametry.
- Vyhledávání zástupných značek v iterparse (), byla rozbita v Py3.
- lxml.html.open_in_browser () nefunguje v Python 3 v důsledku použití os.tempnam. Nyní má parametr volitelný "kódování".
Požadavky na :
- Python
Komentáře nebyl nalezen