lxml

Software screenshot:
lxml
Podrobnosti Software:
Verze: 3.4.4 Aktualizováno
Datum uploadu: 12 May 15
Vývojka: infrae.com
Licence: Volný
Popularita: 245

Rating: 5.0/5 (Total Votes: 1)

LXML kombinuje rychlost těchto knihoven s jednoduchosti jazyka Python.
Kompatibilní se všemi verzemi CPython 2,4-3,2

Co je nového v této verzi:.

  • lxml.html.iterlinks nyní vrací odkazy uvnitř meta obnovovací tagy.
  • New XMLParser možnost collect_ids = False zakázat vytvoření tabulky ID hash. To může značně urychlit parsování dokumentů s mnoha různými ID, které nejsou používány.
  • parser používá per-dokumentu hash tabulky pro ID XML. Tím se snižuje zatížení globálního analyzátoru dict a urychluje parsování pro dokumenty s mnoha různými ID.
  • ElementTree.getelementpath (prvek) vrací strukturální ElementPath výraz pro daného prvku, který může být použit k je vyhledávání později.
  • xmlfile () přijímá nový argument blízký = True zavřete soubor (-like) objekty po zápisu k nim. Před, xmlfile (), jen zavřel soubor, kdyby otevřel ji interně.
  • Povolit & quot; ByteArray & quot; typ pro zadávání textu ASCII.

Co je nového ve verzi 3.4.2:

  • lxml.html.iterlinks nyní vrací odkazy uvnitř meta aktualizovat tagy.
  • New XMLParser možnost collect_ids = False zakázat vytvoření tabulky ID hash. To může značně urychlit parsování dokumentů s mnoha různými ID, které nejsou používány.
  • parser používá per-dokumentu hash tabulky pro ID XML. Tím se snižuje zatížení globálního analyzátoru dict a urychluje parsování pro dokumenty s mnoha různými ID.
  • ElementTree.getelementpath (prvek) vrací strukturální ElementPath výraz pro daného prvku, který může být použit k je vyhledávání později.
  • xmlfile () přijímá nový argument blízký = True zavřete soubor (-like) objekty po zápisu k nim. Před, xmlfile (), jen zavřel soubor, kdyby otevřel ji interně.
  • Povolit & quot; ByteArray & quot; typ pro zadávání textu ASCII.

Co je nového ve verzi 3.3.2:

  • Vlastnosti resolvery a verze, stejně jako Metody set_element_class_lookup () a makeelement (), byl ztracen z iterparse objektů.
  • Instance XmlSchema, Schematron a RelaxNG neměl před spuštěním validaci vymazat svou místní error_log.
  • lxml.doctestcompare popletl & quot; očekává, & quot; a & quot; skutečná & quot; V hodnoty atributů.

Co je nového ve verzi 3.3.1:

  • Opravené chyby:
  • HTML dokumenty parsované s parser.feed (), se nepodařilo najít prvky během tagů iteraci.
  • budova v PyPy nezdařilo kvůli chybějící podporu PyUnicode_Compare () a PyByteArray _ * () v PyPy v C-API.
  • Kompilace v MSVC nezdařilo kvůli chybějící & quot; stdint.h & quot; standardní záhlaví souboru.
  • iterparse () se nezdařilo analyzovat BOM předpona souborů.

Co je nového ve verzi 3.3.0:

  • Opravené chyby:
  • heuristika, která rozlišuje cesty k souborům z adres URL, byla zpřísněna produkovat méně falešně negativní výsledky.

Co je nového ve verzi 3.2.3:

  • Pevná podpora pro Python 2.4, který byl ztracen v 3.2 .2.

Co je nového ve verzi 3.2.1:

  • Metody apply_templates () a process_children () z rozšíření XSLT elementy získaly dvě nové logické možnosti elements_only a remove_blank_text že odhodit buď všechny řetězce nebo mezer pouze pro řetězce ze seznamu výsledků.

Co je nového ve verzi 3.2.0:

  • úvodní mezery může změnit chování řetězec parsování funkce v lxml.html.
  • Řetězec analýze funkce v lxml.html jsou robustnější tváří v tvář nevšední obsahu HTML, jako rámců nebo chybějící tělo tagy.
  • I / O chyby při pokusu o přístup k souborům s cestami, které obsahují jiné znaky než ASCII by mohly vyvolat UnicodeDecodeError namísto řádné ohlášení IOError.
  • Parsování z in-memory řetězce bezbariérový přístup k síti ve výchozím analyzátoru a také následné pokusy parsování z adresy URL nezdaří.

Co je nového ve verzi 3.1.2:

  • přihrávky atributy pomocí jmenného-nevědomý API sax most (tj handler.startElement () metoda) se nezdařila s TypeError.
  • Opravena chyba serialization v XSLT výstupu při převodu výsledků strom na řetězec Unicode.

Co je nového ve verzi 3.0.2:

  • Opraven pád během odstávky interpreteru přechodem na Cython 0,17 .3 u objektu.

Co je nového ve verzi 3.0:

  • C14N umožňuje zadáním inclusive prefixy, které mají být povýšen na TOP- Úroveň během exkluzivní serializaci.
  • počáteční podpora pro stavbu v PyPy (přes cpyext).
  • DTD objekty získal API, které umožňuje přístup ke čtení svých prohlášeních.
  • xpathgrep.py získal podporu pro parsování řádek po řádku (např z grep výstupu) a pro obklopující výstup s novou kořenovou tagu.
  • E-továrna v lxml.builder přijímá podtypů známých datových typů (například smyčcových subtypů) při vytváření prvky kolem nich.
  • Tree iterace a iterparse () se selektivním tag argumentu podporuje kolem sadu značek. Uzly stromu budou vráceny pomocí iterátorů, pokud odpovídají některému z tagů.

Co je nového ve verzi 2.3.5:

  • Crash při slučování textových uzlů v element.remove ( ).
  • Crash v sax / cílové analyzátoru při hlášení prázdné doctype.

Co je nového ve verzi 2.3.4:

  • Crash při budování nsmap (vlastnost Element) se prázdný namespace URI.
  • Crash v důsledku spor, kdy dojde během stromového zpracování XSLT chyby (nebo uživatelské zprávy).
  • XSLT stylesheet sestavování mohl ignorovat chyby kompilace.

Co je nového ve verzi 2.3.3:

  • Funkce dodal:
  • lxml.html.tostring () získala nové možnosti serializace with_tail a doctype.
  • Opravené chyby:
  • Opraven pád při použití iterparse () pro HTML rozebrat a žádá zahájení akce.
  • Pevná parsování více selektorů v cssselect. Mezery před pseudo-prvky a pseudo-tříd, je významná, protože je potomek Combinator. & Quot; E: pseudo & quot; by měla analyzovat stejně jako & quot; E *: pseudo & quot ;, nikoli & quot; E:. pseudo & quot;
  • lxml.html.diff již vyvolá výjimku při nárazu "img" značky, aniž by "src" atributu.

Co je nového ve verzi 2.3.2:

  • Funkce dodal:
  • lxml.objectify.deannotate () má nový boolean volby cleanup_namespaces k odstranění objektivizovat deklarace oboru názvů (a obecně vyčistit deklarace oboru názvů), po odstranění typu anotace.
  • lxml.objectify získal svou funkci vlastní dílčí prvek () jako kopie etree.SubElement aby se zabránilo jinak redundantní dovoz lxml.etree na straně uživatele.
  • Opravené chyby:
  • Pevné & quot; potomek & quot; chyba v cssselect podruhé (po prvním opravy v LXML 2.3.1). Předchozí změna vyústila v vážné výkonu regrese založená XPath vyhodnocení přeloženého výrazu na. Všimněte si, že to zlomí využití některých z generovaných výrazů XPath Místo cest, XSLT, který dříve pracoval v 2.3.1.
  • Pevná rozebrat některé voliče ve cssselect. Mezery po kombinátorů & quot; & # X3e; & quot ;, & quot; + & quot; a & quot; ~ & quot; je nyní správně ignorována. Dříve se byl analyzován jako potomek Combinator. Například, & quot; div & # x3e; .foo & quot; byl analyzován stejný jako & quot; div & # X3e; * .foo & quot; místo & quot; div & # X3e, .foo & quot;.

Co je nového ve verzi 2.3.1:

  • Funkce dodal:
  • Nová možnost kill_tags v lxml.html.clean odstranit konkrétní značky a jejich obsah (tj jejich celého podstromu).
  • pi.get () a pi.attrib na zpracování instrukcí analyzovat pseudo-atributů z obsahu textu zpracování instrukcí.
  • lxml.get_include () vrací seznam zahrnuje cesty, které mohou být použity k sestavení externího C kód proti lxml.etree. To je nezbytné pro zvláštní potřeby staticky propojeny LXML staví, když kód musí kompilovat proti přesně stejné verze souborů záhlaví jako LXML sebe.
  • Resolver.resolve_file () trvá další možnost close_file že konfiguruje pokud soubor (-like), objekt bude uzavřeno po přečtení či nikoliv. Ve výchozím nastavení, bude soubor uzavřen, protože se neočekává, že uživatel, aby odkaz na něj.
  • Opravené chyby:
  • úklid HTML neodstranil "údaje:". Vazby
  • Integrace html5lib Analyzátor nyní používá 'oficiální' uplatňování v html5lib samotné, díky němuž je práce s novějšími verzemi knihovny.
  • V lxml.sax, endElementNS () by mohla nesprávně odmítnout prostý název značky, když odpovídající startu události vyvodit stejný prostý název značky, aby byl ve výchozím názvů.
  • Když je otevřený soubor podobný objekt předán do parse () nebo iterparse (), bude analyzátor již blízko, že po použití. To se vrátí ke změně LXML 2.3, kde by všechny soubory být uzavřen. Je zodpovědností uživatele, aby správně zavřete soubor (-jako objekt), také v chybových případech.
  • chyba Assertion v lxml.html.cleaner při likvidaci prvky nejvyšší úrovně.
  • V lxml.cssselect, použijte XPath "// B" (krátký pro 'A / potomek-nebo-self :: uzel () / B ") namísto" A / potomek :: B "pro CSS potomek volič ("B"). To dělá několik případů hrana být v souladu s chováním voliče v WebKit a Firefox, a dělá více CSS výrazy platné umístění trasy (pro použití v xsl: template zápas).
  • V lxml.html, non-zvolen & # x3c, možnost & # x3e; tagy již zobrazovat v sebraných hodnot formuláře.
  • Přidání / odebrání & # x3c, možnost & # X3e; hodnot do / z násobek vyberte pole formuláře správně vybere je a položka, je.
  • Další změny:
  • Static staví můžete zadat adresář pro stahování s možností --download-dir.

Co je nového ve verzi 2.3:

  • Funkce dodal:
  • Při pohledu na děti, lxml.objectify bere '{} tag "v tom smyslu, prázdný jmenný prostor, na rozdíl od mateřské jmenného prostoru.
  • Opravené chyby:
  • Po dokončení čtení z objektu souboru, stejně jako, analyzátor okamžitě volá svou metodu .close ().
  • Po dokončení rozebrat, iterparse () okamžitě ukončí vstupní soubor.
  • Work-around pro libxml2 chyby, které mohou opustit HTML parser v nefunkční stavu po analýze se hrozně zlomenou dokument (opravené libxml2 2.7.8).
  • Marque tag v HTML kódu vyčištění je správně pojmenován stan.
  • Další změny:
  • Některé veřejné funkce v C-API Cython úrovni mají více explicitní návratové typy.

Co je nového v verze 2.3beta1:

  • Opravené chyby:
  • Crash v novějších verzích libxml2 při pohybu prvků mezi dokumenty, které měly atributy nahrazených XInclude uzlech.
  • Funkce XMLID (), chybí volitelných parser a base_url parametrů.
  • Vyhledávání zástupných tagů v iterparse () byla rozbita v Py3.
  • lxml.html.open_in_browser () nefunguje v Python 3, v důsledku použití os.tempnam. To nyní trvá volitelný parametr "kódování".

Podobný software

iCalendar
iCalendar

13 Apr 15

Dulwich
Dulwich

12 Apr 15

Django Frontend
Django Frontend

4 Jun 15

Twiggy
Twiggy

12 Apr 15

Komentáře k lxml

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!