Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Podrobnosti Software:
Verze: 3.4
Datum uploadu: 10 Dec 15
Vývojka: Martin Jericho
Licence: Volný
Popularita: 12

Rating: nan/5 (Total Votes: 0)

Je možné upravit na straně serveru a na straně klienta tagy, při reprodukci doslovně neuznané nebo neplatný HTML.

Také poskytuje na vysoké úrovni funkcí pro manipulaci s HTML formulář

Vlastnosti :.

  • Přítomnost špatně formátovaný HTML není v rozporu s parsování zbytku dokumentu, který dělá knihovny ideální pro použití s ​​& quot; v reálném světě, & quot; HTML, že udusí jiné analyzátory.

  • serverové tagy
  • ASP, JSP, PSP, PHP a Mason jsou výslovně uznána parser. To znamená, že normální HTML je stále správně analyzovat, i když tam jsou serverové tagy uvnitř nich, což je běžné například při dynamické nastavení atributů prvků.
  • Nový proud založený rozebrat možnost použití třídy StreamedSource, který umožňuje paměti efektivní zpracování velkých souborů pomocí iterátor události. To je v podstatě Stax alternativa se schopností zpracování HTML a non-ověřující XML, stejně jako několik dalších funkcí, které nejsou dostupné v jiných streamování analyzátorů.
  • Ve standardní podobě není ani událost, ani strom založené parser, ale spíše využívá kombinaci jednoduché textové vyhledávání, efektivní uznání značku a mezipaměti tag polohy. Znění celého zdrojového dokumentu je prvním načtení do paměti, a pak jen příslušné segmenty hledali relevantní znaky každé vyhledávací operace.
  • Ve srovnání založené parser stromu, jako je DOM, požadavky na paměť a zdrojů může být mnohem lepší, když potřebujete jen malé části dokumentu, které mají být analyzovány, nebo upravit. Nesprávné nebo špatně formátovaný HTML lze snadno ignorovat, na rozdíl od analyzátory na bázi stromů, které musí identifikovat všechny uzly v dokumentu od shora dolů.
  • V porovnání s založené parser události, jako je SAX, rozhraní je na mnohem vyšší úrovni a více intuitivní, a strom znázornění hierarchie dokumentu prvku je snadno vytvořit v případě potřeby.
  • začátku a konce pozice v zdrojovém dokumentu všech analyzovaných segmentech jsou přístupné, což umožňuje úpravu pouze vybrané segmenty dokumentu, aniž by bylo nutné rekonstruovat celý dokument ze stromu.
  • Řádek a sloupec číslo každého pozice v zdrojovém dokumentu jsou snadno přístupné.
  • Poskytuje jednoduchý, ale komplexní rozhraní pro analýzu a manipulace s ovládacích prvků formuláře HTML, včetně získávání a obyvatelstvo počátečních hodnot, a konverze nebo zobrazení dat režimů pouze pro čtení. Analýza ovládací prvky formuláře také umožňuje údaje, které obdržela z formuláře, které mají být uloženy a prezentovány vhodným způsobem.
  • Vestavěná funkce extrahovat celý text z HTML značek, vhodný pro krmení do textového vyhledávače, jako je Apache Lucene.
  • Vestavěná funkce k tomu, aby HTML značky s jednoduchou formátování textu.
  • Vestavěná funkce do formátu HTML zdrojový kód, který odrážky prvky podle jejich hloubky v hierarchii dokumentů prvku. (Klikněte zde pro on-line demonstrace)
  • Vestavěná funkce na kompaktním zdrojového kódu HTML tím, že odstraní všechny nepotřebné prázdné místo.
  • Vlastní typy tagů lze snadno definovat a registrované pro uznání analyzátoru.

Co je nového v této verzi:.

  • z přidané Zdrojový (File) konstruktér
  • metoda přidané OutputDocument.getSegment ().
  • z přidané OutputDocument.remove (int začátek, int konec) metodu.
  • metoda přidané Renderer.setHRLineLength ().
  • Přidaný RenderToText.jsp webapp vzorku.
  • metoda přidané Segment.getRowColumnVector ().
  • Detekce Kódování nyní ignoruje běžná kódování uvedené v meta tagy, které mají velikost kód celek neslučitelným s předběžným kódování.

Co je nového ve verzi 3.1:

  • Opravy chyb:
  • nekonečné smyčky na Segment.getAllStartTags ()
  • nekonečné smyčky na Segment.getAllElements ()
  • Segment.getFirst * metody vrátil segmenty mimo ohraničovací segmentu.
  • Segment.getAllElements metody nevrátil všechny uzavřené prvky, za určitých okolností.
  • Opraveny chyby dokumentaci v Segment.getAllElements metod.
  • z přidané StreamedSource class.
  • Změny, které by mohly mít vliv na chování stávajících programů:
  • Změněno ParseText od třídy rozhraní.
  • Segment.getNodeIterator () nyní vrací bezúhonnosti jako samostatné uzly.
  • Přidána štítek způsoby hledání založené na hodnotu atributu regulární výrazy.
  • Přidána štítek způsoby hledání založené na HTML třídě atributu.
  • Přidána statická Source.LegacyNodeIteratorCompatabilityMode majetek dočasně obnovit Segment.getNodeIterator (), funkce jako u předchozí verze.
  • Odstraněno char [] vyhledávání na základě metody v ParseText.
  • z přidané CharacterReference.appendCharTo (Appendable) metoda.
  • z přidané OutputDocument (segment), konstruktér.
  • Přidaný StreamedSourceCopy ukázkový program.

Podobný software

localStorageDB
localStorageDB

12 Apr 15

html5Widgets
html5Widgets

6 Jun 15

HTML(.js)
HTML(.js)

13 Apr 15

Webshim
Webshim

12 Apr 15

Ostatní software developer Martin Jericho

Komentáře k Jericho HTML Parser

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!
Vyhledávání podle kategorie