Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Podrobnosti Software:
Verze: 3.3
Datum uploadu: 20 Feb 15
Vývojka: Martin Jericho
Licence: Volný
Popularita: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML parser je open source, jednoduchý, ale účinný knihovna napsaná úplně v Javě.
To umožňuje programátorům manipulovat a analyzovat části dokumentu HTML.
Jerich HTML parser také obsahuje vysoké úrovni, funkce pro manipulaci s HTML forma

Co je nového v této verzi:.

  • Opravy chyb:
  • [3581664] CharacterReference.decode () není dekódovat prvky obsahující číslice - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; A there4,
  • [3311286] SourceCompactor nerespektuje textarea
  • [3519131] Renderer výstup nesprávný když postavený s objektem prvků.
  • [3538829] Renderer výstup písma výzdoba na hranicích bloků nesprávné.
  • Segment.getAllStartTags (název) a Segment.getFirstElement (název) nefungují, pokud argument obsahuje velká písmena.
  • koncový oddělovač společného serveru tagu uvnitř uprchlý tagu serveru je falešně uznáván jako koncový oddělovač na uprchlého tagu.
  • změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
  • [3427073] Segment.getStyleURISegments () nyní obsahuje obsah, styl prvek, stejně jako hodnoty atributů stylu.
  • [3427927] Segment.getURIAttributes () nyní obsahuje archivní atributy objektu a applet prvků.
  • Komentáře již uznané uvnitř elementy skriptu za plného sekvenčním Parse. Dříve byly uznány pro kompatibilitu s hlavními prohlížeči, ale moderní chování prohlížeče změnilo.
  • Změnil úroveň protokolu všech parsování chyb od INFO k chybě, a úroveň log v Source.fullSequentialParse () poradní zprávu od upozornil na INFO. Předchozí úrovně dal textovou větší závažnost, než chyby analýzy, brání těžbě systémy z úkrytu poradní zprávu zároveň ukazuje chyby analyzátoru. Varování kódování znaků zůstávají beze změny na úrovni WARN.
  • změny chování metody Renderer.renderHyperlinkURL (Starttag) tak, aby relativní adresy URL nejsou považovány.
  • změny chování vykreslovací tak, aby obsah hypertextový odkaz element není vykreslen, pokud je stejný jako hypertextový odkaz URL, nebere zřetel na http: //. Prefix / nebo přípona
  • EndTag.tidy () nyní odstraní mezery před zavírací držáku.
  • Added zdroj (File) konstruktor.
  • metoda přidané OutputDocument.getSegment ().
  • Added OutputDocument.remove (int začátek, int konec metody).
  • metoda přidané Renderer.setHRLineLength ().
  • Added RenderToText.jsp webapp vzorku.
  • metoda přidané Segment.getRowColumnVector ().
  • detekce kódování nyní ignoruje běžné kódování uvedené v meta tagy, které mají velikost kód celek neslučitelným s předběžným kódování.
  • Modernizované následujících loggeru rozhraní API: slf4j-api-1.7.2, Log4j-1.2.17

Co je nového ve verzi 3.1:

  • Opravy chyb:
  • [2793556] Infinite loop na Segment.getAllStartTags ()
  • Infinite loop na Segment.getAllElements ()
  • Segment.getFirst * metody vrátil segmenty mimo ohraničující segmentu.
  • Segment.getAllElements metody nevrátil všechny uzavřené prvky, za určitých okolností.
  • Opraveny chyby dokumentaci v Segment.getAllElements způsoby.
  • Added StreamedSource class.
  • změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
  • Změnil ParseText od třídy rozhraní.
  • Segment.getNodeIterator () nyní vrací povahových rysů jako samostatné uzly.
  • Přidáno štítek způsoby hledání založené na hodnotu atributu regulárních výrazů.
  • Přidáno štítek způsoby hledání založené na HTML třídě atributu.
  • Přidána statická Source.LegacyNodeIteratorCompatabilityMode majetek dočasně obnovit Segment.getNodeIterator (), funkce jako u předchozí verze.
  • Odebráno char [] na základě vyhledávání metody ParseText.
  • Added CharacterReference.appendCharTo (Appendable) metoda.
  • Added OutputDocument (segment) konstruktor.
  • Added StreamedSourceCopy ukázkový program.

Co je nového ve verzi 3.0:

  • Opravy chyb:
  • bezúhonnosti zastupující unicode doplňující znaky nebyly správně dekódován na UTF-16 kód jednotky párů.
  • [2188446] Element.getDepth () a Element.getParentElement () vrátila nesprávné výsledky, pokud zavolal rozebrat na režimu poptávky.
  • Komentáře jsou nyní uznávány v & lt; script & gt; prvky.
  • API změny, které nejsou zpětně kompatibilní:
  • změnila název balíček net.htmlparser.jericho
  • Atribut hodnoty musí být nyní String spíše než CharSequence.
  • odstraněny všechny zastaralé metody / třídy z předchozích verzí.
  • Všechny najít * metody zastaralé ve prospěch dostanou * metod s cílem uplatnit jednotné pojmenování v rámci všech metod tag vyhledávání.
  • Tag, živel a HTMLElements třídy již implementovat HTMLElementName rozhraní. (Použijte statické import místo)
  • Všechny kolekce nyní stongly zadaný pomocí generik.
  • Změněno FormControlOutputStyle třídu výčet.
  • Změněno FormControlType třídu výčet.
  • Added CharStreamSource.appendTo (Appendable) metoda.
  • metoda přidané Source.iterator ().
  • Source nyní implementuje Iterable.
  • používá interně StringBuilder pro lepší výkon.
  • Added Source.getNextStartTag (StartTagType) metoda.
  • Added Source.getNextEndTag (EndTagType) metoda.
  • Added Source.getPreviousStartTag (StartTagType) metoda.
  • Added Source.getPreviousEndTag (EndTagType) metoda.
  • Added Segment.getAllStartTags (StartTagType) metoda.
  • přidáno všechny Segment.getFirst * metody.
  • Added Renderer.renderHyperlinkURL (Starttag) metoda.
  • Added HTMLSanitiser ukázkový program.
  • Modernizované k slf4j-api-1.5.6

Požadavky na :

  • Java 2 Standard Edition Runtime Environment

Podobný software

Docmake
Docmake

14 Apr 15

Grutatxt
Grutatxt

12 May 15

Markdoc
Markdoc

11 May 15

relaxml
relaxml

20 Feb 15

Ostatní software developer Martin Jericho

Komentáře k Jericho HTML Parser

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!