Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Podrobnosti Software:
Verze: 3.3
Datum uploadu: 20 Feb 15
Vývojka: Martin Jericho
Licence: Volný
Popularita: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML parser je open source, jednoduchý, ale účinný knihovna napsaná úplně v Javě.
To umožňuje programátorům manipulovat a analyzovat části dokumentu HTML.
Jerich HTML parser také obsahuje vysoké úrovni, funkce pro manipulaci s HTML forma

Co je nového v této verzi:.

  • Opravy chyb:
  • [3581664] CharacterReference.decode () není dekódovat prvky obsahující číslice - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; A there4,
  • [3311286] SourceCompactor nerespektuje textarea
  • [3519131] Renderer výstup nesprávný když postavený s objektem prvků.
  • [3538829] Renderer výstup písma výzdoba na hranicích bloků nesprávné.
  • Segment.getAllStartTags (název) a Segment.getFirstElement (název) nefungují, pokud argument obsahuje velká písmena.
  • koncový oddělovač společného serveru tagu uvnitř uprchlý tagu serveru je falešně uznáván jako koncový oddělovač na uprchlého tagu.
  • změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
  • [3427073] Segment.getStyleURISegments () nyní obsahuje obsah, styl prvek, stejně jako hodnoty atributů stylu.
  • [3427927] Segment.getURIAttributes () nyní obsahuje archivní atributy objektu a applet prvků.
  • Komentáře již uznané uvnitř elementy skriptu za plného sekvenčním Parse. Dříve byly uznány pro kompatibilitu s hlavními prohlížeči, ale moderní chování prohlížeče změnilo.
  • Změnil úroveň protokolu všech parsování chyb od INFO k chybě, a úroveň log v Source.fullSequentialParse () poradní zprávu od upozornil na INFO. Předchozí úrovně dal textovou větší závažnost, než chyby analýzy, brání těžbě systémy z úkrytu poradní zprávu zároveň ukazuje chyby analyzátoru. Varování kódování znaků zůstávají beze změny na úrovni WARN.
  • změny chování metody Renderer.renderHyperlinkURL (Starttag) tak, aby relativní adresy URL nejsou považovány.
  • změny chování vykreslovací tak, aby obsah hypertextový odkaz element není vykreslen, pokud je stejný jako hypertextový odkaz URL, nebere zřetel na http: //. Prefix / nebo přípona
  • EndTag.tidy () nyní odstraní mezery před zavírací držáku.
  • Added zdroj (File) konstruktor.
  • metoda přidané OutputDocument.getSegment ().
  • Added OutputDocument.remove (int začátek, int konec metody).
  • metoda přidané Renderer.setHRLineLength ().
  • Added RenderToText.jsp webapp vzorku.
  • metoda přidané Segment.getRowColumnVector ().
  • detekce kódování nyní ignoruje běžné kódování uvedené v meta tagy, které mají velikost kód celek neslučitelným s předběžným kódování.
  • Modernizované následujících loggeru rozhraní API: slf4j-api-1.7.2, Log4j-1.2.17

Co je nového ve verzi 3.1:

  • Opravy chyb:
  • [2793556] Infinite loop na Segment.getAllStartTags ()
  • Infinite loop na Segment.getAllElements ()
  • Segment.getFirst * metody vrátil segmenty mimo ohraničující segmentu.
  • Segment.getAllElements metody nevrátil všechny uzavřené prvky, za určitých okolností.
  • Opraveny chyby dokumentaci v Segment.getAllElements způsoby.
  • Added StreamedSource class.
  • změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
  • Změnil ParseText od třídy rozhraní.
  • Segment.getNodeIterator () nyní vrací povahových rysů jako samostatné uzly.
  • Přidáno štítek způsoby hledání založené na hodnotu atributu regulárních výrazů.
  • Přidáno štítek způsoby hledání založené na HTML třídě atributu.
  • Přidána statická Source.LegacyNodeIteratorCompatabilityMode majetek dočasně obnovit Segment.getNodeIterator (), funkce jako u předchozí verze.
  • Odebráno char [] na základě vyhledávání metody ParseText.
  • Added CharacterReference.appendCharTo (Appendable) metoda.
  • Added OutputDocument (segment) konstruktor.
  • Added StreamedSourceCopy ukázkový program.

Co je nového ve verzi 3.0:

  • Opravy chyb:
  • bezúhonnosti zastupující unicode doplňující znaky nebyly správně dekódován na UTF-16 kód jednotky párů.
  • [2188446] Element.getDepth () a Element.getParentElement () vrátila nesprávné výsledky, pokud zavolal rozebrat na režimu poptávky.
  • Komentáře jsou nyní uznávány v & lt; script & gt; prvky.
  • API změny, které nejsou zpětně kompatibilní:
  • změnila název balíček net.htmlparser.jericho
  • Atribut hodnoty musí být nyní String spíše než CharSequence.
  • odstraněny všechny zastaralé metody / třídy z předchozích verzí.
  • Všechny najít * metody zastaralé ve prospěch dostanou * metod s cílem uplatnit jednotné pojmenování v rámci všech metod tag vyhledávání.
  • Tag, živel a HTMLElements třídy již implementovat HTMLElementName rozhraní. (Použijte statické import místo)
  • Všechny kolekce nyní stongly zadaný pomocí generik.
  • Změněno FormControlOutputStyle třídu výčet.
  • Změněno FormControlType třídu výčet.
  • Added CharStreamSource.appendTo (Appendable) metoda.
  • metoda přidané Source.iterator ().
  • Source nyní implementuje Iterable.
  • používá interně StringBuilder pro lepší výkon.
  • Added Source.getNextStartTag (StartTagType) metoda.
  • Added Source.getNextEndTag (EndTagType) metoda.
  • Added Source.getPreviousStartTag (StartTagType) metoda.
  • Added Source.getPreviousEndTag (EndTagType) metoda.
  • Added Segment.getAllStartTags (StartTagType) metoda.
  • přidáno všechny Segment.getFirst * metody.
  • Added Renderer.renderHyperlinkURL (Starttag) metoda.
  • Added HTMLSanitiser ukázkový program.
  • Modernizované k slf4j-api-1.5.6

Požadavky na :

  • Java 2 Standard Edition Runtime Environment

Podobný software

cssmergemedia
cssmergemedia

14 Apr 15

mark3
mark3

11 May 15

plywood
plywood

20 Feb 15

Ostatní software developer Martin Jericho

Komentáře k Jericho HTML Parser

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!