Podrobnosti Software:
Verze: 3.3
Datum uploadu: 20 Feb 15
Licence: Volný
Popularita: 56
Jerich HTML parser je open source, jednoduchý, ale účinný knihovna napsaná úplně v Javě.
To umožňuje programátorům manipulovat a analyzovat části dokumentu HTML.
Jerich HTML parser také obsahuje vysoké úrovni, funkce pro manipulaci s HTML forma
Co je nového v této verzi:.
- Opravy chyb:
- [3581664] CharacterReference.decode () není dekódovat prvky obsahující číslice - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; A there4,
- [3311286] SourceCompactor nerespektuje textarea
- [3519131] Renderer výstup nesprávný když postavený s objektem prvků.
- [3538829] Renderer výstup písma výzdoba na hranicích bloků nesprávné.
- Segment.getAllStartTags (název) a Segment.getFirstElement (název) nefungují, pokud argument obsahuje velká písmena.
- koncový oddělovač společného serveru tagu uvnitř uprchlý tagu serveru je falešně uznáván jako koncový oddělovač na uprchlého tagu.
- změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
- [3427073] Segment.getStyleURISegments () nyní obsahuje obsah, styl prvek, stejně jako hodnoty atributů stylu.
- [3427927] Segment.getURIAttributes () nyní obsahuje archivní atributy objektu a applet prvků.
- Komentáře již uznané uvnitř elementy skriptu za plného sekvenčním Parse. Dříve byly uznány pro kompatibilitu s hlavními prohlížeči, ale moderní chování prohlížeče změnilo.
- Změnil úroveň protokolu všech parsování chyb od INFO k chybě, a úroveň log v Source.fullSequentialParse () poradní zprávu od upozornil na INFO. Předchozí úrovně dal textovou větší závažnost, než chyby analýzy, brání těžbě systémy z úkrytu poradní zprávu zároveň ukazuje chyby analyzátoru. Varování kódování znaků zůstávají beze změny na úrovni WARN.
- změny chování metody Renderer.renderHyperlinkURL (Starttag) tak, aby relativní adresy URL nejsou považovány.
- změny chování vykreslovací tak, aby obsah hypertextový odkaz element není vykreslen, pokud je stejný jako hypertextový odkaz URL, nebere zřetel na http: //. Prefix / nebo přípona
- EndTag.tidy () nyní odstraní mezery před zavírací držáku.
- Added zdroj (File) konstruktor.
- metoda přidané OutputDocument.getSegment ().
- Added OutputDocument.remove (int začátek, int konec metody).
- metoda přidané Renderer.setHRLineLength ().
- Added RenderToText.jsp webapp vzorku.
- metoda přidané Segment.getRowColumnVector ().
- detekce kódování nyní ignoruje běžné kódování uvedené v meta tagy, které mají velikost kód celek neslučitelným s předběžným kódování.
- Modernizované následujících loggeru rozhraní API: slf4j-api-1.7.2, Log4j-1.2.17
Co je nového ve verzi 3.1:
- Opravy chyb:
- [2793556] Infinite loop na Segment.getAllStartTags ()
- Infinite loop na Segment.getAllElements ()
- Segment.getFirst * metody vrátil segmenty mimo ohraničující segmentu.
- Segment.getAllElements metody nevrátil všechny uzavřené prvky, za určitých okolností.
- Opraveny chyby dokumentaci v Segment.getAllElements způsoby.
- Added StreamedSource class.
- změny, které by mohly ovlivnit CHOVÁNÍ stávajících programů:
- Změnil ParseText od třídy rozhraní.
- Segment.getNodeIterator () nyní vrací povahových rysů jako samostatné uzly.
- Přidáno štítek způsoby hledání založené na hodnotu atributu regulárních výrazů.
- Přidáno štítek způsoby hledání založené na HTML třídě atributu.
- Přidána statická Source.LegacyNodeIteratorCompatabilityMode majetek dočasně obnovit Segment.getNodeIterator (), funkce jako u předchozí verze.
- Odebráno char [] na základě vyhledávání metody ParseText.
- Added CharacterReference.appendCharTo (Appendable) metoda.
- Added OutputDocument (segment) konstruktor.
- Added StreamedSourceCopy ukázkový program.
Co je nového ve verzi 3.0:
- Opravy chyb:
- bezúhonnosti zastupující unicode doplňující znaky nebyly správně dekódován na UTF-16 kód jednotky párů.
- [2188446] Element.getDepth () a Element.getParentElement () vrátila nesprávné výsledky, pokud zavolal rozebrat na režimu poptávky.
- Komentáře jsou nyní uznávány v & lt; script & gt; prvky.
- API změny, které nejsou zpětně kompatibilní:
- změnila název balíček net.htmlparser.jericho
- Atribut hodnoty musí být nyní String spíše než CharSequence.
- odstraněny všechny zastaralé metody / třídy z předchozích verzí.
- Všechny najít * metody zastaralé ve prospěch dostanou * metod s cílem uplatnit jednotné pojmenování v rámci všech metod tag vyhledávání.
- Tag, živel a HTMLElements třídy již implementovat HTMLElementName rozhraní. (Použijte statické import místo)
- Všechny kolekce nyní stongly zadaný pomocí generik.
- Změněno FormControlOutputStyle třídu výčet.
- Změněno FormControlType třídu výčet.
- Added CharStreamSource.appendTo (Appendable) metoda.
- metoda přidané Source.iterator ().
- Source nyní implementuje Iterable.
- používá interně StringBuilder pro lepší výkon.
- Added Source.getNextStartTag (StartTagType) metoda.
- Added Source.getNextEndTag (EndTagType) metoda.
- Added Source.getPreviousStartTag (StartTagType) metoda.
- Added Source.getPreviousEndTag (EndTagType) metoda.
- Added Segment.getAllStartTags (StartTagType) metoda.
- přidáno všechny Segment.getFirst * metody.
- Added Renderer.renderHyperlinkURL (Starttag) metoda.
- Added HTMLSanitiser ukázkový program.
- Modernizované k slf4j-api-1.5.6
Požadavky na :
- Java 2 Standard Edition Runtime Environment
Komentáře nebyl nalezen