cpdetector projekt je malý, ale chytrý rámec pro detekci kódové stránky.
cpdetector je malý, ale chytrý rámec pro detekci kódové stránky, které integruje různé strategie. Může být použit jako knihovna pro software třetích stran, který přistupuje k textových dat po síti.
To také obsahuje implementaci a nejlepší praxi v podobě nástroj pro příkazovou řádku, který umožňuje třídění a transformaci rozsáhlé sbírky dokumentů na základě jejich kódové stránky.
Dostupné strategie zahrnují: jchardet (vyloučení, frekvenční analýzy, a hádání), detekce HTML charset majetku, a detekci prohlášení kódování XML.
Co je kód stránky?
Zpočátku, textové dokument není nic jiného než sekvence bitů. Počítač musí rozhodnout, jak se může zobrazit tato data ve formě znaků (které jsou označeny v počítači jako čísla).
Kód stránky - který je také známý jako kódování charset - mapuje syrové údaje o textových dokumentu znaků. Původní ASCII kód stránky například používá pouze 7 bitů s oktet (byte) pro rozhodování o znak, který je reprezentován tak dovolit pouze zmapovat 128 různých znaků. V minulosti paměti byla drahá a počítače nejčastěji měl jen registry a autobusy pro 8 bitů.
Když byl mainframe koncipována to muselo být rozhodnuto, které znaky by měla podporovat. Lékaři a matematici například potřeba speciální znaky pro rovnice. V důsledku toho, počítač často dodáván se speciálním kódové
Co je nového v této verzi:.
- Tato významná opravami chyb verze opravuje dvě čísla v režimu příkazového řádku dávky.
- Přepínač pro přeskočení pohyblivých nezjištěné dokumenty nyní pracuje znovu.
- bude Žádný pokus převést nezjištěné dokumenty (poslední způsobil výjimečný tok programu).
Co je nového ve verzi 1.0.8:
- Tato verze je vydání stability a opravuje byte objednat detekci značek a nekompatibilitu s OpenJDK. To také vyžaduje Javu 1.5 teď.
Komentáře nebyl nalezen