PDFMiner funguje tak, že nejprve vezme obsah souboru PDF a jeho převedením do více tvárné formátu, jako je HTML.
Odtamtud, textu a dat se extrahuje a analyzovány, a na základě definovaných pravidel oddělených a prezentovány uživateli nebo zaslané jiným silnější nástrojů pro analýzu dat.
Pokud analýza textu není to, co máte v úmyslu udělat, můžete snadno nastavit PDFMiner jednoduše vyjmout nebo jen převést data ve formátu PDF stejně.
Jeho funkce mohou pracovat odděleně od sebe navzájem a umožnit širší využívání rádiového spektra díky němu
Vlastnosti :.
- 100% Python kód, žádný C nebo C ++
- Parse PDF
- Analyzovat PDF
- Převést PDF do jiných formátů
- ToC extraktor
- Získat pouze označené obsah
- Podpora pro velké množství funkcí textu PDF
- Podpora pro velký počet typů písma uvnitř formátu PDF
- Základní šifrování (RC4) podpora
Co je nového v této verzi:
- metoda PDFDocument.initialize () je odstraněna a již není potřeba , Heslo je, stejně jako argument na PDFDocument konstruktoru.
Co je nového ve verzi 20110515:.
- změny API
- LTPolygon třída byla přejmenována jako LTCurve.
Co je nového ve verzi 20110227:.
- Opravy chyb a vylepšení analýzy rozložení
Co je nového ve verzi 20101226:.
- Pár oprav a drobných vylepšení
Co je nového ve verzi 20101017:.
- Pár oprav a menší vylepšení
Co je nového ve verzi 20100424:.
- Opravy chyb a drobné vylepšení na těžbu TOC
Požadavky na :
- Python 2.4 až 3
Omezení :.
- PDFMiner může být 20 krát pomalejší než C / C ++ - založený software
Komentáře nebyl nalezen