Podrobnosti Software:
Verze: 2.6.0
Datum uploadu: 20 Feb 15
Licence: Shareware
Cena: 1900.00 $
Popularita: 63
Projekt PDFTextStream je text PDF a metadata extrakce knihovna k dispozici pro Java, Python a .NET.
Podporuje všechny verze specifikace PDF dokumentu (včetně v1.6, používané Acrobat 7), extrakce textu kódovány pomocí double-byte znakové sady (včetně čínštiny, japonštiny, a korejský), dešifrování 40-bit a 128, bit šifrované dokumenty a těžba všech metadat dokumentů poskytnutých dokumentů ve formátu PDF (včetně formulářů dat, záložky a poznámky).
Snadná integrace s Jakarta Lucene je součástí
Co je nového v této verzi:.
- Tato verze obsahuje řadu oprav vyrobený aby bylo zajištěno PDFTextStream je schopen extrahování textu z PDF dokumentů, které jsou neodpovídající specifikaci PDF.
- Obsahuje také celou řadu vylepšení výkonu.
Co je nového ve verzi 2.3.0:
- Přidána metodu .isStruckThrough () na com. snowtide.pdf.TextUnit, uvede, zda postava má přeškrtnutí natažený přes něj.
- Vylepšená podpora PDFTextStream pro vestavěné znakové mapování.
- Výpočet mezery mezi slovy byla stanovena správně účet pro mezery, které je výslovně zakódované ve zdrojových dokumentech PDF.
- Lepší PDFTextStream a nakládání s nimi z kompozitních obsahu kódování, který předtím by nemusely končit v některých rozsahu obsahu PDF je "ignorovat" při extrakci.
- Opravena chyba v VisualOutputTarget kde text z jedné lince bude rozdělen na více řádků
- Lepší vertikální zarovnání textu extrahuje pomocí VisualOutputTarget
- Vylepšené VisualOutputTarget vyráběné výňatky k eliminaci rušivého další mezery mezi úzce sousedními slov
Co je nového ve verzi 2.2.5:
- Tato verze přidává podporu pro extrakci Xfa data formulářů as XML.
- Je to výrazně zlepšuje výkon extrakce textu pomocí VisualOutputTarget. Podpora pro PDF dokumenty větší než 2 GB.
- Oprava chyby, kdy byly kódování z vložených Type1 dosud nebyly řádně uplatňovány v některých případech.
- Oprava problému, kdy novější obsah aktualizovaných dokumentech PDF byl někdy se neberou v úvahu.
- Oprava problému, kdy PDFDocEncoding kódované záložky a metadata nebyli správně dekódovat.
- .getDestinationName () metoda com.snowtide.pdf.Bookmark.
Požadavky na :
- Apache Lucene
Komentáře nebyl nalezen