PDFTextStream

Software screenshot:
PDFTextStream
Podrobnosti Software:
Verze: 2.6.0
Datum uploadu: 20 Feb 15
Licence: Shareware
Cena: 1900.00 $
Popularita: 2

Rating: nan/5 (Total Votes: 0)

Projekt PDFTextStream je text PDF a metadata extrakce knihovna k dispozici pro Java, Python a .NET.
Podporuje všechny verze specifikace PDF dokumentu (včetně v1.6, používané Acrobat 7), extrakce textu kódovány pomocí double-byte znakové sady (včetně čínštiny, japonštiny, a korejský), dešifrování 40-bit a 128, bit šifrované dokumenty a těžba všech metadat dokumentů poskytnutých dokumentů ve formátu PDF (včetně formulářů dat, záložky a poznámky).
Snadná integrace s Jakarta Lucene je součástí

Co je nového v této verzi:.

  • Tato verze obsahuje řadu oprav vyrobený aby bylo zajištěno PDFTextStream je schopen extrahování textu z PDF dokumentů, které jsou neodpovídající specifikaci PDF.
  • Obsahuje také celou řadu vylepšení výkonu.

Co je nového ve verzi 2.3.0:

  • Přidána metodu .isStruckThrough () na com. snowtide.pdf.TextUnit, uvede, zda postava má přeškrtnutí natažený přes něj.
  • Vylepšená podpora PDFTextStream pro vestavěné znakové mapování.
  • Výpočet mezery mezi slovy byla stanovena správně účet pro mezery, které je výslovně zakódované ve zdrojových dokumentech PDF.
  • Lepší PDFTextStream a nakládání s nimi z kompozitních obsahu kódování, který předtím by nemusely končit v některých rozsahu obsahu PDF je "ignorovat" při extrakci.
  • Opravena chyba v VisualOutputTarget kde text z jedné lince bude rozdělen na více řádků
  • Lepší vertikální zarovnání textu extrahuje pomocí VisualOutputTarget
  • Vylepšené VisualOutputTarget vyráběné výňatky k eliminaci rušivého další mezery mezi úzce sousedními slov

Co je nového ve verzi 2.2.5:

  • Tato verze přidává podporu pro extrakci Xfa data formulářů as XML.
  • Je to výrazně zlepšuje výkon extrakce textu pomocí VisualOutputTarget. Podpora pro PDF dokumenty větší než 2 GB.
  • Oprava chyby, kdy byly kódování z vložených Type1 dosud nebyly řádně uplatňovány v některých případech.
  • Oprava problému, kdy novější obsah aktualizovaných dokumentech PDF byl někdy se neberou v úvahu.
  • Oprava problému, kdy PDFDocEncoding kódované záložky a metadata nebyli správně dekódovat.
  • .getDestinationName () metoda com.snowtide.pdf.Bookmark.

Požadavky na :

  • Apache Lucene

Komentáře k PDFTextStream

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!