Apache Tika

Software screenshot:
Apache Tika
Podrobnosti Software:
Verze: 1.9 Aktualizováno
Datum uploadu: 20 Jul 15
Licence: Volný
Popularita: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika byl vyvinut jako soubor nástrojů nízkoúrovňové pro vyhledávání obsahu uvnitř jiných souborů.
Tika nedělá moc sama o sobě, že je jednoduchá knihovna, ale to může být integrován do více výkonných nástrojů, jako jsou vyhledávače, systémů správy digitálních aktiv nebo CMS, aby plně funkční in-hledání souborů systému.
Knihovna může přistupovat záhlaví jen souboru pro rychlý celkové informace o souborech, nebo to může jít opravdu hluboko a hledat dokonce v těle souboru pro různé typy dat, v textu nebo binárním formátu.
Široká škála typů souborů jsou podporovány a Tika může být také použit s dalšími programovacími jazyky díky sérii vázání a obalů třetích stran.

Co je nového v této verzi :

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR analyzátor; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.8:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.7:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.6:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Překlad API, více podporovaných formátů a celkové zlepšení Tika stability.

Co je nového ve verzi 1.5:.

  • Opravena chyba v manipulaci s vložené zpracování souborů ve formátu PDF
  • Přidáno SourceCodeParser pro podporu java, Groovy, C ++ soubory.
  • Aktualizováno Tika Server podporuje multipart / form-data užitečné náklady.
  • Aktualizováno Tika Server CXF 2.7.8.
  • Aktualizováno Tika Server přijímat žádosti více než zástupných adres.
  • přidána volba použít alternativní NonSequentialPDFParser.
  • Obsah z PDF AcroForms je nyní extrahuje.
  • Pevné neplatné hvězdičky z předlohy snímků ve formátu PPT.
  • Přidána testovací případy pro potvrzení manipulaci s auto-data ve formátu PPT a PPTX.

Co je nového ve verzi 1.4:

  • Odstraněno soubor zkouška HTML s špatně zvoleného textu GPL v za to.
  • Zlepšení Tika-server, aby mohl vyrábět text / html a text / obsah XML.
  • Zlepšení byla dělána do kompresoru analyzátor zpracovávat g'zipped soubory, které vyžadují možnost decompressConcatenated nastavena na hodnotu true.
  • oslovil typografickou chybu, která se brání z detekce awk souborů.

Co je nového ve verzi 1.2:

  • Apache Tika 1.2 obsahuje řadu vylepšení a oprav.

Co je nového ve verzi 1.0:

  • Apache Tika 1.0 obsahuje řadu vylepšení a oprav.

Co je nového ve verzi 0.9:.

  • Tato verze obsahuje několik důležitých oprav chyb a nové funkce

Co je nového ve verzi 0.8:

  • identifikace Jazyk je nyní dynamicky konfigurovat, spravovat prostřednictvím konfiguračního souboru načten ze classpath.
  • Tika nyní podporuje parsování RSS obalením fundamentální Řím knihovnu.
  • Rychlý start průvodce pro Tika analýzu přispěl.
  • Přístup k instalatérské přes atributy XHTML byl přidán.
  • Typ média hierarchie informace jsou nyní brány v úvahu při výběru nejlepšího analyzátor pro daný vstupní dokumentu.
  • Podpora pro analýzu společných vědeckých datové formáty včetně netCDF a HDF4 / 5 byl přidán.
  • Unit testy pro Windows byly opraveny, což umožňuje TestParsers dokončit.

Co je nového ve verzi 0.7:

  • soubor MP3 analýze se zlepšila, včetně těžby Channel a vzorkovací a Podpora ID3v2. Dále, detekce audio parsování mime Zlepšilo se i na MIDI formátu.
  • Tika již spoléhá na X11 pro jeho funkčnost RTF rozebrat.
  • A Thread-safe chyba v AutoDetectParser byl objeven a řešit.
  • Upgrade na PDFBox 1.0.0. Nová verze vylepšuje PDFBox PDF rozebrat výkon a opravuje řadu otázek těžby textu.

Požadavky na

  • Java 6 nebo vyšší

Podobný software

OpenPOP.NET
OpenPOP.NET

21 Jul 15

Peppy
Peppy

6 Jun 15

Commander
Commander

12 Apr 15

Ostatní software developer Apache Software Foundation

Apache Stanbol
Apache Stanbol

13 Apr 15

Apache Bigtop
Apache Bigtop

12 Mar 16

Komentáře k Apache Tika

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!
Vyhledávání podle kategorie