Apache Tika

Software screenshot:
Apache Tika
Podrobnosti Software:
Verze: 1.9 Aktualizováno
Datum uploadu: 20 Jul 15
Licence: Volný
Popularita: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika byl vyvinut jako soubor nástrojů nízkoúrovňové pro vyhledávání obsahu uvnitř jiných souborů.
Tika nedělá moc sama o sobě, že je jednoduchá knihovna, ale to může být integrován do více výkonných nástrojů, jako jsou vyhledávače, systémů správy digitálních aktiv nebo CMS, aby plně funkční in-hledání souborů systému.
Knihovna může přistupovat záhlaví jen souboru pro rychlý celkové informace o souborech, nebo to může jít opravdu hluboko a hledat dokonce v těle souboru pro různé typy dat, v textu nebo binárním formátu.
Široká škála typů souborů jsou podporovány a Tika může být také použit s dalšími programovacími jazyky díky sérii vázání a obalů třetích stran.

Co je nového v této verzi :

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR analyzátor; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.8:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.7:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.

Co je nového ve verzi 1.6:

  • Tato verze obsahuje opravy chyb a nové funkce, včetně nové Překlad API, více podporovaných formátů a celkové zlepšení Tika stability.

Co je nového ve verzi 1.5:.

  • Opravena chyba v manipulaci s vložené zpracování souborů ve formátu PDF
  • Přidáno SourceCodeParser pro podporu java, Groovy, C ++ soubory.
  • Aktualizováno Tika Server podporuje multipart / form-data užitečné náklady.
  • Aktualizováno Tika Server CXF 2.7.8.
  • Aktualizováno Tika Server přijímat žádosti více než zástupných adres.
  • přidána volba použít alternativní NonSequentialPDFParser.
  • Obsah z PDF AcroForms je nyní extrahuje.
  • Pevné neplatné hvězdičky z předlohy snímků ve formátu PPT.
  • Přidána testovací případy pro potvrzení manipulaci s auto-data ve formátu PPT a PPTX.

Co je nového ve verzi 1.4:

  • Odstraněno soubor zkouška HTML s špatně zvoleného textu GPL v za to.
  • Zlepšení Tika-server, aby mohl vyrábět text / html a text / obsah XML.
  • Zlepšení byla dělána do kompresoru analyzátor zpracovávat g'zipped soubory, které vyžadují možnost decompressConcatenated nastavena na hodnotu true.
  • oslovil typografickou chybu, která se brání z detekce awk souborů.

Co je nového ve verzi 1.2:

  • Apache Tika 1.2 obsahuje řadu vylepšení a oprav.

Co je nového ve verzi 1.0:

  • Apache Tika 1.0 obsahuje řadu vylepšení a oprav.

Co je nového ve verzi 0.9:.

  • Tato verze obsahuje několik důležitých oprav chyb a nové funkce

Co je nového ve verzi 0.8:

  • identifikace Jazyk je nyní dynamicky konfigurovat, spravovat prostřednictvím konfiguračního souboru načten ze classpath.
  • Tika nyní podporuje parsování RSS obalením fundamentální Řím knihovnu.
  • Rychlý start průvodce pro Tika analýzu přispěl.
  • Přístup k instalatérské přes atributy XHTML byl přidán.
  • Typ média hierarchie informace jsou nyní brány v úvahu při výběru nejlepšího analyzátor pro daný vstupní dokumentu.
  • Podpora pro analýzu společných vědeckých datové formáty včetně netCDF a HDF4 / 5 byl přidán.
  • Unit testy pro Windows byly opraveny, což umožňuje TestParsers dokončit.

Co je nového ve verzi 0.7:

  • soubor MP3 analýze se zlepšila, včetně těžby Channel a vzorkovací a Podpora ID3v2. Dále, detekce audio parsování mime Zlepšilo se i na MIDI formátu.
  • Tika již spoléhá na X11 pro jeho funkčnost RTF rozebrat.
  • A Thread-safe chyba v AutoDetectParser byl objeven a řešit.
  • Upgrade na PDFBox 1.0.0. Nová verze vylepšuje PDFBox PDF rozebrat výkon a opravuje řadu otázek těžby textu.

Požadavky na

  • Java 6 nebo vyšší

Podobný software

Argo
Argo

10 Dec 15

gameQuery
gameQuery

5 Jun 15

Apache Curator
Apache Curator

10 Feb 16

Sizzle
Sizzle

10 Feb 16

Ostatní software developer Apache Software Foundation

Apache Kafka
Apache Kafka

10 Dec 15

Apache Bigtop
Apache Bigtop

12 Mar 16

Apache OpenNLP
Apache OpenNLP

19 Jul 15

Apache Ivy
Apache Ivy

1 Mar 15

Komentáře k Apache Tika

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!
Vyhledávání podle kategorie