Apache Tika byl vyvinut jako soubor nástrojů nízkoúrovňové pro vyhledávání obsahu uvnitř jiných souborů.
Tika nedělá moc sama o sobě, že je jednoduchá knihovna, ale to může být integrován do více výkonných nástrojů, jako jsou vyhledávače, systémů správy digitálních aktiv nebo CMS, aby plně funkční in-hledání souborů systému.
Knihovna může přistupovat záhlaví jen souboru pro rychlý celkové informace o souborech, nebo to může jít opravdu hluboko a hledat dokonce v těle souboru pro různé typy dat, v textu nebo binárním formátu.
Široká škála typů souborů jsou podporovány a Tika může být také použit s dalšími programovacími jazyky díky sérii vázání a obalů třetích stran.
Co je nového v této verzi :
- Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR analyzátor; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.
Co je nového ve verzi 1.8:
- Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.
Co je nového ve verzi 1.7:
- Tato verze obsahuje opravy chyb a nové funkce, včetně nové Tesseract OCR Parser; nový GDAL parseru; více podporovaných formátů a celkové zlepšení v Tika stability.
Co je nového ve verzi 1.6:
- Tato verze obsahuje opravy chyb a nové funkce, včetně nové Překlad API, více podporovaných formátů a celkové zlepšení Tika stability.
Co je nového ve verzi 1.5:.
- Opravena chyba v manipulaci s vložené zpracování souborů ve formátu PDF
- Přidáno SourceCodeParser pro podporu java, Groovy, C ++ soubory.
- Aktualizováno Tika Server podporuje multipart / form-data užitečné náklady.
- Aktualizováno Tika Server CXF 2.7.8.
- Aktualizováno Tika Server přijímat žádosti více než zástupných adres.
- přidána volba použít alternativní NonSequentialPDFParser.
- Obsah z PDF AcroForms je nyní extrahuje.
- Pevné neplatné hvězdičky z předlohy snímků ve formátu PPT.
- Přidána testovací případy pro potvrzení manipulaci s auto-data ve formátu PPT a PPTX.
Co je nového ve verzi 1.4:
- Odstraněno soubor zkouška HTML s špatně zvoleného textu GPL v za to.
- Zlepšení Tika-server, aby mohl vyrábět text / html a text / obsah XML.
- Zlepšení byla dělána do kompresoru analyzátor zpracovávat g'zipped soubory, které vyžadují možnost decompressConcatenated nastavena na hodnotu true.
- oslovil typografickou chybu, která se brání z detekce awk souborů.
Co je nového ve verzi 1.2:
- Apache Tika 1.2 obsahuje řadu vylepšení a oprav.
Co je nového ve verzi 1.0:
- Apache Tika 1.0 obsahuje řadu vylepšení a oprav.
Co je nového ve verzi 0.9:.
- Tato verze obsahuje několik důležitých oprav chyb a nové funkce
Co je nového ve verzi 0.8:
- identifikace Jazyk je nyní dynamicky konfigurovat, spravovat prostřednictvím konfiguračního souboru načten ze classpath.
- Tika nyní podporuje parsování RSS obalením fundamentální Řím knihovnu.
- Rychlý start průvodce pro Tika analýzu přispěl.
- Přístup k instalatérské přes atributy XHTML byl přidán.
- Typ média hierarchie informace jsou nyní brány v úvahu při výběru nejlepšího analyzátor pro daný vstupní dokumentu.
- Podpora pro analýzu společných vědeckých datové formáty včetně netCDF a HDF4 / 5 byl přidán.
- Unit testy pro Windows byly opraveny, což umožňuje TestParsers dokončit.
Co je nového ve verzi 0.7:
- soubor MP3 analýze se zlepšila, včetně těžby Channel a vzorkovací a Podpora ID3v2. Dále, detekce audio parsování mime Zlepšilo se i na MIDI formátu.
- Tika již spoléhá na X11 pro jeho funkčnost RTF rozebrat.
- A Thread-safe chyba v AutoDetectParser byl objeven a řešit.
- Upgrade na PDFBox 1.0.0. Nová verze vylepšuje PDFBox PDF rozebrat výkon a opravuje řadu otázek těžby textu.
Požadavky na
- Java 6 nebo vyšší
Komentáře nebyl nalezen