Apache Tika

Software screenshot:
Apache Tika
Podrobnosti Software:
Verze: 1.4
Datum uploadu: 20 Feb 15
Licence: Volný
Popularita: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika je open source nástrojů určen k detekci a extrahovat metadata, stejně jako strukturovaný textový obsah z několika dokumentů, pomocí nic, ale existující parser knihovny.
Apache Tika podporuje následující formáty dokumentů: HyperText Markup Language (HTTP), XML a odvozené formáty, formáty dokumentů Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), elektronické publikace formátu (EPF), Rich Text Format (RTF ), komprese a balení formáty, text / audio / image / video formáty, formát mbox a soubory Java třídy a archivy.
Dříve, Apache Tika byl sub-projekt softwarové knihovny Apache Lucene. Nyní je distribuován jako samostatný balíček od Apache Software Foundation

Co je nového v této verzi:.

  • Odebráno Test HTML soubor s špatně vybraného textu GPL v ní (TIKA-1129).
  • Zlepšení Tika-server, aby mohl vyrábět text / html a text / obsah XML (TIKA-1126, TIKA-1127).
  • Zlepšení byla dělána do kompresoru analyzátor zvládnout g'zipped soubory, které vyžadují možnost decompressConcatenated nastavena na hodnotu true (Tika-1096).
  • Určeno typografické chyby, která se brání z detekce awk souborů (TIKA-1081).
  • Přidán nový koncový bod na JAX-RS REST serveru Tika, že detekuje pouze média typu založený na malou část dokumentu předloženého (TIKA-1047).
  • RTF:. Objednané a neuspořádané seznamy jsou nyní extrahují (TIKA-1062)
  • MP3: délka Audio je nyní extrahuje (TIKA-991)
  • java .class soubory:. Upgrade z ASM 3.1 do ASM 4.1 pro parsování bytecodes Java (TIKA-1053)
  • Typy MIME: Definice rozšířena tak, aby případně zahrnout Link (URL) a infekce močových cest, spolu s detaily pro několik běžných formátů (TIKA-1012 / TIKA-1083)
  • Výjimky při analýze OLE10 vložené dokumenty, při analýze souhrnné informace z dokumentů Office, a když ukládání vložené documennts v TikaCLI jsou nyní zaznamenávány místo přerušování extrakce (TIKA-1074)
  • MS Word: linka tabulkový znak je nyní nahrazen nový řádek (TIKA-1128)
  • XML: ElementMetadataHandlers nyní volitelně přijímat duplicitní a prázdné hodnoty (TIKA-1133)
  • .

Požadavky na :

  • Java 2 Standard Edition Runtime Environment

Ostatní software developer The Apache Software Foundation

Apache Ant
Apache Ant

2 Sep 17

Apache Solr
Apache Solr

23 Jan 15

Apache Pig
Apache Pig

18 Jul 15

Apache Ambari
Apache Ambari

18 Jul 15

Komentáře k Apache Tika

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!