Apache Nutch byl postaven na vrcholu Apache Lucene , výkonný Java vyhledávač.
Vývojáři Nutch upravil Lucene codebase, transformace dat, agnostik Lucene codebase do projektu věnovaného pro vyhledávání údajů na webu specificky.
Tato technologie může být použita pro vyhledávání na vlastních webových stránkách, jako vestavěné vyhledávací server, nebo procházení webu hledá pro data analyzovat a škrábat do databáze.
Nutch může běžet na jednom počítači, ale funguje lépe v Hadoop seskupení.
Různé pluginy jsou k dispozici pro rozšíření využití spektra
Co je nového v této verzi:.
- Ujistěte se, duplicitní značky neexistují v Mikroformát-reltag tagů.
- lepší ustoupit hodnotu pro pole datum.
- Zbavte se obávaný.
- upgrade na Hadoop 1.2.0.
- upgrade na Tika 1.3.
Co je nového ve verzi 2.0:.
- přejmenováno HTMLParseFilter do ParseFilter
- Zbytky roboty / IP blokování kód lib-http.
- logging Port na slf4j.
- Externí parser podporuje atribut kódování.
- nastavení konfigurace Ivy nezahrnují Gora.
- Injector měli přidat metadata před voláním injectedScore.
- Port Nutch měřítko pro Nutchbase.
- Přidat derivační-html zpět.
- MoreIndexingFilter chybí formát data.
- Timeout pro parseru.
- Opakovat interval v termínu procházení je nastavena na hodnotu 0.
- Generování výstup protokolu pro Solr indexovací a dedup.
- Lepší NutchConfiguration.
- SolrDeleteDuplicates musí klonovat objekty SolrRecord.
- Nativní Hadoop libs není k dispozici prostřednictvím Maven.
- oddělit prostředí sestavení a běhu.
Co je nového ve verzi 1.5:
- Tato verze obsahuje několik vylepšení, včetně modernizace několika hlavních složek, včetně Tika 1.1 a Hadoop 1.0.0, vylepšení LinkRank a WebGraph prvky, stejně jako řada nových pluginů pokrývat černé listiny, filtrování a analýza abychom jmenovali alespoň některé.
Co je nového ve verzi 1.4:.
- Added Solr 4x (trunk) příklad schématu
- Přidáno '/ runtime "na svn ignorovat.
- Application / xhtml + xml by měla být povolena v plugin.xml z Parse-html; povolit více MIME typů pro plugin.xml.
- Pevná analyzuje-Tika a analyzovat, html používat relativní rozlišení URL za RFC-3986.
- Modernizované na Tika 0.10. POZNÁMKA:. Tika nový RTF parser může ignorovat další text v poškozených dokumentů, než dříve - viz Tika-748 podrobnosti
- Added Sonar cíle ANT build.xml.
- Modernizované SolrJ na verzi 3.4.0.
- Ant PMD cíl je rozbitá.
- Modernizované Solr schéma na verzi 1.4.
Co je nového ve verzi 1.3:
- Tato verze obsahuje několik vylepšení (vylepšená RSS rozebrat podporu těsnější Integrace s Apache Tika, vnější podpory rozebrat, lepší identifikace jazyka a řádově menší zdrojového vydání archiv -!. jen asi 2MB)
Co je nového ve verzi 1.2:.
- Make-index více plug-in nastavitelné
- konfigurovatelný protokol file nadřazený adresář plazení.
- Timeout pro parseru.
- Webové stránky jsou stále Lucene značkové.
- Opakovat interval v termínu procházení je nastavena na hodnotu 0.
Co je nového ve verzi 1.0:.
- Povolit analyzátory vrátit více analyzovat objektů
- Odstraněno redundantní commons-logging jar z ontologie plugin.
- Bug v SegmentReader způsobuje nekonečnou smyčku.
- Scoring filtr by měl distribuovat skóre všem outlinks najednou.
- Snižte počet varování v nutch jádru.
Komentáře nebyl nalezen