Apache Nutch

Software screenshot:
Apache Nutch
Podrobnosti Software:
Verze: 2.3 Aktualizováno
Datum uploadu: 17 Jul 15
Vývojka: Sami Siren
Licence: Volný
Popularita: 1

Rating: 1.0/5 (Total Votes: 2)

Projekt Apache Nutch je open source, škálovatelné, vysoce rozšiřitelné a volný Web-based web crawler software, který staví na Apache Lucene (Java verze) knihovny.
Dodává webové specifika, například crawler, databáze link-graf, analyzátory pro HTML a jiné formáty dokumentů, atd Je vyvíjen a distribuován společností Apache Nadace by dvě oddělené větve.
Být modulární a připojitelný, Apache Nutch má své výhody, poskytnutím roztahovací rozhraní jako Parse, Index a ScoringFilter pro vlastní implementace, jako je Apache Tika pro analýzu.
Kromě toho, Apache Nutch je určen ke spuštění na jednom počítači, ale je to silnější, když běží v clusteru Hadoop. Zásuvné indexování existuje pro Elastické vyhledávání, Apache Solr, etc

Co je nového v této verzi:.

  • NUTCH-1.779 Použít formátování kódu (lewismc)
  • NUTCH-1907 Nesprávný výstup outlinks k hostitelům v rámci HostDbUpdateReducer (lewismc)
  • NUTCH-1.856 Dokument webpage.avsc a host.avsc (lewismc)
  • NUTCH-1834 GeneratorMapper chování závisí na úrovni protokolu (Gerhard Gossen přes snagel)
  • NUTCH-1899 Upgrade restlet lib aby nedošlo k selhání stavby (Talat)
  • NUTCH-1797 odstranit nepoužívané balíček oanhtml (Saurabh Chhajed přes snagel)
  • NUTCH-1888 Určete HTMLMapper k použití v TikaParser (Halil Simsek přes jnioche)
  • NUTCH-1.897 Snazší ladění chyb plugin XML (Markus)
  • NUTCH-1823 Upgrade ElasticSearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • NUTCH-1829 Generátor: nelze rozlišit skutečné chyby (Mathieu Bouchard, jnioche, snagel)
  • NUTCH-1778 Generátor není přihlášení počet adres URL v dávce správně (jnioche přes snagel)
  • NUTCH-1.877 Přípona URL filtr ignorovat řetězec dotazu ve výchozím nastavení (Markus přes snagel)
  • NUTCH-1.825-protokol HTTP může přestat reagovat na určité webové stránky (Phu Kieu přes snagel)
  • NUTCH-1.483 Nelze procházet souborový systém s protokolem souboru plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • NUTCH-1.885 protokol-file měli zacházet symbolické odkazy jako přesměrování (Mengying Wang, snagel)
  • NUTCH-1.880 URLUtil neměli přidávat další lomítek pro URL dokumentu (snagel)
  • NUTCH-1879 Regex URL normalizer by odebrat více lomítka po file: protokolu (snagel)
  • NUTCH-1.820 remove pole & quot; orig & quot; který duplikuje & quot; id & quot; (lewismc, snagel)
  • NUTCH-1843 Upgrade Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
  • NUTCH-1.883 bin / procházení: použijte funkci spustit bin / nutch a výstupní kontrole hodnoty (snagel)
  • NUTCH-1882 ant zatmění cíl přidat výstupní cestu do src / test (snagel)
  • NUTCH-1.827 Port NUTCH-1467 a NUTCH-1.561 na 2.x (snagel)
  • NUTCH-1.876 Upgrade Pásová Commons 0.5 (jnioche)
  • NUTCH-1.866 ant zatmění cíl by měl nelze odstranit runtime (nimafl přes lewismc)
  • NUTCH-1.859 Udělej Nutch webapp přístavní konfigurovatelný (Nima Falaki přes lewismc)
  • NUTCH-1848 Chyba v DashboardPage.html instancí přepážce (Nima Falaki přes lewismc)
  • NUTCH-841 Vytvoření branka na bázi webové aplikace pro Nutch (Fjodor Veršinin přes lewismc)
  • NUTCH-1.832 Udělej Nutch práci bez indexeru (mattmann přes lewismc)
  • NUTCH-1840 popisují funkce v SolrIndexWriter není správné (Kaveh minooie přes jnioche)
  • NUTCH-1837 Upgrade Tika 1.6 (lewismc)
  • NUTCH-1829 Generátor: nelze rozlišit skutečné chyby (Mathieu Bouchard přes jnioche)
  • NUTCH-1828 bin / procházení: nesprávná manipulace s nutch chyb (Mathieu Bouchard přes jnioche)
  • NUTCH-1.693 TextMD5Signature vypočítat na textový obsah (Tien Nguyen Manh, Markus přes snagel)
  • NUTCH-1409, odstraňte také zastaralý vlastnosti dB. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle přes snagel)
  • NUTCH-1.819 batchId v GeneratorJob (Fjodor Veršinin přes lewismc)
  • NUTCH-1.708 použití stejné id při indexování a mazání přesměrování (snagel)
  • NUTCH-1.817 Odebrat pom.xml ze zdroje (jnioche)
  • NUTCH-1811 bin / nutch JUnit používat JUnit 4 testovací běžec (snagel)
  • NUTCH-1.776 cesta Log nesprávný souboru plugin.folder (Diaa přes snagel)
  • NUTCH-1566 bin / nutch aby mezery v cestách (tejasp, snagel)
  • NUTCH-1605 Detektor typu MIME uznává XLSX jako ZIP soubor (snagel)
  • NUTCH-385 Zlepšit popis konfigurace související závitu pro Fetcher (jnioche, Lufeng)
  • NUTCH-1.798 Crawl skript nevoláte příkaz index správně (Aaron Bedward přes jnioche)
  • NUTCH-1.769 REST API refactoring (Fjodor Vershinin přes lewismc)
  • NUTCH-1.633 slf4j je poskytována Hadoop a neměla by být zahrnuta do souboru úlohy (Kaveh minooie přes jnioche)
  • NUTCH-1.787 aktualizace a kompletní přehled API doc strana (snagel)
  • NUTCH-1.767 z nich bylo zvláštní zacházení s & quot; params & quot; v relativních odkazů (snagel)
  • NUTCH-1718 předefinovat http.robots.agent jako & quot; dalších jmen agentů & quot; (snagel, Tejas Patil, Daniel Kugel)
  • NUTCH-1.796 Starat Gora objektů stavitelé se používají, oproti prázdné konstruktorům (snagel přes lewismc)
  • NUTCH-1.590 [SECURITY] Frame injekce zranitelnosti v publikované dokumentaci Javadoc (jnioche)
  • NUTCH-1736 nelze načíst stránku, pokud HTTP hlavičky odpovědi obsahuje přenos kódování: blokového (YSC přes jnioche)
  • NUTCH-1782 NodeWalker vrátit aktuální uzel (Markus)
  • NUTCH-1781 Aktualizace gora - * - mapping.xml a gora.proeprties odrážet Gora 0,4 (lewismc)
  • NUTCH-1768 Upgrade ElasticSearch 1.1.0 (jnioche)
  • NUTCH-1634 readdb -stats ukazuje výsledek dvakrát (Kaveh minooie přes jnioche)
  • NUTCH-1.780 ttl a gc_grace_seconds atributy chybí Gora-Cassandra-mapping.xml souboru (Kaveh minooie přes lewismc)
  • NUTCH-1676 Přidat rudimentární podporu SSL pro protokol HTTP (jnioche, Markus)
  • NUTCH-1.674 použijte batchId filtr umožní skenování (GORA-119) pro Fetch, Parse, aktualizace, Index (Tien Nguyen Manh a Alparslan Avci přes jnioche)
  • NUTCH-1.714 Upgrade Gora 0,4 (Alparslan Avci přes jnioche)
  • NUTCH-1.752 pravidla Cache robots.txt podle protokolu: hostitel: port (snagel)
  • NUTCH-1.613 Časové limity protokolu-httpclient při procházení stejného hostitele s & gt; 2 závity (brian44 přes jnioche)
  • NUTCH-1182 sluha přihlásit Hung nitě (snagel)
  • NUTCH-1.618 Vypněte spekulativní provádění off pro načítání (Talat)
  • NUTCH-1657 ORIGINAL_CHAR_ENCODING a CHAR_ENCODING_FOR_CONVERSION nikdy nastavit HTMLParser (Talat)
  • NUTCH-1725 CleaningJob je redukční nezavazuje smazané dokumenty. (ilhamikalkan přes Talat)
  • NUTCH-1.728 indexer-Solr plugin není vymazat dokumenty ze Solr (ilhamikalkan přes Talat)
  • NUTCH-1753 Eclipse dependecy problém pro 2.x (Talat)
  • NUTCH-1720 Duplicitní linky v HttpBase.java (Walter Tietze přes jnioche)
  • NUTCH-797 URL neodpovídá požadavkům, pokud cíl odkazu začíná s & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab via snagel)
  • NUTCH-1759 Upgrade Pásová Commons 0.4 (jnioche)
  • NUTCH-1.700 Odebrat zastaralý kód v src / plugin / CreativeCommons / build.xml (lewismc)
  • NUTCH-1.761 Crawl skript nepodaří najít soubor pracovních míst, pokud nebyla zahájena zevnitř bin dir (David Hosking, jnioche)
  • NUTCH-1.603 ZIP parser si stěžuje na zkrácený soubor ve formátu PDF (snagel přes lewismc)
  • NUTCH-1.743 parsechecker ukázat outlinks (snagel)
  • NUTCH-1732 Lepší cmd linka parsování pro NutchServer (Fjodor Veršinin přes lewismc)
  • NUTCH-1751 Prázdné kotvy neměli index (Sertac Turkel přes lewismc)
  • NUTCH-1733 parse-html na podporu HTML5 definice charset (snagel)
  • NUTCH-1727 Konfigurovatelný délka pro TLD (Sertac Turkel přes lewismc)
  • NUTCH-1.738 Expose počet adres URL generovaných na dávky v GeneratorJob (Talat UYARER přes ewismc)
  • NUTCH-1.671 indexchecker přidat stravitelné pole (snagel, Lufeng)
  • NUTCH-1.645 JUnit test případ pro adaptivní Fetch Třiďte plán (Yasin Kilinc, Lufeng, Sertac Urkel via snagel)
  • NUTCH-1478 Parse-metatagů a index-metadata plugin pro Nutch 2.x série (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis via lewismc)
  • NUTCH-1.729 Upgrade Tika 1.5 (jnioche)
  • NUTCH-1721 Upgrade na Pásový společný 0.3 (tejasp)
  • NUTCH-1.719 DomainStatistics selhává v 2.x, protože adresa URL není nereversním (Gerhard Gossen přes lewismc)
  • NUTCH-1253 nekompatibilní Neko a Xerces verze (snagel, lewismc, Talat UYARER)
  • NUTCH-1715 RobotRulesParser přidává další '*' na jméno robotů (tejasp)
  • NUTCH-356 Plugin úložiště mezipaměti může vést k nevracení paměti (Enrico Triolo, Dogacan Guney via Markus)
  • NUTCH-1.164 Write JUnit testy pro protokol HTTP (Sertac Turkel přes tejasp)
  • NUTCH-1.710 Add Gora protokolování balíček log4j.properties (lewismc)
  • NUTCH-1.655 Indexer Plugin pro elastické Search (Talat UYARER přes lewismc)
  • NUTCH-1699 Tika analyzátor - Obrázek Parse Bug (Mehmet Zahid Yuzuguldu, snagel via lewismc)
  • NUTCH-1.568 portů zásuvné indexování architektury na 2.x (Talat UYARER přes lewismc)
  • NUTCH-1672 inlinks se přidají dvakrát DbUpdateReducer (Tien Nguyen Manh přes lewismc)
  • NUTCH-1667 updatedb vždy ignorovat batchId (Tien Nguyen Manh přes lewismc)
  • NUTCH-1.695 NutchDocument.toString () (Markus přes lewismc)
  • NUTCH-1696 Povolit použití (Gora) SNAPSHOT závislosti (lewismc)
  • NUTCH-1681 V URLUtil.java, metoda toUNICODE nefunguje správně (A

Komentáře k Apache Nutch

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!