Methabot software je rychlost optimalizované, skriptovatelný a vysoce konfigurovatelný web, ftp a lokální souborový systém crawler. Podporuje Scripted filetype parsování, širokou škálu možností přizpůsobení a je snadno nakonfigurovat tak, aby se vešly anyones konkrétním potřebám.
S využitím systému modulu a skriptovacího jazyka, uživatelé jsou schopni převzít plnou nebo částečnou kontrolu procesu procházení a rozhodnout, avšak Methabot by měl ukládat webové údaje, statistiky a mnoho dalšího.
Jen spuštěním Methabot z příkazového řádku jste schopni konfigurovat uživatelské typy souborů, filtrování výrazy, chování, a ještě mnohem více, takže se nemusíte být scripter
Vlastnosti :
- Je to rychlé, od základu navržen a až s rychlostí-optimalizace v mysli.
- Scriptable přes JavaScript s E4X
- User-definované filtrování filetype (dle typu MIME, příponu nebo UMEX projevu)
- Multi-threaded
- Vysoce konfigurovatelný z příkazové řádky
- Extensible modulový systém, podporující vlastní datové analyzátory a filtry.
- Simple yet powerful filtrování adres URL prostřednictvím UMEX.
- Automatizované stahování
- Podpora pro automatickou správu souborů cookie, když běží přes HTTP
- Spolehlivý, odolný proti chybám sítě
- Přenosné, zkoušejí s úspěchem na 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP a Mac OS X. Měl by fungovat na téměř všech unixový operační systém.
Co je nového v této verzi:
- Oprava chyby, kdy byl použit externí pokukovat limit hloubka byla pokazil.
- Paměť vyčištění opravy
- dynamic-url je již nastavena na vyhledávání ve výchozím nastavení, protože to zpomaluje výrazně plazí
- Build systém nyní vytváří a instaluje některé hlavičkové soubory, které moduly lze použít při propojování
- přidal Metha-config nástroj
- lmm_mysql přemístěna mimo tohoto balíčku
Využití
Možnost
Co je nového ve verzi 1.5.0:
- Změny a nové funkce:
- Podpora pro čtení intial vyrovnávací paměti ze standardního vstupu
- - typ a --base-url možnosti příkazového řádku dodal, spolu s možností initial_filetype v konfiguračních souborech
- Cookies a info DNS je nyní správně sdílena mezi dělníky při běhu vícevláknové
- přidal některé příklad použití příkazů k --examples
- Velké zlepšení komunikace mezi závit, nyní rychlejší a více organizovaný
- Byla přidána podpora pro "init" funkcí pro skripty. Přečtěte si více o init funkcích na http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha nezamrzá, když děláte více souběžných požadavků HTTP HEAD ještě. Důvodem pro zamrzne byla chyba v libcurl který je nyní stanovena. Některá řešení byly přidány do libmetha, aby se zabránilo zamrzne z vyskytující při použití verze vada libcurl aswell.
- Podpora pro starší verze libcurl 7.17.x a 7.16.x
- Nové informace jsou k dispozici v & quot; tuto & quot; Předmětem javascript parserů, Content-Type a stavový přenos kódu. Čtěte více na http://bithack.se/projects/methabot/docs/e4x/this.html
- - verbose možnost nahradit --silent, protože upovídaný režim je nyní standardně
- počáteční podpora FTP plazení a možnost ftp_dir_url crawler
- pro omezení hloubky je nyní crawler specifická
- Přidána možnosti příkazového řádku --crawler a --filetype
- Podpora pro rozšíření a převažující již definované roboti a typy souborů
- Podpora pro kopírování klíčové slovo v konfiguračních souborech
- Podpora pro dynamicky přepínání aktivního crawler, to vám umožní procházet různé webové stránky ve zcela různými způsoby v jedné relaci procházení. Přečtěte si více o přepínání pásový na http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev verze upgrade na 3,51
- patří směrnice v konfiguračních souborech nyní zajišťuje, že součástí konfigurační soubor nebyl již byl načten, aby se zabránilo zahrnout-smyčky a více definic filetype / pásová.
- Různé SpiderMonkey sběr odpadků opravy, libmetha není krach už při čištění až po vícevláknového zasedání
- přidal některé další informace k --info možnost
- "externí" volba je nyní pevně stanovena a znovu povolen
- Nová volba --spread-pracovníků
- New libmetha API funkce lmetha_global_setopt () umožňuje mění globální chyba / zprávu / varování reportéra
- Přidána počáteční implementaci testovací sady pro vývojáře
- Lepší hlášení Chyba při načítání konfiguračních souborů
- Oprava chyby, kdy HTTP server nevrátil Content-Type hlavičku po požadavku HEAD
- Oprava chyby při řazení URL po žádosti o vícenásobná HTTP HEAD
- Oprava chyby v HTML XML Converter, když se stránka HTML nemá & lt; html & gt; tag
- Oprava chyby, možnost extless-url nefungovalo
- Oprava chyby, html na xml převodník již tlumivky na byte řádu známek nebo jiný text před skutečným HTML
- Oprava chyby, brání libmetha z pokusu o přístup k URL protokolů, které nejsou podporovány
- Oprava chyby při vypínání po chybě.
- Oprava chyby, unresolvable URL neporušila ven opakování smyčky po třech pokusů
- Velmi experimentální a nestabilní podpora Win32, určený především pro vývojáře
- Nové konfigurační soubory:
- google.conf, aby provádět vyhledávání Google
- youtube.conf, youtube vyhledávání
- meta.conf, tiskne meta informace, jako jsou klíčová slova a popis o HTML stránek
- title.conf, vytiskne titul HTML stránek
- ftp.conf, prolézání FTP servery
Co je nového ve verzi 1.4.1:
- Configure nemohla najít jsapi.h na některých systémech , mělo by to být nyní opravena.
- Konfigurační soubory jsou nyní schopni měnit pásová a filetype vlajky, přidal možnosti "externí" a "external_peek '
- Oprava chyby, Methabot by někdy dojít k selhání při čištění prázdných URL po opakovaném HTTP HEAD
- Opraven pád, ke kterým došlo při spuštění synchronně.
- Build systém zahrnovat opravu, když jsconfig.h se nepodařilo nalézt.
Požadavky na :
- SpiderMonkey hlavičky
- cURL
Komentáře nebyl nalezen