Podrobnosti Software:
Může být použit v písemné formě aktivní prolézací moduly (pavouci), které důl webových stránek pro různé informace.
PHPCrawl získává informace, které byly zadány na načtení a střílí na výkonnější aplikace pro další zpracování
Vlastnosti :.
- Filtry URL a Content-Type data li>
- Definovat způsoby zpracování cookies,
- Definovat způsoby zpracování souborů robots.txt
- Omezte svou činnost různými způsoby,
- Multi-zpracování
Režimy
Co je nového v této verzi:
- Opraveny chyby:
- Odkazy, které jsou částečně urlencoded a částečně nedostanou rekonstrukce / už zakódováno správně.
- Odstraněna zbytečná debug var_dump () z PHPCrawlerRobotsTxtParser.class.php
- Server-name-indikace v TLS / SSL funguje správně nyní.
- & quot; base-href & quot;. -tags Ve dostat webové stránky správně interpretovat nyní opět
Co je nového ve verzi 0.80 beta:
- Kód byl kompletně přepracován, portován na PHP5, OO- kód a spousta kódu byla přepsána.
- Přidána Možnost využití více procesů, aby pavouk webové stránky. Method & quot; goMultiProcessed () & quot; dodává.
- New overridable metoda & quot; initChildProcess () & quot; přidal k zahájení dětských procesů při použití prolézací v multi-procesu režimu.
- Implementet alternativu, vnitřní SQLite caching-mechanismus pro URL, aby bylo možné pavouk velmi velké webové stránky.
- Method & quot; setUrlCacheType () & quot; dodává.
- Nová metoda setWorkingDirectory () přidá k definování umístění roboti dočasné pracovní adresář ručně. Nabizime metoda & quot; setTmpFile () & quot; je označen jako zastaralý (nemá žádnou funkci už).
- Nová metoda & quot; addContentTypeReceiveRule () & quot; nahradí stará metoda & quot; addReceiveContentType () & quot;.
- Funkce & quot; addReceiveContentType () & quot; je stále přítomen, ale byl označen jako zastaralý.
Požadavky na :
- PHP 5 a vyšší
- PHP s podporou OpenSSL
Komentáře nebyl nalezen