Scrappy je napsán 100% v Pythonu a může být použita pro jednoduché dolování dat, monitorování stránek, webové vyhledávače, a dokonce i pro testování kódu.
Scrapy není vyhledávač v pravém slova smyslu, ale to se chová jako jeden (bez indexovací částečně). Přesto Scrapy může být skvělý nástroj pro tvorbu vašeho logiku vyhledávač na.
Skutečná síla tohoto rámce spočívá v jeho jádru je všestrannost, Scrapy být systém, na kterém je možné budovat obecné nebo specializované vyhledávání pavouky (prolézací moduly) na.
I když to může znít velmi komplikované netechnické uživatele, s rychlým pohledem přes dokumentaci a jsou k dispozici tutoriály, je to docela jednoduché, jak Scrapy podařilo uzavřít všechny hard-práci, z toho a snížit celý proces jen pár řádků kódu (pro snadnější, menší Prolézací)
Co je nového v této verzi:.
- konec citátu žádost o trasu před předáním do FTPClient, již únikové cesty.
- Zahrnout testy / ke zdroji distribuce v MANIFEST.in.
Co je nového ve verzi 1.0.1:
- konec citátu žádost o trasu před předáním do FTPClient, již únikové cesty.
- Zahrnout testy / ke zdroji distribuce v MANIFEST.in.
Co je nového ve verzi 0.24.6:
- Přidat UTF8 kódování záhlaví šablony
- Konzola programu Telnet se váže na 127.0.0.1 ve výchozím nastavení
- Aktualizace debian / ubuntu nainstalovat návod
- Zakázat inteligentní řetězce v hodnocení LXML XPath
- Obnovit souborového systému vyrovnávací paměti založené jako výchozí pro HTTP cache middleware
- Expose aktuální prolézací v Scrapy skořápce
- Zlepšit testsuite srovnávající CSV a XML vývozce
- Nový offsite / filtrována a offsite / domén Statistiky
- Podpora process_links jako generátor v CrawlSpider
Co je nového ve verzi 0.24.5:
- Přidat UTF8 kódování záhlaví šablony
- Konzola programu Telnet se váže na 127.0.0.1 ve výchozím nastavení
- Aktualizace debian / ubuntu nainstalovat návod
- Zakázat inteligentní řetězce v hodnocení LXML XPath
- Obnovit souborového systému vyrovnávací paměti založené jako výchozí pro HTTP cache middleware
- Expose aktuální prolézací v Scrapy skořápce
- Zlepšit testsuite srovnávající CSV a XML vývozce
- Nový offsite / filtrována a offsite / domén Statistiky
- Podpora process_links jako generátor v CrawlSpider
Co je nového ve verzi 0.22.0:
- Přejmenovat scrapy.spider.BaseSpider na scrapy.spider .Spider
- Podporovat úvodní informace týkající se nastavení a middleware na úrovni INFO
- Podpora partials v get_func_args util
- Povolit běží indiviual testy přes tox
- rozšíření Aktualizovat ignorovány odkazů odsavačů
- Voliče zaregistrovat EXSLT jmenné prostory ve výchozím nastavení
- Sloučit položka nakladače podobné selektory přejmenování
- Zkontrolujte, RFPDupeFilter třída snadno subclassable
- Zlepšit test pokrytí a budoucí Python 3 podpora
Co je nového ve verzi 0.20.1:
- include_package_data je nezbytné k vytvoření kola z publikovaných zdrojů.
Co je nového ve verzi 0.18.4:.
- Pevná AlreadyCalledError výměně požádají příkaz shellu
- Pevná start_requests lazyness a brzy přestane reagovat.
Co je nového ve verzi 0.18.1:.
- Odstraněno navíc import přidal třešní vybral změny
- Pevná plazit zkoušek podle zkroucené před 11.0.0.
- py26 Nelze naformátovat nulovou délku pole {}.
- Testovat PotentiaDataLoss chyby na nevázaných odpovědí.
- Dopřejte odpovědí bez obsahu délky nebo Transfer-Encoding tak dobré odpovědi.
- Má žádný patří ResponseFailed pokud http11 handler není povoleno.
Požadavky na
- Python 2.7 nebo novější
- Twisted 2.5.0 nebo novější
- libxml2 02.6.28 nebo vyšší,
- pyOpenSSL
Komentáře nebyl nalezen