ASPseek

Software screenshot:
ASPseek
Podrobnosti Software:
Verze: 1.2.10
Datum uploadu: 3 Jun 15
Vývojka: SWsoft
Licence: Volný
Popularita: 4

Rating: nan/5 (Total Votes: 0)

ASPseek je software internetový vyhledávač vyvinutý SWsoft a licencován jako svobodný software pod licencí GNU GPL.
ASPseek skládá z indexování robota, vyhledávací démona, a CGI vyhledávací frontend. Může index tolik jako několik miliónů URL adres a hledání slov a frází, použít zástupné znaky, a to logickou vyhledávání. Výsledky vyhledávání mohou být omezena na dobu danou, web nebo webového prostoru (set lokalit) a seřazeny podle relevance (PageRank je použit), nebo datum.
ASPseek je optimalizován pro více stránek (závitové indexu, asynchronní vyhledávání DNS, seskupení výsledky stránky, webové prostory), ale může být použita pro vyhledávání jeden web stejně. ASPseek umí pracovat s více jazycích / kódování najednou (včetně vícebajtové kódování, jako je čínština) vzhledem k režimu pro ukládání Unicode. Mezi další funkce patří stopwords a ispell podporu, a charset a jazykovou Guesser, HTML šablon pro výsledky vyhledávání, výňatky, a výrazů zvýraznění.
ASPseek je napsán v C ++ pomocí knihovny STL, a využívá kombinaci SQL databáze a binárních souborů pro skladování.
Zde jsou některé klíčové rysy "ASPseek":
Schopnost indexu a hledání přes několik milionů dokumentů
 
· Pomocí ASPseek, můžete vytvořit databázi a prohledávat mnoha místech, a výsledky pro každý dotaz bude vrácena rychle, i když máte pár miliony dokumentů indexovány. Samozřejmě, že to závisí na hardware, takže nečekejte, že "staré dobré" i486 stroj zvládnout všechny stránky v doméně .com. Vše závisí na typu procesoru (y), paměť, rychlost disku atd Takže udělat si vlastní testy, než si koupit speciální hardware.
 
· Skutečnost, že ASPseek je optimalizován pro velké objemy by vás nezastaví používat ji hledat své vlastní stránky, která obsahuje několik stovek dokumentů - to funguje i tam.
 
Velmi dobrý relevance výsledků
 
· Účelem vyhledávače je najít to, co chce uživatel. Tam může být tisíce URL adres nalezených v důsledku vyhledávacího dotazu, ale vše, co může být irelevantní, takže uživatel bude nespokojeni.
 
· Výsledky výstup v ASPseek jsou řazeny podle relevance (nebo hodnost), ale hodnost výpočet není snadný úkol. Vývojáři se snažili jejich nejlepší začlenit největší a nejnovější techniky do motoru ASPseek při zachování dobrou rychlost vyhledávání.
 
Podpora ispell
 
· Pokud se ASPseek použit s ispell podporou, searchd (1) může volitelně najít všechny formy pro všechny uvedené slova (příklad: create -> Vytvořit nebo vytvořen nebo vytvoří). Tak, to vám umožní najít slovo ve všech různých formách.
 
Režim ukládání Unicode
 
· ASPseek mohou ukládat informace o dokumentech v Unicode, což umožňuje implementovat vyhledávání vícejazyčnou motor. Takže, můžete indexovat a prohledávat dokumenty v angličtině, ruštině a dokonce i čínské, vše v jedné databázi.
 
HTTP, HTTPS, HTTP proxy, FTP (přes proxy) protokoly
 
· Jak ASPseek je webový vyhledávač, používá protokol HTTP indexu stránek. ASPseek také podporuje zabezpečené https: // protokol. FTP protokol není podporován přímo, ale můžete použít server proxy (jako chobotnice) a index FTP přes proxy.
 
· ASPseek podporuje "základní autorizace" funkce HTTP, takže si můžete index oblasti chráněné heslem (například soukromé informace ve vašem intranetu).
 
Text / html a text / plain typy dokumentů podpora
 
· ASPseek může pochopit dokumenty napsané v HTML a textové dokumenty. Jedná se o nejoblíbenější formáty v Internetu.
 
· Jiné formáty, jako jsou PDF, RTF, atd, mohou být podporovány pomocí jakéhokoli externího programu / skriptu, který je schopen převést, že formáty do HTML nebo prostý text.
 
Multithreaded design, asynchronní DNS resolver etc
 
· ASPseek využívá POSIX vlákna, to znamená, že jeden proces mnoho podprocesů spuštěných paralelně. Takže index stažení dokumentů z mnoha míst, a hledání démon procesy mnoho vyhledávacích dotazů současně. To pomáhá nejen ASPseek dobře škálovat na SMP (víceprocesorových systémů), ale také zlepšuje rychlost indexování, protože v případě jednoho závitu bude nejvíce času bude vynaložena na čekat na data ze sítě.
 
· Jedna věc, která pomalý proces indexování dolů hodně je DNS vyhledávání (proces určování IP adresu pomocí název serveru). Aby nedocházelo ke zpoždění, asynchronní je vyhledávání (vyhledávání se provádí pomocí samostatných vyhrazených procesy) a IP adresa vyrovnávací paměti jsou implementovány.
 
Stopwords
 
· Stopwords jsou jen slova, která nemají žádný smysl samo o sobě. Příklady: je, jsou na tento. Vyhledávání na je k ničemu, takže taková slova jsou vyloučeny z vyhledávacího dotazu. Stopwords jsou také vyloučeny z databáze během indexování, takže databáze stává menší a rychlejší.
 
· Neexistuje žádný "Built-in" stopwords v ASPseek, oni jsou načteny při startu ze souborů. Mnoho stopword soubory pro různé jazyky přichází s ASPseek.
 
Charset guesse
 
· Některé rozbité nebo špatně nastaven servery neříkají klientům znakovou sadu, ve které poskytují obsah. Pokud jsou indexování takové servery, nebo pomocí ASPseek na index FTP serverům (FTP protokol ví nic o znakové sady), charset Guesser může být použit se s ní vyrovnat. Znaková sada Guesser využívá frekvenční tabulky slovo (tzv langmaps) k určení správné znakové sady.
 
Standardní vyloučení Robot (robots.txt) podpora
 
· ASPseek plně podporuje tento standard. Je určena pro autory webových stránek pro říkat robota (například index ASPseek (1)) přeskočit indexování některé adresáře svých stránkách.
 
· Pro další informace viz http://www.robotstxt.org/wc/robots.html
 
Nastavení pro řízení využití šířky pásma sítě a webové servery zatížení
 
· Můžete přesně kontrolovat šířku pásma sítě, které index (1) používá. Přesně tak, můžete omezit šířku pásma (vyjádřená v bajtech za sekundu), který používá indexem (1) pro daný time-of-day. Například, můžete omezit šířku pásma během pracovní doby, aby lidé ve vaší kanceláři nebude docházet pomalý internet.
 
· Můžete také nastavit minimální čas mezi dvěma dotazy na stejném serveru, takže to nebude přetížený a dostal se na kolena při spuštění index (1).
 
Real-time asynchronní indexování
 
· Některé vyhledávače vyžaduje, aby vyhledávání by mělo být zastaveno po dobu aktualizace databáze. ASPseek nepotřebuje, takže můžete hledat non-stop.
 
· Další říci, že je zvláštní režim indexování tzv indexování "real-time". Můžete ji použít pro malý počet dokumentů, a pokud takový dokument je stažen a zpracován, změny jsou okamžitě viditelné v vyhledávací rozhraní. Tato funkce je velká pomoc, pokud se staví vyhledávač pro stránky s rychle se měnící obsah, jako jsou on-line zpravodajství atd
 
· Všimněte si, že počet dokumentů, v "reálném čase" databáze je omezená. Je to o 1000 na našem hardware (vaše najetých kilometrů se mohou lišit), a tím více dokumentů, které jste v "reálném čase" databáze, pomalejší bude rychlost indexace do této (a jen této) databázi. To nebude mít vliv na rychlost vyhledávání ačkoli.
 
· Dokumenty z "real-time" databáze jsou přesunuty do normálního databázi po spuštění index (1) v normálním způsobem.
 
Řazení výsledků podle relevance nebo podle data
 
· Vyhledávače obvykle vrátí nejrelevantnější výsledky jako první. Ale pokud hledáte pro nejnovější stránek, můžete říct ASPseek třídit výsledky datum poslední změny, takže nedávno změněna (nebo vytvořené), stránky se zobrazí jako první.
 
Výňatky, výrazy upozorňovat
· Výňatek je kus nalezeného dokumentu se slovy hledali zvýrazněno, stačí poskytnout představu o tom, co je dokument o. Můžete přizpůsobit počet úryvků zobrazení a jejich délku. Pokud vyřadí úryvky, zobrazí se začátek dokumentu.
 
· Každý našel dokument je doprovázen s "mezipaměť" link. ASPseek udržuje místní komprimovanou kopii každého dokumentu zpracovaného, ​​takže uživatel může vidět celý dokument s (volitelně) zvýrazněna slova, která byla vyhledávaná, i když to bylo odstraněno z původního místa (to se občas stává).
 
Seskupení výsledků podle místa
 
· Výsledky jedné stránce mohou být seskupeny. Pokud seskupení podle míst je zapnutý, pouze dva výsledky jsou zobrazeny ze stejného místa ve výchozím nastavení a uživatel může vidět jiné stránky z stejném místě podle následujících "Další výsledky z ..." odkaz.
 
Klony
 
· Klony jsou stejné dokumenty, na různých místech. Oni jsou detekovány a seskupeny, takže uživatel nebude prezentovány s stránku plnou adresy URL do totožných dokumentů.
 
· Detekce Clone je obvykle omezen jedné stránce (SO totožných dokumentů z různých míst se nepočítají jako klony), ale můžete to změnit rekompilací ASPseek s --disable-klony-by-site možností.
 
Prostory a podmnožiny
 
· Prostor je sada stránek. Takže, pokud chcete poskytnout hledání zúžené do určité oblasti, můžete vytvořit prostor a hledat v rámci tohoto prostoru. Pouze celé lokality (např http://www.mysite.com/) mohou být zahrnuty do vesmíru.
 
· Podmnožiny mohou být také použity k omezení vyhledávání. Můžete vytvořit dílčí a dát URL masku (jako http://www.mysite.com/mydir/%), do toho, a pak omezit rozsah vyhledávání pouze na určité podmnožině.
 
· Můžete omezit obor hledání nejen jeden, ale více podskupin nebo mezer.
 
HTML šablony pro snadné-to-Vlastní výsledků vyhledávání
 
· Můžete si přizpůsobit své vyhledávání stránek, takže bude vypadat a být dokonale integrovány s ostatními vašeho webu. To se provádí pomocí jednoduchého střihu souboru hledání šablony.
Instalace
gzip dc aspseek-1.2.10.tar.gz | tar xf -
CD aspseek-1.2.10. / configure
dělat
su
make install

Ostatní software developer SWsoft

OpenVZ kernel
OpenVZ kernel

2 Jun 15

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Komentáře k ASPseek

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!