Velké údaje jsou marketingové výrazy, které zahrnují celou myšlenku data mined ze zdrojů, jako jsou vyhledávače, modely nakupování v obchodě s potravinami sledované prostřednictvím bodových karet apod. V moderním světě má internet tolik Zdroje dat, které většinou dělají jako nepoužitelné bez zpracování a zpracování, by zabralo neuvěřitelné množství času jedním serverem. Zadejte Apache Hadoop
Méně času na zpracování datVyužíváním architektury Hadoop k distribuci úloh zpracování na více strojích v síti jsou časové časy astronomicky sníženy a odpovědi lze určit v rozumné době. Apache Hadoop je rozdělen na dvě různé součásti: skladovací komponentu a komponentu pro zpracování. V nejjednodušších termínech Hapood dělá jeden virtuální server z více fyzických strojů . Ve skutečnosti spravuje Hadoop komunikaci mezi více zařízeními tak, aby spolu pracovali dostatečně těsně, aby se zdálo, že existuje pouze jeden stroj pracující na výpočtech. Data jsou distribuována na více strojích a budou uložena a Úlohy zpracování jsou přiděleny a koordinovány architekturou Hadoop
. Tento typ systému je požadavkem na konverzi prvotních dat na užitečné informace o stupnici velkých datových vstupů. Zvažte množství dat, která Google dostává každou sekundu od uživatelů, kteří zadávají žádosti o vyhledávání. Jako celkový počet dat byste nevěděli, kde začít, ale Hadoop automaticky snižuje sadu dat na menší, organizované podmnožiny dat a přiřazuje tyto spravovatelné podmnožiny konkrétním zdrojům. Všechny výsledky jsou pak hlášeny zpět a shromážděny do použitelných informací .
Snadno nastavitelný server
Přestože systém zní složitě, většina pohyblivých částí je za abstrakcí zakrytá. Nastavení serveru Hadoop je poměrně jednoduché , stačí nainstalovat součásti serveru do hardwaru, který splňuje systémové požadavky. Silnější část plánuje síť počítačů , že server Hadoop bude využívat k distribuci role ukládání a zpracování. To může zahrnovat nastavení lokální sítě nebo připojení více sítí na internetu . Můžete také využít stávající cloudové služby a platit za cluster Hadoop na populárních cloudových platformách, jako jsou Microsoft Azure a Amazon EC2. To je ještě jednodušší nakonfigurovat, jelikož je můžete roztočit ad hoc a pak vyřadit klastry, když je již nepotřebujete. Tyto typy clusterů jsou ideální pro testování, protože platíte pouze za dobu, kdy je aktivní cluster Hadoop.
Zpracujte data pro získání informací, které potřebujete
Velká data jsou extrémně výkonným zdrojem, ale data jsou k ničemu, pokud nejsou správně kategorizovány a přeměněny na informace. V současné době nabízejí Hadoop clustery velmi nákladnou metodu pro zpracování těchto sbírek dat do informací.
Komentáře nebyl nalezen