Apache Spark byl navržen s cílem zlepšit rychlost zpracování pro analýzu dat a manipulace programů.
Byl napsán v Javě a Scala a poskytuje funkce, které nejsou uvedeny v jiných systémech, zejména proto, že nejste hlavního proudu ani to, že užitečné pro vyřízení žádostí non-dat.
Spark byl nejprve vytvořen na UC Berkeley AMP Lab a později daroval nadaci Apache Software
Co je nového v této verzi:.
- Unified Memory management -. Sdílená paměť pro provádění a ukládání do mezipaměti namísto exkluzivního rozdělení regionů
- Parkety Performance - Zlepšení výkonu parkety skenování při použití plochých schémat .
- Lepší plánovač dotazu pro dotazy, které mají odlišné agregace -. Query plány zřetelných agregace jsou robustnější, kdy odlišné sloupce mají vysokou mohutnost
- Adaptivní spuštění dotazu. - Počáteční podpora pro automatickou volbou počtu redukčních pro spojení a agregace
- se zabránilo dvojímu filtry Zdroj dat API. - Při realizaci datového zdroje s filtrem zásobníkový, mohou vývojáři nyní říci Spark SQL aby se zamezilo dvojímu vyhodnocení tlačil dolů filtr
- Fast null-safe se připojí - připojuje pomocí null-safe žen a mužů (& # x3c = & # x3e;) nyní bude spouštět pomocí SortMergeJoin místo vypočítávání cartisian výrobek .
- V paměti cache Sloupcovitý Performance - Významné (až 14x) urychlení při ukládání do mezipaměti data, která obsahují komplexní typy v DataFrames nebo SQL .
- SQL Execution Použití Off-haldy paměti - Podpora pro konfiguraci spuštění dotazu nastat s použitím paměti off-haldy, aby se zabránilo GC režii
Co je nového ve verzi 1.5.2:
- Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
- Vylepšené hlášení chyb byla u některých Gotcha operace přidán.
- Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
- Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
- Realtime GC metriky a rekordní počty byly UI přidán.
Závislost Jetty
Co je nového ve verzi 1.4.0:
- Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
- Vylepšené hlášení chyb byla u některých Gotcha operace přidán.
- Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
- Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
- Realtime GC metriky a rekordní počty byly UI přidán.
Závislost Jetty
Co je nového ve verzi 1.2.0:
- PySpark operátor třídit nyní podporuje externí rozlití pro velké soubory dat .
- PySpark nyní podporuje vysílání proměnné větší než 2 GB a provádí externí rozlití během druhů.
- Spark přidává stránku práce na úrovni pokroku v uživatelském rozhraní Spark, stabilní API pro podávání zpráv o pokroku a dynamickou aktualizaci výstupních metriky jsou zaměstnanost dokončeno.
- Spark má nyní podporu pro čtení binárních souborů pro obrázky a další binární formáty.
Co je nového ve verzi 1.0.0:
- Tato verze rozšiřuje standardní knihovny Spark, zavádí nový SQL balíček (Spark SQL), který umožňuje uživatelům integrovat SQL dotazů do stávajících pracovních postupů Spark.
- MLlib, strojové učení knihovna Spark, je rozšířen řídkým podpora práce s vektory a několik nových algoritmů.
Co je nového ve verzi 0.9.1:
- Pevná hash kolize chyba v externím rozlití
- Pevná rozporu s log4j Spark pro uživatele založené na jiných těžebních backends
- Pevná Graphx chybí montážní Spark jar v maven staví
- Pevné tiché poruchy způsobené zmapovat stav výkonem převyšujícím velikosti Akka rámu
- odstraněny Spark je zbytečné přímá závislost na ASM
- Odstraněné metriky-ganglia z výchozího sestavení kvůli licenčním konfliktu LGPL
- Opravena chyba v distribučním tarballu neobsahující montáž jiskra jar
Co je nového ve verzi 0.8.0:
- Development se přesunula do nadace Apache Sowftware jako inkubátor projektů.
Co je nového ve verzi 0.7.3:
- Python plnění: mechanismus jiskra pro tření Python VM má byly vylepšeny tak učinit rychleji, pokud je JVM má velkou velikost haldy, urychlení Python API.
- Mesos opravuje: JAR přidané do vaší práce bude nyní na cestě třídy, když deserializing výsledky úloh v Mesos .
- Hlášení chyb:. Lepší hlášení o chybách pro non-serializovatelný výjimek a příliš velkých výsledků úloh
- . Příklady: Přidána příklad stavové zpracování toku s updateStateByKey
- Kulturista:. Spark Streaming již není závislá na Twitter4J repo, který by měl umožnit, aby stavět v Číně
- Opravy chyb v foldByKey, streamování počtu, statistiky metody, dokumentace a web UI.
Co je nového ve verzi 0.7.2:.
- Scala verze aktualizována, aby 2.9.3
- několik vylepšení Bagel, včetně výkonnostních oprav a nastavitelnou úrovní skladování.
- Nové metody API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition a další
- A nové metriky rozhraní přehledů, SparkListener, shromažďovat informace o každém výpočetním etapě:. Délek úkol, bajtů zamíchány, etc
- několik nových příkladů pomocí Java API, včetně K-means a výpočetní pí.
Co je nového ve verzi 0.7.0:
- Spark 0.7 přidává Python API s názvem PySpark <. / li>
- Zapalovací pracovních míst nyní spustí webový dashboard pro sledování využití paměti každé distribuované datové sady (DDD) v programu.
- Spark nyní může být vytvořena pomocí Maven kromě SBT.
Co je nového ve verzi 0.6.1:
- Pevná příliš agresivní zprávu časové limity, které by mohly způsobit pracovníkům odpojit od clusteru.
- Opravena chyba v režimu samostatné nasadit, které nebyly vystavit hostitelů na plánovače, které ovlivňují HDFS lokalitu.
- Lepší opětovné připojení v Shuffle, což může výrazně urychlit malé zamíchá.
- Opraveny některé potenciální zablokování v manažeru bloků.
- Opravena chyba dostat ID neúspěšných hostitelů z Mesos.
- několik vylepšení EC2 skript, stejně jako lepší manipulaci s instancí bodových.
- Made lokální IP adresa, která Spark se váže na přizpůsobitelné.
- Podpora Hadoop 2 distribucí.
- Podpora pro lokalizaci Scala na Debianu distribucích.
Co je nového ve verzi 0.6.0:.
- Jednodušší nasazení
- dokumentace jiskra bylo rozšířena o novou příručka Rychlý start další pokyny nasazení, konfigurace průvodcem, tuning průvodcem a lepší dokumentaci Scaladoc API.
- Nový manažer pro komunikaci pomocí asynchronního Java NIO umožňuje náhodného operace běžet rychleji, a to zejména při odesílání velkého množství dat nebo při zaměstnání mají mnoho úkolů.
- Nový Správce úložiště podporuje per-datovém souboru nastavení úrovně skladování (např. Zda ponechat datový soubor v paměti, rekonstruován na disku, atd, nebo dokonce replikovat přes uzly).
- Vylepšená ladění.
Komentáře nebyl nalezen