Apache Spark

Software screenshot:
Apache Spark
Podrobnosti Software:
Verze: 1.6.0 Aktualizováno
Datum uploadu: 6 Mar 16
Licence: Volný
Popularita: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark byl navržen s cílem zlepšit rychlost zpracování pro analýzu dat a manipulace programů.

Byl napsán v Javě a Scala a poskytuje funkce, které nejsou uvedeny v jiných systémech, zejména proto, že nejste hlavního proudu ani to, že užitečné pro vyřízení žádostí non-dat.

Spark byl nejprve vytvořen na UC Berkeley AMP Lab a později daroval nadaci Apache Software

Co je nového v této verzi:.

  • Unified Memory management -. Sdílená paměť pro provádění a ukládání do mezipaměti namísto exkluzivního rozdělení regionů
  • Parkety Performance - Zlepšení výkonu parkety skenování při použití plochých schémat
  • .
  • Lepší plánovač dotazu pro dotazy, které mají odlišné agregace -. Query plány zřetelných agregace jsou robustnější, kdy odlišné sloupce mají vysokou mohutnost
  • Adaptivní spuštění dotazu. - Počáteční podpora pro automatickou volbou počtu redukčních pro spojení a agregace
  • se zabránilo dvojímu filtry Zdroj dat API. - Při realizaci datového zdroje s filtrem zásobníkový, mohou vývojáři nyní říci Spark SQL aby se zamezilo dvojímu vyhodnocení tlačil dolů filtr
  • Fast null-safe se připojí - připojuje pomocí null-safe žen a mužů (& # x3c = & # x3e;) nyní bude spouštět pomocí SortMergeJoin místo vypočítávání cartisian výrobek
  • .
  • V paměti cache Sloupcovitý Performance - Významné (až 14x) urychlení při ukládání do mezipaměti data, která obsahují komplexní typy v DataFrames nebo SQL
  • .
  • SQL Execution Použití Off-haldy paměti - Podpora pro konfiguraci spuštění dotazu nastat s použitím paměti off-haldy, aby se zabránilo GC režii

Co je nového ve verzi 1.5.2:

  • Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
  • Vylepšené hlášení chyb byla u některých Gotcha operace přidán.

  • Závislost Jetty
  • Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
  • Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
  • Realtime GC metriky a rekordní počty byly UI přidán.

Co je nového ve verzi 1.4.0:

  • Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
  • Vylepšené hlášení chyb byla u některých Gotcha operace přidán.

  • Závislost Jetty
  • Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
  • Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
  • Realtime GC metriky a rekordní počty byly UI přidán.

Co je nového ve verzi 1.2.0:

  • PySpark operátor třídit nyní podporuje externí rozlití pro velké soubory dat .
  • PySpark nyní podporuje vysílání proměnné větší než 2 GB a provádí externí rozlití během druhů.
  • Spark přidává stránku práce na úrovni pokroku v uživatelském rozhraní Spark, stabilní API pro podávání zpráv o pokroku a dynamickou aktualizaci výstupních metriky jsou zaměstnanost dokončeno.
  • Spark má nyní podporu pro čtení binárních souborů pro obrázky a další binární formáty.

Co je nového ve verzi 1.0.0:

  • Tato verze rozšiřuje standardní knihovny Spark, zavádí nový SQL balíček (Spark SQL), který umožňuje uživatelům integrovat SQL dotazů do stávajících pracovních postupů Spark.
  • MLlib, strojové učení knihovna Spark, je rozšířen řídkým podpora práce s vektory a několik nových algoritmů.

Co je nového ve verzi 0.9.1:

  • Pevná hash kolize chyba v externím rozlití
  • Pevná rozporu s log4j Spark pro uživatele založené na jiných těžebních backends
  • Pevná Graphx chybí montážní Spark jar v maven staví
  • Pevné tiché poruchy způsobené zmapovat stav výkonem převyšujícím velikosti Akka rámu
  • odstraněny Spark je zbytečné přímá závislost na ASM
  • Odstraněné metriky-ganglia z výchozího sestavení kvůli licenčním konfliktu LGPL
  • Opravena chyba v distribučním tarballu neobsahující montáž jiskra jar

Co je nového ve verzi 0.8.0:

  • Development se přesunula do nadace Apache Sowftware jako inkubátor projektů.

Co je nového ve verzi 0.7.3:

  • Python plnění: mechanismus jiskra pro tření Python VM má byly vylepšeny tak učinit rychleji, pokud je JVM má velkou velikost haldy, urychlení Python API.
  • Mesos opravuje: JAR přidané do vaší práce bude nyní na cestě třídy, když deserializing výsledky úloh v Mesos
  • .
  • Hlášení chyb:. Lepší hlášení o chybách pro non-serializovatelný výjimek a příliš velkých výsledků úloh
  • . Příklady: Přidána příklad stavové zpracování toku s updateStateByKey
  • Kulturista:. Spark Streaming již není závislá na Twitter4J repo, který by měl umožnit, aby stavět v Číně
  • Opravy chyb v foldByKey, streamování počtu, statistiky metody, dokumentace a web UI.

Co je nového ve verzi 0.7.2:.

  • Scala verze aktualizována, aby 2.9.3
  • několik vylepšení Bagel, včetně výkonnostních oprav a nastavitelnou úrovní skladování.
  • Nové metody API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition a další
  • A nové metriky rozhraní přehledů, SparkListener, shromažďovat informace o každém výpočetním etapě:. Délek úkol, bajtů zamíchány, etc
  • několik nových příkladů pomocí Java API, včetně K-means a výpočetní pí.

Co je nového ve verzi 0.7.0:

  • Spark 0.7 přidává Python API s názvem PySpark <. / li>
  • Zapalovací pracovních míst nyní spustí webový dashboard pro sledování využití paměti každé distribuované datové sady (DDD) v programu.
  • Spark nyní může být vytvořena pomocí Maven kromě SBT.

Co je nového ve verzi 0.6.1:

  • Pevná příliš agresivní zprávu časové limity, které by mohly způsobit pracovníkům odpojit od clusteru.
  • Opravena chyba v režimu samostatné nasadit, které nebyly vystavit hostitelů na plánovače, které ovlivňují HDFS lokalitu.
  • Lepší opětovné připojení v Shuffle, což může výrazně urychlit malé zamíchá.
  • Opraveny některé potenciální zablokování v manažeru bloků.
  • Opravena chyba dostat ID neúspěšných hostitelů z Mesos.
  • několik vylepšení EC2 skript, stejně jako lepší manipulaci s instancí bodových.
  • Made lokální IP adresa, která Spark se váže na přizpůsobitelné.
  • Podpora Hadoop 2 distribucí.
  • Podpora pro lokalizaci Scala na Debianu distribucích.

Co je nového ve verzi 0.6.0:.

  • Jednodušší nasazení
  • dokumentace jiskra bylo rozšířena o novou příručka Rychlý start další pokyny nasazení, konfigurace průvodcem, tuning průvodcem a lepší dokumentaci Scaladoc API.
  • Nový manažer pro komunikaci pomocí asynchronního Java NIO umožňuje náhodného operace běžet rychleji, a to zejména při odesílání velkého množství dat nebo při zaměstnání mají mnoho úkolů.
  • Nový Správce úložiště podporuje per-datovém souboru nastavení úrovně skladování (např. Zda ponechat datový soubor v paměti, rekonstruován na disku, atd, nebo dokonce replikovat přes uzly).
  • Vylepšená ladění.

Ostatní software developer Apache Software Foundation

Komentáře k Apache Spark

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!