Apache Spark

Software screenshot:
Apache Spark
Podrobnosti Software:
Verze: 1.6.0 Aktualizováno
Datum uploadu: 6 Mar 16
Licence: Volný
Popularita: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark byl navržen s cílem zlepšit rychlost zpracování pro analýzu dat a manipulace programů.

Byl napsán v Javě a Scala a poskytuje funkce, které nejsou uvedeny v jiných systémech, zejména proto, že nejste hlavního proudu ani to, že užitečné pro vyřízení žádostí non-dat.

Spark byl nejprve vytvořen na UC Berkeley AMP Lab a později daroval nadaci Apache Software

Co je nového v této verzi:.

  • Unified Memory management -. Sdílená paměť pro provádění a ukládání do mezipaměti namísto exkluzivního rozdělení regionů
  • Parkety Performance - Zlepšení výkonu parkety skenování při použití plochých schémat
  • .
  • Lepší plánovač dotazu pro dotazy, které mají odlišné agregace -. Query plány zřetelných agregace jsou robustnější, kdy odlišné sloupce mají vysokou mohutnost
  • Adaptivní spuštění dotazu. - Počáteční podpora pro automatickou volbou počtu redukčních pro spojení a agregace
  • se zabránilo dvojímu filtry Zdroj dat API. - Při realizaci datového zdroje s filtrem zásobníkový, mohou vývojáři nyní říci Spark SQL aby se zamezilo dvojímu vyhodnocení tlačil dolů filtr
  • Fast null-safe se připojí - připojuje pomocí null-safe žen a mužů (& # x3c = & # x3e;) nyní bude spouštět pomocí SortMergeJoin místo vypočítávání cartisian výrobek
  • .
  • V paměti cache Sloupcovitý Performance - Významné (až 14x) urychlení při ukládání do mezipaměti data, která obsahují komplexní typy v DataFrames nebo SQL
  • .
  • SQL Execution Použití Off-haldy paměti - Podpora pro konfiguraci spuštění dotazu nastat s použitím paměti off-haldy, aby se zabránilo GC režii

Co je nového ve verzi 1.5.2:

  • Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
  • Vylepšené hlášení chyb byla u některých Gotcha operace přidán.

  • Závislost Jetty
  • Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
  • Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
  • Realtime GC metriky a rekordní počty byly UI přidán.

Co je nového ve verzi 1.4.0:

  • Jádro API nyní podporuje multi-level agregační stromy pomohou urychlit drahé snížit provoz.
  • Vylepšené hlášení chyb byla u některých Gotcha operace přidán.

  • Závislost Jetty
  • Spark je nyní ve stínu, aby nedocházelo ke konfliktům s uživatelskými programy.
  • Spark nyní podporuje šifrování SSL pro některé komunikační koncové body.
  • Realtime GC metriky a rekordní počty byly UI přidán.

Co je nového ve verzi 1.2.0:

  • PySpark operátor třídit nyní podporuje externí rozlití pro velké soubory dat .
  • PySpark nyní podporuje vysílání proměnné větší než 2 GB a provádí externí rozlití během druhů.
  • Spark přidává stránku práce na úrovni pokroku v uživatelském rozhraní Spark, stabilní API pro podávání zpráv o pokroku a dynamickou aktualizaci výstupních metriky jsou zaměstnanost dokončeno.
  • Spark má nyní podporu pro čtení binárních souborů pro obrázky a další binární formáty.

Co je nového ve verzi 1.0.0:

  • Tato verze rozšiřuje standardní knihovny Spark, zavádí nový SQL balíček (Spark SQL), který umožňuje uživatelům integrovat SQL dotazů do stávajících pracovních postupů Spark.
  • MLlib, strojové učení knihovna Spark, je rozšířen řídkým podpora práce s vektory a několik nových algoritmů.

Co je nového ve verzi 0.9.1:

  • Pevná hash kolize chyba v externím rozlití
  • Pevná rozporu s log4j Spark pro uživatele založené na jiných těžebních backends
  • Pevná Graphx chybí montážní Spark jar v maven staví
  • Pevné tiché poruchy způsobené zmapovat stav výkonem převyšujícím velikosti Akka rámu
  • odstraněny Spark je zbytečné přímá závislost na ASM
  • Odstraněné metriky-ganglia z výchozího sestavení kvůli licenčním konfliktu LGPL
  • Opravena chyba v distribučním tarballu neobsahující montáž jiskra jar

Co je nového ve verzi 0.8.0:

  • Development se přesunula do nadace Apache Sowftware jako inkubátor projektů.

Co je nového ve verzi 0.7.3:

  • Python plnění: mechanismus jiskra pro tření Python VM má byly vylepšeny tak učinit rychleji, pokud je JVM má velkou velikost haldy, urychlení Python API.
  • Mesos opravuje: JAR přidané do vaší práce bude nyní na cestě třídy, když deserializing výsledky úloh v Mesos
  • .
  • Hlášení chyb:. Lepší hlášení o chybách pro non-serializovatelný výjimek a příliš velkých výsledků úloh
  • . Příklady: Přidána příklad stavové zpracování toku s updateStateByKey
  • Kulturista:. Spark Streaming již není závislá na Twitter4J repo, který by měl umožnit, aby stavět v Číně
  • Opravy chyb v foldByKey, streamování počtu, statistiky metody, dokumentace a web UI.

Co je nového ve verzi 0.7.2:.

  • Scala verze aktualizována, aby 2.9.3
  • několik vylepšení Bagel, včetně výkonnostních oprav a nastavitelnou úrovní skladování.
  • Nové metody API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition a další
  • A nové metriky rozhraní přehledů, SparkListener, shromažďovat informace o každém výpočetním etapě:. Délek úkol, bajtů zamíchány, etc
  • několik nových příkladů pomocí Java API, včetně K-means a výpočetní pí.

Co je nového ve verzi 0.7.0:

  • Spark 0.7 přidává Python API s názvem PySpark <. / li>
  • Zapalovací pracovních míst nyní spustí webový dashboard pro sledování využití paměti každé distribuované datové sady (DDD) v programu.
  • Spark nyní může být vytvořena pomocí Maven kromě SBT.

Co je nového ve verzi 0.6.1:

  • Pevná příliš agresivní zprávu časové limity, které by mohly způsobit pracovníkům odpojit od clusteru.
  • Opravena chyba v režimu samostatné nasadit, které nebyly vystavit hostitelů na plánovače, které ovlivňují HDFS lokalitu.
  • Lepší opětovné připojení v Shuffle, což může výrazně urychlit malé zamíchá.
  • Opraveny některé potenciální zablokování v manažeru bloků.
  • Opravena chyba dostat ID neúspěšných hostitelů z Mesos.
  • několik vylepšení EC2 skript, stejně jako lepší manipulaci s instancí bodových.
  • Made lokální IP adresa, která Spark se váže na přizpůsobitelné.
  • Podpora Hadoop 2 distribucí.
  • Podpora pro lokalizaci Scala na Debianu distribucích.

Co je nového ve verzi 0.6.0:.

  • Jednodušší nasazení
  • dokumentace jiskra bylo rozšířena o novou příručka Rychlý start další pokyny nasazení, konfigurace průvodcem, tuning průvodcem a lepší dokumentaci Scaladoc API.
  • Nový manažer pro komunikaci pomocí asynchronního Java NIO umožňuje náhodného operace běžet rychleji, a to zejména při odesílání velkého množství dat nebo při zaměstnání mají mnoho úkolů.
  • Nový Správce úložiště podporuje per-datovém souboru nastavení úrovně skladování (např. Zda ponechat datový soubor v paměti, rekonstruován na disku, atd, nebo dokonce replikovat přes uzly).
  • Vylepšená ladění.

Ostatní software developer Apache Software Foundation

Apache Allura
Apache Allura

10 Feb 16

Apache Geronimo
Apache Geronimo

13 Apr 15

Apache VCL
Apache VCL

12 May 15

Apache Tika
Apache Tika

20 Jul 15

Komentáře k Apache Spark

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!