mrjob

Software screenshot:
mrjob
Podrobnosti Software:
Verze: 0.4
Datum uploadu: 20 Feb 15
Vývojka: David Marin
Licence: Volný
Popularita: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob je Python modul, který vám pomůže psát a spouštět Hadoop streamování pracovních míst.
mrjob plně podporuje službu Amazon Elastic MapReduce (EMR), který vám umožní získat čas na cluster Hadoop na každou hodinu. Spolupracuje také s vaší vlastní Hadoop clusteru.
Instalace:
python setup.py nainstalovat
Nastavení EMR na Amazonu
& Nbsp; * vytvořit Amazon Web Services účtu: http://aws.amazon.com/
& Nbsp; * zaregistrovat Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Získejte přístup a tajných klíčů (přejděte na http://aws.amazon.com/account/ a klikněte na "bezpečnostní pověření"), a nastavit proměnné prostředí $ AWS_ACCESS_KEY_ID a podle $ AWS_SECRET_ACCESS_KEY

Zkuste to!

# Místně
python mrjob / examples / mr_word_freq_count.py README.md> počítá
# Na EMR
python mrjob / examples / mr_word_freq_count.py README.md r EMR> počítá
# V clusteru Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> počítá
Advanced Configuration
Chcete-li spustit v jiných regionech AWS, nahrajte zdrojového stromu spusťte make, a používat další rozšířené funkce mrjob, budete muset nastavit mrjob.conf. mrjob hledá jeho conf souboru:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf kdekoli ve vaší $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Viz mrjob.conf.example pro více informací

Vlastnosti :.

  • Spustit úlohy na EMR, vlastní Hadoop clusteru, nebo lokálně (pro testování).
  • Napište vícestupňové pracovních míst (jedna mapa, snížit stupeň ústí do dalšího)
  • Duplicitní provozního prostředí uvnitř Hadoop
  • Přidat zdrojový strom a dal ho do vaší práci v $ PYTHONPATH
  • Spustit make a další nastavení skripty
  • Nastavení proměnné prostředí (např. $ TZ)
  • Snadno nainstalovat python balíky z tarbally (EMR pouze)
  • Nastavení zacházet transparentně mrjob.conf konfiguračním souboru
  • Automaticky interpretovat chybové hlášky z EMR
  • SSH tunel na Hadoop práce Tracker EMR
  • Minimální setup
  • Chcete-li spustit na EMR, nastavte $ AWS_ACCESS_KEY_ID a $ AWS_SECRET_ACCESS_KEY
  • Chcete-li spustit v clusteru Hadoop, nastavte $ HADOOP_HOME

Požadavky na :

  • Python

Podobný software

Openwsman
Openwsman

11 May 15

JPPF
JPPF

11 Apr 16

salt
salt

20 Feb 15

Ostatní software developer David Marin

doloop
doloop

11 May 15

Komentáře k mrjob

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!