mrjob

Software screenshot:
mrjob
Podrobnosti Software:
Verze: 0.4
Datum uploadu: 20 Feb 15
Vývojka: David Marin
Licence: Volný
Popularita: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob je Python modul, který vám pomůže psát a spouštět Hadoop streamování pracovních míst.
mrjob plně podporuje službu Amazon Elastic MapReduce (EMR), který vám umožní získat čas na cluster Hadoop na každou hodinu. Spolupracuje také s vaší vlastní Hadoop clusteru.
Instalace:
python setup.py nainstalovat
Nastavení EMR na Amazonu
& Nbsp; * vytvořit Amazon Web Services účtu: http://aws.amazon.com/
& Nbsp; * zaregistrovat Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Získejte přístup a tajných klíčů (přejděte na http://aws.amazon.com/account/ a klikněte na "bezpečnostní pověření"), a nastavit proměnné prostředí $ AWS_ACCESS_KEY_ID a podle $ AWS_SECRET_ACCESS_KEY

Zkuste to!

# Místně
python mrjob / examples / mr_word_freq_count.py README.md> počítá
# Na EMR
python mrjob / examples / mr_word_freq_count.py README.md r EMR> počítá
# V clusteru Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> počítá
Advanced Configuration
Chcete-li spustit v jiných regionech AWS, nahrajte zdrojového stromu spusťte make, a používat další rozšířené funkce mrjob, budete muset nastavit mrjob.conf. mrjob hledá jeho conf souboru:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf kdekoli ve vaší $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Viz mrjob.conf.example pro více informací

Vlastnosti :.

  • Spustit úlohy na EMR, vlastní Hadoop clusteru, nebo lokálně (pro testování).
  • Napište vícestupňové pracovních míst (jedna mapa, snížit stupeň ústí do dalšího)
  • Duplicitní provozního prostředí uvnitř Hadoop
  • Přidat zdrojový strom a dal ho do vaší práci v $ PYTHONPATH
  • Spustit make a další nastavení skripty
  • Nastavení proměnné prostředí (např. $ TZ)
  • Snadno nainstalovat python balíky z tarbally (EMR pouze)
  • Nastavení zacházet transparentně mrjob.conf konfiguračním souboru
  • Automaticky interpretovat chybové hlášky z EMR
  • SSH tunel na Hadoop práce Tracker EMR
  • Minimální setup
  • Chcete-li spustit na EMR, nastavte $ AWS_ACCESS_KEY_ID a $ AWS_SECRET_ACCESS_KEY
  • Chcete-li spustit v clusteru Hadoop, nastavte $ HADOOP_HOME

Požadavky na :

  • Python

Podobný software

iRODS
iRODS

14 Apr 15

Mrs
Mrs

20 Feb 15

AppScale
AppScale

18 Jul 15

Pyro
Pyro

14 Apr 15

Ostatní software developer David Marin

doloop
doloop

11 May 15

Komentáře k mrjob

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!