mrjob je Python modul, který vám pomůže psát a spouštět Hadoop streamování pracovních míst.
mrjob plně podporuje službu Amazon Elastic MapReduce (EMR), který vám umožní získat čas na cluster Hadoop na každou hodinu. Spolupracuje také s vaší vlastní Hadoop clusteru.
Instalace:
python setup.py nainstalovat
Nastavení EMR na Amazonu
& Nbsp; * vytvořit Amazon Web Services účtu: http://aws.amazon.com/
& Nbsp; * zaregistrovat Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Získejte přístup a tajných klíčů (přejděte na http://aws.amazon.com/account/ a klikněte na "bezpečnostní pověření"), a nastavit proměnné prostředí $ AWS_ACCESS_KEY_ID a podle $ AWS_SECRET_ACCESS_KEY
Zkuste to!
# Místně
python mrjob / examples / mr_word_freq_count.py README.md> počítá
# Na EMR
python mrjob / examples / mr_word_freq_count.py README.md r EMR> počítá
# V clusteru Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> počítá
Advanced Configuration
Chcete-li spustit v jiných regionech AWS, nahrajte zdrojového stromu spusťte make, a používat další rozšířené funkce mrjob, budete muset nastavit mrjob.conf. mrjob hledá jeho conf souboru:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf kdekoli ve vaší $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Viz mrjob.conf.example pro více informací
Vlastnosti :.
- Spustit úlohy na EMR, vlastní Hadoop clusteru, nebo lokálně (pro testování).
- Napište vícestupňové pracovních míst (jedna mapa, snížit stupeň ústí do dalšího)
- Duplicitní provozního prostředí uvnitř Hadoop
- Přidat zdrojový strom a dal ho do vaší práci v $ PYTHONPATH
- Spustit make a další nastavení skripty
- Nastavení proměnné prostředí (např. $ TZ)
- Snadno nainstalovat python balíky z tarbally (EMR pouze)
- Nastavení zacházet transparentně mrjob.conf konfiguračním souboru
- Automaticky interpretovat chybové hlášky z EMR
- SSH tunel na Hadoop práce Tracker EMR
- Minimální setup
- Chcete-li spustit na EMR, nastavte $ AWS_ACCESS_KEY_ID a $ AWS_SECRET_ACCESS_KEY
- Chcete-li spustit v clusteru Hadoop, nastavte $ HADOOP_HOME
Požadavky na :
- Python
Komentáře nebyl nalezen