Apache Hadoop

Instalirajte Apache Hadoop na Ubuntu 17.10!

Instalirajte Apache Hadoop na Ubuntu 17.10!

Apache Hadoop rješenje je za velike podatke za pohranu i analizu velikih količina podataka. U ovom ćemo članku detaljno predstaviti složene korake za postavljanje Apache Hadoopa kako biste što prije započeli s njim na Ubuntuu.  U ovom ćemo postu instalirati Apache Hadoop na Ubuntu 17.10 stroj.

Ubuntu verzija

Za ovaj ćemo vodič koristiti Ubuntu verzije 17.10 (GNU / Linux 4.13.0-38-generički x86_64).

Ažuriranje postojećih paketa

Da bismo započeli instalaciju Hadoopa, potrebno je da ažuriramo svoj stroj najnovijim dostupnim softverskim paketima. To možemo učiniti sa:

sudo apt-get update && sudo apt-get -y dist-upgrade

Kako se Hadoop temelji na Javi, moramo ga instalirati na naš stroj. Možemo koristiti bilo koju Javinu verziju iznad Jave 6. Ovdje ćemo koristiti Javu 8:

sudo apt-get -y instalirati openjdk-8-jdk-bez glave

Preuzimanje datoteka Hadoop

Svi potrebni paketi sada postoje na našem stroju. Spremni smo za preuzimanje potrebnih Hadoop TAR datoteka kako bismo ih mogli početi postavljati i pokrenuti ogledni program s Hadoop-om.

U ovom ćemo vodiču instalirati Hadoop v3.0.1. Preuzmite odgovarajuće datoteke pomoću ove naredbe:

wget http: // ogledalo.cc.kolumbija.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.katran.gz

Ovisno o brzini mreže, to može potrajati nekoliko minuta jer je datoteka velike veličine:

Preuzimanje Hadoopa

Ovdje pronađite najnovije binarne datoteke Hadoop. Sada kada smo preuzeli TAR datoteku, možemo izdvojiti u trenutni direktorij:

katran xvzf hadoop-3.0.1.katran.gz

Ovo će potrajati nekoliko sekundi zbog velike veličine arhive:

Hadoop arhiviran

Dodana je nova grupa korisnika Hadoop

Kako Hadoop radi preko HDFS-a, novi sustav datoteka može poremetiti i naš vlastiti sustav datoteka na Ubuntu stroju. Da bismo izbjegli ovu koliziju, stvorit ćemo potpuno zasebnu korisničku grupu i dodijeliti je Hadoopu tako da sadrži vlastita dopuštenja. Ovom naredbom možemo dodati novu korisničku grupu:

addgroup hadoop

Vidjet ćemo nešto poput:

Dodavanje Hadoop korisničke grupe

Spremni smo dodati novog korisnika u ovu grupu:

useradd -G hadoop hadoopuser

Imajte na umu da su sve naredbe koje izvodimo same kao root korisnik. Naredbom aove uspjeli smo dodati novog korisnika u grupu koju smo stvorili.

Da bismo korisniku Hadoop omogućili izvođenje operacija, moramo mu omogućiti i root pristup. Otvori / etc / sudoers datoteka s ovom naredbom:

sudo visudo

Prije nego što nešto dodamo, datoteka će izgledati ovako:

Datoteka Sudoers prije dodavanja bilo čega

Na kraj datoteke dodajte sljedeći redak:

hadoopuser SVE = (SVE) SVE

Sada će datoteka izgledati ovako:

Datoteka Sudoers nakon dodavanja korisnika Hadoop

Ovo je bila glavna postavka za pružanje Hadoopu platforme za izvođenje radnji. Spremni smo za postavljanje klastera Hadoop s jednim čvorom.

Postavljanje jednog čvora Hadoop: samostalni način rada

Kada je stvarna snaga Hadoopa u pitanju, obično se postavlja na više poslužitelja tako da se može prilagoditi velikoj količini podataka prisutnih u Distribuirani sustav datoteka Hadoop (HDFS). To je obično u redu s okruženjima za otklanjanje pogrešaka i ne koristi se za produkcijsku upotrebu. Da bi postupak bio jednostavan, ovdje ćemo objasniti kako ovdje možemo izvršiti postavljanje jednog čvora za Hadoop.

Nakon što završimo s instaliranjem Hadoopa, na Hadoopu ćemo pokrenuti i primjerak aplikacije. Od sada se datoteka Hadoop naziva hadoop-3.0.1. preimenujmo ga u hadoop radi jednostavnije upotrebe:

mv hadoop-3.0.1 hadoop

Datoteka sada izgleda ovako:

Premještanje Hadoopa

Vrijeme je da iskoristimo hadoop korisnika kojeg smo ranije stvorili i dodijelimo vlasništvo nad ovom datotekom tom korisniku:

chown -R hadoopuser: hadoop / korijen / hadoop

Bolje mjesto za Hadoop bit će / usr / local / direktorij, pa ga premjestimo tamo:

mv hadoop / usr / local /
cd / usr / local /

Dodavanje Hadoopa na put

Da bismo izvršili Hadoop skripte, sada ćemo je dodati na stazu. Da biste to učinili, otvorite datoteku bashrc:

vi ~ /.bashrc

Dodajte ove retke na kraj .bashrc datoteku tako da staza može sadržavati stazu izvršne datoteke Hadoop:

# Konfigurirajte Hadoop i Java Home
izvoz HADOOP_HOME = / usr / local / hadoop
izvoz JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
izvoz PUT = $ PUT: $ HADOOP_HOME / bin

Datoteka izgleda ovako:

Dodavanje Hadoopa na put

Kako Hadoop koristi Javu, moramo reći datoteku okruženja Hadoop hadoop-env.sh gdje se nalazi. Mjesto ove datoteke može se razlikovati ovisno o inačicama Hadoop-a. Da biste lako pronašli gdje se nalazi ova datoteka, pokrenite sljedeću naredbu odmah izvan Hadoop direktorija:

pronaći hadoop / -ime hadoop-env.sh

Dobit ćemo izlaz za mjesto datoteke:

Mjesto datoteke okoliša

Uredimo ovu datoteku da obavijestimo Hadoop o mjestu Java JDK i umetnemo je u zadnji redak datoteke i spremimo:

izvoz JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

Instalacija i postavljanje Hadoopa sada je dovršena. Spremni smo za pokretanje našeg uzorka aplikacije sada. Ali pričekajte, nikada nismo podnijeli uzorak prijave!

Pokretanje Sample aplikacije s Hadoop-om

Zapravo, Hadoop instalacija dolazi s ugrađenom aplikacijom uzorka koja je spremna za pokretanje nakon što završimo s instaliranjem Hadoopa. Zvuči dobro, zar ne?

Pokrenite sljedeću naredbu za pokretanje primjera JAR:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / output

Hadoop će pokazati koliku je obradu obavio na čvoru:

Statistika obrade Hadoop-a

Jednom kada izvršite sljedeću naredbu, datoteku part-r-00000 vidimo kao izlaz. Samo naprijed i pogledajte sadržaj rezultata:

mačji dio-r-00000

Dobit ćete nešto poput:

Izlaz broja riječi pomoću Hadoopa

Zaključak

U ovoj smo lekciji pogledali kako možemo instalirati i početi koristiti Apache Hadoop na Ubuntu 17.10 stroj.  Hadoop je izvrstan za pohranu i analizu velike količine podataka i nadam se da će vam ovaj članak pomoći da ga brzo počnete koristiti na Ubuntuu.

Vodič za OpenTTD
OpenTTD je jedna od najpopularnijih igara za poslovnu simulaciju. U ovoj igri morate stvoriti prekrasan prijevoznički posao. Međutim, počet ćete u poč...
SuperTuxKart za Linux
SuperTuxKart sjajan je naslov osmišljen kako bi vam besplatno pružio iskustvo Mario Kart na vašem Linux sustavu. Prilično je izazovno i zabavno igrati...
Vodič za bitku za Wesnoth
Bitka za Wesnoth jedna je od najpopularnijih strateških igara otvorenog koda koje trenutno možete igrati. Ne samo da se ova igra razvija već jako dugo...