Apache Hadoop rješenje je za velike podatke za pohranu i analizu velikih količina podataka. U ovom ćemo članku detaljno predstaviti složene korake za postavljanje Apache Hadoopa kako biste što prije započeli s njim na Ubuntuu. U ovom ćemo postu instalirati Apache Hadoop na Ubuntu 17.10 stroj.
Ubuntu verzija
Za ovaj ćemo vodič koristiti Ubuntu verzije 17.10 (GNU / Linux 4.13.0-38-generički x86_64).
Ažuriranje postojećih paketa
Da bismo započeli instalaciju Hadoopa, potrebno je da ažuriramo svoj stroj najnovijim dostupnim softverskim paketima. To možemo učiniti sa:
sudo apt-get update && sudo apt-get -y dist-upgradeKako se Hadoop temelji na Javi, moramo ga instalirati na naš stroj. Možemo koristiti bilo koju Javinu verziju iznad Jave 6. Ovdje ćemo koristiti Javu 8:
sudo apt-get -y instalirati openjdk-8-jdk-bez glavePreuzimanje datoteka Hadoop
Svi potrebni paketi sada postoje na našem stroju. Spremni smo za preuzimanje potrebnih Hadoop TAR datoteka kako bismo ih mogli početi postavljati i pokrenuti ogledni program s Hadoop-om.
U ovom ćemo vodiču instalirati Hadoop v3.0.1. Preuzmite odgovarajuće datoteke pomoću ove naredbe:
wget http: // ogledalo.cc.kolumbija.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.katran.gzOvisno o brzini mreže, to može potrajati nekoliko minuta jer je datoteka velike veličine:
Preuzimanje Hadoopa
Ovdje pronađite najnovije binarne datoteke Hadoop. Sada kada smo preuzeli TAR datoteku, možemo izdvojiti u trenutni direktorij:
katran xvzf hadoop-3.0.1.katran.gzOvo će potrajati nekoliko sekundi zbog velike veličine arhive:
Hadoop arhiviran
Dodana je nova grupa korisnika Hadoop
Kako Hadoop radi preko HDFS-a, novi sustav datoteka može poremetiti i naš vlastiti sustav datoteka na Ubuntu stroju. Da bismo izbjegli ovu koliziju, stvorit ćemo potpuno zasebnu korisničku grupu i dodijeliti je Hadoopu tako da sadrži vlastita dopuštenja. Ovom naredbom možemo dodati novu korisničku grupu:
addgroup hadoopVidjet ćemo nešto poput:
Dodavanje Hadoop korisničke grupe
Spremni smo dodati novog korisnika u ovu grupu:
useradd -G hadoop hadoopuserImajte na umu da su sve naredbe koje izvodimo same kao root korisnik. Naredbom aove uspjeli smo dodati novog korisnika u grupu koju smo stvorili.
Da bismo korisniku Hadoop omogućili izvođenje operacija, moramo mu omogućiti i root pristup. Otvori / etc / sudoers datoteka s ovom naredbom:
sudo visudoPrije nego što nešto dodamo, datoteka će izgledati ovako:
Datoteka Sudoers prije dodavanja bilo čega
Na kraj datoteke dodajte sljedeći redak:
hadoopuser SVE = (SVE) SVESada će datoteka izgledati ovako:
Datoteka Sudoers nakon dodavanja korisnika Hadoop
Ovo je bila glavna postavka za pružanje Hadoopu platforme za izvođenje radnji. Spremni smo za postavljanje klastera Hadoop s jednim čvorom.
Postavljanje jednog čvora Hadoop: samostalni način rada
Kada je stvarna snaga Hadoopa u pitanju, obično se postavlja na više poslužitelja tako da se može prilagoditi velikoj količini podataka prisutnih u Distribuirani sustav datoteka Hadoop (HDFS). To je obično u redu s okruženjima za otklanjanje pogrešaka i ne koristi se za produkcijsku upotrebu. Da bi postupak bio jednostavan, ovdje ćemo objasniti kako ovdje možemo izvršiti postavljanje jednog čvora za Hadoop.
Nakon što završimo s instaliranjem Hadoopa, na Hadoopu ćemo pokrenuti i primjerak aplikacije. Od sada se datoteka Hadoop naziva hadoop-3.0.1. preimenujmo ga u hadoop radi jednostavnije upotrebe:
mv hadoop-3.0.1 hadoopDatoteka sada izgleda ovako:
Premještanje Hadoopa
Vrijeme je da iskoristimo hadoop korisnika kojeg smo ranije stvorili i dodijelimo vlasništvo nad ovom datotekom tom korisniku:
chown -R hadoopuser: hadoop / korijen / hadoopBolje mjesto za Hadoop bit će / usr / local / direktorij, pa ga premjestimo tamo:
mv hadoop / usr / local /cd / usr / local /
Dodavanje Hadoopa na put
Da bismo izvršili Hadoop skripte, sada ćemo je dodati na stazu. Da biste to učinili, otvorite datoteku bashrc:
vi ~ /.bashrcDodajte ove retke na kraj .bashrc datoteku tako da staza može sadržavati stazu izvršne datoteke Hadoop:
# Konfigurirajte Hadoop i Java Homeizvoz HADOOP_HOME = / usr / local / hadoop
izvoz JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
izvoz PUT = $ PUT: $ HADOOP_HOME / bin
Datoteka izgleda ovako:
Dodavanje Hadoopa na put
Kako Hadoop koristi Javu, moramo reći datoteku okruženja Hadoop hadoop-env.sh gdje se nalazi. Mjesto ove datoteke može se razlikovati ovisno o inačicama Hadoop-a. Da biste lako pronašli gdje se nalazi ova datoteka, pokrenite sljedeću naredbu odmah izvan Hadoop direktorija:
pronaći hadoop / -ime hadoop-env.shDobit ćemo izlaz za mjesto datoteke:
Mjesto datoteke okoliša
Uredimo ovu datoteku da obavijestimo Hadoop o mjestu Java JDK i umetnemo je u zadnji redak datoteke i spremimo:
izvoz JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64Instalacija i postavljanje Hadoopa sada je dovršena. Spremni smo za pokretanje našeg uzorka aplikacije sada. Ali pričekajte, nikada nismo podnijeli uzorak prijave!
Pokretanje Sample aplikacije s Hadoop-om
Zapravo, Hadoop instalacija dolazi s ugrađenom aplikacijom uzorka koja je spremna za pokretanje nakon što završimo s instaliranjem Hadoopa. Zvuči dobro, zar ne?
Pokrenite sljedeću naredbu za pokretanje primjera JAR:
hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / outputHadoop će pokazati koliku je obradu obavio na čvoru:
Statistika obrade Hadoop-a
Jednom kada izvršite sljedeću naredbu, datoteku part-r-00000 vidimo kao izlaz. Samo naprijed i pogledajte sadržaj rezultata:
mačji dio-r-00000Dobit ćete nešto poput:
Izlaz broja riječi pomoću Hadoopa
Zaključak
U ovoj smo lekciji pogledali kako možemo instalirati i početi koristiti Apache Hadoop na Ubuntu 17.10 stroj. Hadoop je izvrstan za pohranu i analizu velike količine podataka i nadam se da će vam ovaj članak pomoći da ga brzo počnete koristiti na Ubuntuu.