본문 바로가기
비트 장기/설치방법들

리눅스, 하둡

by woohyun22 2018. 9. 19.

하둡은 데이터의 양이 상상할 수 없을만큼 많을때 사용하게된다.

---  하둡은 리눅스를 통해서 사용하는것이 제일 체계적이고, WINDOW로 하게되면 까다롭다.

리눅스 -- ubuntu, centos 두개를 사용할 수 있다. (OS)


1. 리눅스 OS 다운로드 (http://cdimage.ubuntu.com/ubuntu-gnome/releases/14.04.5/release/)

ubuntu Site

https://www.ubuntu.com/ -> downloads를 내리면 older releases(오른쪽 하단) 를 누른다.


Ubuntu GNOME 클릭 -> 하게되면 그 다음 다운 받을수 있는 버전이 나옴 14.04.5 버전을 다운로드

(14.04.5) 버전이 가장 안전하다.

-> 가장 안쪽으로 들어가면 ubuntu-gnome-14.04.5-desktop-amd64.iso 을 다운로드 받으면된다.


WINDOW랑 비슷하게 사용할 수 있게 만든것이 GNOME이다.



2. 가상의 운영체제를 돌릴수 있는 tool이 존재한다. (https://www.vmware.com/) - vmware

컴퓨터안에 가상의 컴퓨터 안에 설치를 한다. 


다운로드 -> Pro는 돈줘야되고, player는 공짜이다. Workstation Player를 눌러서 window를 다운 후


-> 바탕화면에 저장한다. 


실행 -> next -> check 후 next -> 체크하지말고 next -> 체크버튼 2개다 꺼버리고 next -> 


-> 원래의 상태에서 next -> Install -> Finish



3. 가상머신 실행


player는 엉망진창이 되면 새로 깔아야된다.


continue -> finish


내 PC -> C드라이브 -> Ubuntu 라는 폴더를 만든다.


Create a New Virtual Machine 누른다 -> 세번째(기게를 사놓고 운영체제를 나중에 넣을것인가?)를 선택하고 Next 


-> 깔려하는 운영체제를 물어본다. Guest operating system : Linux, Version : Ubuntu 64-bit 설정하고 Next


-> 여기서 Virtual machine name : Client, Location : C:\Ubuntu\Client 그런데 여기서 Client 폴더는 만들어 줘야된다.


-> 변경할꺼 없이 Next -> Finish



4. Edit virtual machine settiongs 스팩을 보는것이 있다.


USB Controller, Sound Card, Printer 이 세개를 remove해서 날리면 된다.


여기서 Ram이 1gb를 쓰고 있는데, eclipse를 써야되기 때문에 4gb로 만들어준다. 4096으로 맞쳐주면 된다.


CD/DVD 선택 후 Use ISO image file 선택 후 Browse에 아까 다운로드 받은 파일은 넣으면 된다.



5. 


strart를 하면 remind 뭐시기를 누르고 기다리면 새로운 화면이 나오게된다.


-> 한국어 를 누른다. -> Ubuntu GNOME  설치를 클릭한다. -> 계속 -> 지금 설치 -> 계속


-> 지도가 나오는데 계속 -> 한국어 -> 계속


이름 : tiger


암호 선택 : 1


설치 GOGO!


-> 다시 시작 후 새로운 화면 떴을때 ENTER



6. ubuntu GNOME 새로운 화면


아이콘을 나타내고 싶을때 현재 활동을 누르면 된다.


시스템 설정을 찾아라 -> 


리눅스(cmd)에서 사용되는 명령어


pwd : 지금 내가 어디에 있는지 보는것


ls : 현재 파일안에 어떠한 파일들이 존재하는지 보는것


cd .. : 상위폴더로 올라가는 명령어


cd : 집으로 복귀하는 명령어


cd /etc : 내가 원하는 특정폴더(etc) 로 들어가고 싶을때에 쓰는 명령어


sudo apt-get update

- -리눅스를 깔게되면 하는 과정 / 리눅스의 홈페지에 들어가서 다운로드 해야될 목록을 받아오는 과정


sudo apt-get -f dist-upgrade

- 업그레이드를 할때 필요한 것을 다운로드 받는다


2.

 sudo add-apt-repository ppa:webupd8team/java


계속하려면 [엔터] 키를 누르고 추가를 취소하려면 컨트롤+C 키를 눌러주십시오.


3.

 sudo apt-get update

 sudo apt-get -f dist-upgrade


 4.

 sudo apt-get install oracle-java8-installer

<확인> -> <예>


oracle-java8-installer


 5.

 sudo apt-get -f dist-upgrade


 6.

 java -version 확인


자바 설치



sudo 관리자계정 들어가는거


$표시뜨면 끝난거

2.
sudo add-apt-repository ppa:webupd8team/java
엔터치면된다


3.
sudo apt-get update
sudo apt-get -f dist-upgrade

4.
sudo apt-get install oracle-java8-installer

용량물으면 y 엔터

확인 후 아니오누르면 안되고 옮겨서 예로 엔터
//oracle-java8-installer
리눅스는 이게 끝이다 버전이


5.
sudo apt-get -f dist-upgrade

6.
java -version 확인


7.
sudo apt-get install openssh-server  컴퓨터간 통신 프로그램 server client중 server 설치

8.
ssh-keygen -t rsa -P ""  keygen은 사용하기위해 인증번호를 받는것. 엔터치면 인증키나옴



9.
cat $HOME/.ssh/id_rsa.pub 


ls


sudo gedit  edit창 열기


$HOME/.ssh/authorized_keys

10.
sudo gedit /etc/sysctl.conf 

위의 실행문을 실행했을때

맨 밑에 밑에 세 문장을 넣어야된다.
l.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1


history 내가 이때까지 썻던 명령어를 보여줌

clear 화면 청소

ex)!23

histroy번호로 적어주면 그명령문 실행


11.

sudo reboot 리부트해준다.


12.
http://mirror.apache-kr.org/hadoop/common/ 에서 hadoop-2.7.6 선택 두번째꺼 선택 src(x) 은 다운로드폴더안에 들어가있다. 바탕화면으로 컨씨컨브이후 바탕화면에서 여기에풀기

13.
sudo mv '/home/tiger/바탕화면/hadoop-2.7.6' /usr/local/hadoop/ mv는 파일을 옮기는 명령 

바탕화면의 파일을 유저 로컬 하둡에 옮긴다. 

shift insert

14
sudo chown hduser:hadoop -R /usr/local/hadoop

sudo chown tiger -R /usr/local/hadoop

chown권한부여 아무런 말없으면 권한부여 된거임



15.


sudo mkdjr fmt 디렉토리 폴더만들기

sudo rmdir fmt 폴더삭제


sudo mkdir -p /usr/local/temp/hdfs/namenode

sudo mkdir -p /usr/local/temp/hdfs/datanode

반드시 추가해줘야한다.


mkdir 디렉터리 폴더만드는것



16.
sudo chown tiger -R /usr/local/temp/


temp라는 폴더를 tiger에게 권한부여해준다.


17. 
sudo gedit .bashrc - 파일열리면 맨밑에 두칸 엔터후 밑에 export 다 넣기 넣어주고 저장

파일명앞에.되있으면 숨김파일

ls -a 숨겨진파일까지 보기


export JAVA_HOME=/usr/lib/jvm/java-8-oracle
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=$PATH:/usr/local/hadoop/bin/


18. 환경변수 설정
1. cd /usr/local/hadoop/etc/hadoop
2. sudo gedit hadoop-env.sh

export JAVA_HOME= >>> 이거 밑에


export JAVA_HOME='/usr/lib/jvm/java-8-oracle' >>> 추가



19. 데이터 통신을 위한 포트번호 설정
sudo gedit core-site.xml -열리면 맨밑에 태그안에 넣어주면된다. 넣어주고 저장

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
</property>
</configuration>

20.
sudo gedit hdfs-site.xml 넣어주고 저장

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/temp/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/temp/hdfs/datanode</value>
</property>
</configuration>

21.
sudo gedit yarn-site.xml 넣어주고 저장

<configuration>

<property>
<name>yarn.nodemanager.aux-servieces</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-servieces.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>


22.
1. cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
입력후
2. sudo gedit mapred-site.xml
열어주고 밑에꺼 넣고 저장
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:54311</value>
</property>
</configuration>

23.
cd
source ~/.bashrc
cd /usr/local/temp/hdfs
hadoop namenode -format

// 설정후 다시 할때는 sudo su hduser 하고 나서 밑에 두줄 실행

재부팅하면 
start-dfs.sh 만약된다면 전부다  yes 
start-yarn.sh
jps
// 참고
stop-yarn.hs
stop-dfs.sh

//



이까지 하둡설정


자바 이클립스 프로젝트하나만들고

c에 폴더하나 만들고

프로젝트에서 export java runnable jar file


launch = hello - prj100

Hello

만들어주고


아까 그 tiger폴더 가서 폴더주소앞에 cmd치고 엔터치면 실행된다. 그후


java -jar Hello.jar

치면 실행됨


System.out.println(args[0]+"" +args[1]);//입력값이 없기떄문에 error가난다.


//외부에서 입력받은 jar을 cmd에서 보여주는식


java -jar Hello.jar abc def





1 hdfs 루터 내용 확인
hdfs dfs -ls /        hdfs dfs이제 하둡명령을 쓰겠다! 안에 폴더좀 보자 error뜨면안됨



2 hdfs에 디렉토리 추가
hdfs dfs -mkdir /input2 하둡이 만드는것
hdfs dfs -ls / >>> 확인

3 hdfs에 디렉토리 삭제
hdfs dfs -rmdir /input2  폴더 만들어주기
hdfs dfs -ls / >>>  폴더 확인
# 폴더와 하위 파일 모두 삭제(WordCount폴더 포함 하위 모두 삭제)
hdfs dfs -rm -r /WordCount

r에서 터지는걸 하둡에게 


4 /input밑에 있는 내용 확인
hdfs dfs -ls /input


hdfs dfs -ls /

hdfs dfs -mkdir /input100 
hdfs dfs -put test.txt /input100 



ls는 유닉스 명령문이다


다 설정하고 구글에 wordcount를 치고 따라가면 문자 크롤링이 가능하다! 이건ㄴ ㅐ가해라


메이븐으로 만들고 console에서 실행해서 한다. 강사님의 마지막 예제이다~

728x90

'비트 장기 > 설치방법들' 카테고리의 다른 글

sdfg  (0) 2018.09.10
R 설치  (0) 2018.09.01
파이썬 64bit 파이참 64bit  (0) 2018.08.27
python 설치방법, pycharm 설치  (0) 2018.08.23
자바 이클립스 설치 방법  (0) 2018.08.16

댓글