hadoop 설치(기록용)

Linux 환경에서 hadoop 설치하기.

저는 VMware, Ubuntu 환경에서 실행함

1. 터미널 창 오픈 후, "sudo apt-get install openjdk-8-jdk"로 java 설치

2. java -version으로 버전 확인

3. cd /usr/lib/jvm으로 java 설치경로로 이동, ls로 java-...-amd64 파일 있는거 확인하기.

파란색은 디렉토리 폴더임을, 하늘색은 symbolic 링크 파일임을 의미

4. sudo ln -s java-8-openjdk-amd64/ jdk로 바로가기 만들기

5. cd로 홈 디렉토리로 이동, "gedit . bashrc"로 자바 환경변수 PATH인 "JAVA_PATH"을 추가하기 위해 편집기 오픈

여기에 아래 내용을 추가함

JAVA_HOME=/usr/lib/jvm/jdk
export JAVA_HOME

"source .bashrc"로 변경사항 적용시킨 후, 아래처럼 JAVA_HOME이 잘 적용되었는지 확인

6. 아래 명령어로 hadoop 3.3.0 설치

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

7. tar명령 이용해 압축파일 풀기

tar xvfz hadoop-3.3.0.tar.gz

해당 압축파일이 있는 위치로 이동해야 한다. 일반적으로 홈 디렉터리나 다운로드 디렉터리에 있을 것.

8. 하둡설치디렉토리를 /usr/local/hadoop으로 이동

sudo mv hadoop-3.3.0 /usr/local/hadoop

9. 하둡 디렉토리에 있는 여러 가지 파일들을 확인하기

cd /usr/local/hadoop

10. 하둡 환경파일 hadoop-env.sh 수정하기

아래의 내용을 추가하면 된다.

export JAVA_HOME=/usr/lib/jvm/jdk
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

11. 이후 cd로 홈 디렉토리로 이동한 후 .bashrc 수정하기

아래쪽에 다음 내용을 추가하면 된다.

HADOOP_HOME=/usr/local/hadoop
PATH=$PATH:$HADOOP_HOME/bin
PATH=$PATH:$HADOOP_HOME/sbin
export PATH

그리고서 source로 컴파일하면 된다.

추가된 내용이 잘 적용되었는지 확인도 해보자

12. hadoop version 입력, hadoop의 버전 확인해보기

다음은 가상분산모드에서 하둡환경 설치하는 것이다

13. /usr/local/hadoop/etc/hadoop에서 core-site.xml 수정하기

다음, 아래 내용을 추가한다.

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>

이게 무슨 의미냐면, "네임 노드 위치"를 지정하는 것이다.

즉, hdfs://localhost:9000을 네임 노드 위치로 쓰겠다는 말이다. 여기서 9000은 포트 번호를 의미한다.

14. 다음으로, hdfs-site.xml 수정

위와 같이, <configuration> 블록에 아래 내용을 추가하면 된다.

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

이는 하둡 파일 복제본의 개수를 '1개'로 지정하겠다는 뜻이다.

만들고 싶은 복제본의 개수에 따라 value를 수정하면 된다.

15. mapred-site.xml 수정

<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>

MapReduce의 어플리케이션 정보를 설정한다

16. yarn-site.xml 수정

<property>
<name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>127.0.0.1:8032</value>
</property>
<property>
  <name>yarn.nodemanager.env-whitelist</name>
  <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,
HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,
HADOOP_MAPRED_HOME </value>
</property>

Resource Manager, Node Manager 정보를 설정한다

17. SSH 프로그램 설치: 서버들 간의 데이터 입출력을 위해 통신(통신 방식: SSH 암호화 방식, 입출력을 위한 자동 로그인)

엔터만 쳐서 비밀번호를 설정하지 않도록 한다.

비밀키는 /home/jgw/.ssh/id_rsa에 생기고, 공개키는 /home/jgw/.ssh/id_rsa.pub이다.

18. 공개키를 인증키에 등록하기

19. apt-get install 명령 사용하여 SSH 설치

sudo apt-get install ssh로 설치.

이미 있어서 설치되는게 없다.

20. SSH 설치 확인

> ssh localhost 명령어로 SSH가 설치되었는지 확인한다.

y로 치면 안되고 yes라고 쳐야한다~~(깐깐하네).~~

21. 하둡 실행해보기

아래의 코드를 순서대로 실행시켜보자

hadoop namenode -format
start-all.sh
jps

22. 하둡 실행 종료하기

정확하게는 hadoop daemon 종료다.

stop-all.sh

기록 안해놓으면 다른 pc에 하둡 설치할 때 많이 애먹을 것 같다...

아무튼 설치 끝!

'개인 공부용' 카테고리의 다른 글

MSA Design Pattern (0)	2022.10.29
hadoop 맵리듀스 실습 기록용 (0)	2022.10.21
hadoop 실습 기록 (0)	2022.10.20
mongoDB 특징과 집계 정리 (0)	2022.10.19
nosql, mongodb 정리 (0)	2022.10.17

'개인 공부용' 카테고리의 다른 글

티스토리툴바