Linux 환경에서 hadoop 설치하기.
저는 VMware, Ubuntu 환경에서 실행함
1. 터미널 창 오픈 후, "sudo apt-get install openjdk-8-jdk"로 java 설치
2. java -version으로 버전 확인
3. cd /usr/lib/jvm으로 java 설치경로로 이동, ls로 java-...-amd64 파일 있는거 확인하기.
파란색은 디렉토리 폴더임을, 하늘색은 symbolic 링크 파일임을 의미
4. sudo ln -s java-8-openjdk-amd64/ jdk로 바로가기 만들기
5. cd로 홈 디렉토리로 이동, "gedit . bashrc"로 자바 환경변수 PATH인 "JAVA_PATH"을 추가하기 위해 편집기 오픈
여기에 아래 내용을 추가함
JAVA_HOME=/usr/lib/jvm/jdk
export JAVA_HOME
"source .bashrc"로 변경사항 적용시킨 후, 아래처럼 JAVA_HOME이 잘 적용되었는지 확인
6. 아래 명령어로 hadoop 3.3.0 설치
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
7. tar명령 이용해 압축파일 풀기
tar xvfz hadoop-3.3.0.tar.gz
해당 압축파일이 있는 위치로 이동해야 한다. 일반적으로 홈 디렉터리나 다운로드 디렉터리에 있을 것.
8. 하둡설치디렉토리를 /usr/local/hadoop으로 이동
sudo mv hadoop-3.3.0 /usr/local/hadoop
9. 하둡 디렉토리에 있는 여러 가지 파일들을 확인하기
cd /usr/local/hadoop
10. 하둡 환경파일 hadoop-env.sh 수정하기
아래의 내용을 추가하면 된다.
export JAVA_HOME=/usr/lib/jvm/jdk
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
11. 이후 cd로 홈 디렉토리로 이동한 후 .bashrc 수정하기
아래쪽에 다음 내용을 추가하면 된다.
HADOOP_HOME=/usr/local/hadoop
PATH=$PATH:$HADOOP_HOME/bin
PATH=$PATH:$HADOOP_HOME/sbin
export PATH
그리고서 source로 컴파일하면 된다.
추가된 내용이 잘 적용되었는지 확인도 해보자
12. hadoop version 입력, hadoop의 버전 확인해보기
다음은 가상분산모드에서 하둡환경 설치하는 것이다
13. /usr/local/hadoop/etc/hadoop에서 core-site.xml 수정하기
다음, 아래 내용을 추가한다.
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
이게 무슨 의미냐면, "네임 노드 위치"를 지정하는 것이다.
즉, hdfs://localhost:9000을 네임 노드 위치로 쓰겠다는 말이다. 여기서 9000은 포트 번호를 의미한다.
14. 다음으로, hdfs-site.xml 수정
위와 같이, <configuration> 블록에 아래 내용을 추가하면 된다.
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
이는 하둡 파일 복제본의 개수를 '1개'로 지정하겠다는 뜻이다.
만들고 싶은 복제본의 개수에 따라 value를 수정하면 된다.
15. mapred-site.xml 수정
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
MapReduce의 어플리케이션 정보를 설정한다
16. yarn-site.xml 수정
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>127.0.0.1:8032</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,
HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,
HADOOP_MAPRED_HOME </value>
</property>
Resource Manager, Node Manager 정보를 설정한다
17. SSH 프로그램 설치: 서버들 간의 데이터 입출력을 위해 통신(통신 방식: SSH 암호화 방식, 입출력을 위한 자동 로그인)
엔터만 쳐서 비밀번호를 설정하지 않도록 한다.
비밀키는 /home/jgw/.ssh/id_rsa에 생기고, 공개키는 /home/jgw/.ssh/id_rsa.pub이다.
18. 공개키를 인증키에 등록하기
19. apt-get install 명령 사용하여 SSH 설치
sudo apt-get install ssh로 설치.
이미 있어서 설치되는게 없다.
20. SSH 설치 확인
> ssh localhost 명령어로 SSH가 설치되었는지 확인한다.
y로 치면 안되고 yes라고 쳐야한다(깐깐하네).
21. 하둡 실행해보기
아래의 코드를 순서대로 실행시켜보자
hadoop namenode -format
start-all.sh
jps
22. 하둡 실행 종료하기
정확하게는 hadoop daemon 종료다.
stop-all.sh
기록 안해놓으면 다른 pc에 하둡 설치할 때 많이 애먹을 것 같다...
아무튼 설치 끝!
'개인 공부용' 카테고리의 다른 글
MSA Design Pattern (0) | 2022.10.29 |
---|---|
hadoop 맵리듀스 실습 기록용 (0) | 2022.10.21 |
hadoop 실습 기록 (0) | 2022.10.20 |
mongoDB 특징과 집계 정리 (0) | 2022.10.19 |
nosql, mongodb 정리 (0) | 2022.10.17 |