[hadoop] Hadoop disk and memory spec

Q : Hadoop cluster를 구성할 경우, disk와 memory를 어떻게 하는게 좋을까?

disk 분석 대상 데이터 raw size = M
replication factor = 3
여기까지하면 3M
분석과정에서 중간결과물로 생성되는 데이터는 특정할 수 없지만 대략 raw size의 2배 정도로 계산하면
(M+2M)*3 = 9M
문제는 9M이 전체 cluster의 disk 용량의 절반이 넘어가면 cluster가 힘들어진다는 것이다.
따라서, 9M이 250 Terabyte라고 한다면 실제 요구되는 cluster의 disk 용량은 약 500 Terabyte
memory 주로 mapreduce 작업을 수행하기 때문에, memory는 많으면 많을수록 좋다.
48G 정도가 선호되는듯~
- 물론 서버가 무지무지 많다면 적은 memory를 사용하는 것도 가능하지만 서버를 발주받는 것은 비용이 비싸고 많이 받기도 힘들기 때문에....

Provide feedback