Skip to content

[hadoop] Hadoop disk and memory spec

dsindex edited this page Jul 30, 2014 · 1 revision

Q : Hadoop cluster를 구성할 경우, diskmemory를 어떻게 하는게 좋을까?

  1. disk 분석 대상 데이터 raw size = M
    replication factor = 3
    여기까지하면 3M
    분석과정에서 중간결과물로 생성되는 데이터는 특정할 수 없지만 대략 raw size의 2배 정도로 계산하면
    (M+2M)*3 = 9M
    문제는 9M이 전체 cluster의 disk 용량의 절반이 넘어가면 cluster가 힘들어진다는 것이다.
    따라서, 9M이 250 Terabyte라고 한다면 실제 요구되는 cluster의 disk 용량은 약 500 Terabyte

  2. memory 주로 mapreduce 작업을 수행하기 때문에, memory는 많으면 많을수록 좋다.
    48G 정도가 선호되는듯~

    • 물론 서버가 무지무지 많다면 적은 memory를 사용하는 것도 가능하지만 서버를 발주받는 것은 비용이 비싸고 많이 받기도 힘들기 때문에....
Clone this wiki locally