support claiming multiple type devices resources requests&limits #1121

lizhiboo · 2024-08-28T08:29:25Z

Motivation:
Arena uses nvidia gpu by default, haven't yet supported other chip vendors such as AMD, Ascend, Hygon etc.

Design:
add --device parameter to set gpu request in Pod's resources, as below:

      resources:
        limits:
          cpu: "10"
          memory: 32Gi
          hygon.com/dcu: 1
        requests:
          cpu: "10"
          memory: 32Gi
          hygon.com/dcu: 1

Usage:

arena submit tfjob \
    --name=tfjobtest\
    --working-dir=/root \
    --ps-gpus=1 \
    --ps=1 \
    --workers=1 \
    --device=hygon.com/dcu=1 \
    --data-dir=/usr/local/hg-lib:/usr/local/hg-lib \
    --image=xxx:ascend_tensorflow_test \
    'sh -c train.sh'


arena serve custom \
    --name=cstest\
    --replicas=1 \
    --port=80 \
    --device=huawei.com/Ascend910=1 \
    --data-dir=/usr/local/ascend910-driver:/usr/local/ascend910-driver \
    --image=xxx:ascend-test \
    --command="sh train.sh"

The text was updated successfully, but these errors were encountered:

Signed-off-by: lizhiboo <lizhiboo@yeah.net>

lizhiboo mentioned this issue Aug 28, 2024

#1121 Support multiple type devices #1122

Merged

google-oss-prow bot pushed a commit that referenced this issue Sep 3, 2024

#1121 Support multiple type devices (#1122)

6c2373d

Signed-off-by: lizhiboo <lizhiboo@yeah.net>

lizhiboo closed this as completed Sep 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support claiming multiple type devices resources requests&limits #1121

support claiming multiple type devices resources requests&limits #1121

lizhiboo commented Aug 28, 2024

support claiming multiple type devices resources requests&limits #1121

support claiming multiple type devices resources requests&limits #1121

Comments

lizhiboo commented Aug 28, 2024