[TransferEngine] Refactor code to hide transport logics from user APIs #51

alogfans · 2024-12-26T09:28:15Z

This PR refactors the code of TransferEngine, so that the following methods are implemented by TransferEngine, i.e., users do not need to obtain Transport pointers beforing calling these methods. This also enables using multiple transports (e.g., rdma and shm) in the same transfer batch.

    BatchID allocateBatchID(size_t batch_size);
    int freeBatchID(BatchID batch_id);
    int submitTransfer(BatchID batch_id,
                       const std::vector<TransferRequest> &entries) ;
    int getTransferStatus(BatchID batch_id, size_t task_id,
                          TransferStatus &status);

We also extract metadata drivers (etcd/redis/http) seperately. User can fill the metadata server parameters with etcd://, redis:// or http:// respectively.

This patch introduces major modification to TransferEngine, and still WIP.

Update on 2024/12/30: We add a patch to extract topology logics outside rdma transport, so that it can be used for other transports/medias

doujiang24 · 2024-12-27T02:15:26Z

Awesome, glad to see this happen.
As we talked in chat, we could add more kinds of devices and protocols base on this PR in the feature.

mooncake-transfer-engine/example/transfer_engine_bench.cpp

Co-authored-by: doujiang24 <doujiang24@gmail.com>

mooncake-transfer-engine/src/multi_transport.cpp

mooncake-transfer-engine/src/transfer_engine.cpp

doujiang24 · 2024-12-30T09:31:03Z

mooncake-transfer-engine/src/transport/rdma_transport/rdma_transport.cpp

+    int index = 0;
+    for (auto &entry : local_topology_.getHcaList()) {
+        if (entry == local_nic_name) {
+            context = context_list_[index];


add break after this line would be better?

doujiang24

cool, lgtm~

stmatengss · 2025-01-02T08:26:50Z

LGTM

ShangmingCai

I have run some verification tests. Except for metadata_server will be configured to etcd by default when no prefix is given, other changes LGTM.

I will propose a PR to modify the related part in the vllm integration doc later.

alogfans added 13 commits December 23, 2024 08:17

extract handshake code

de019d5

extract metadata plugin

baf3565

refactor metadata error log

48b770e

optimize error report

fbf95cc

move topology matrix parse to topology.cpp

98a3256

Change the display of error message

90ba8ee

hide transport interface

6bffb81

Merge remote-tracking branch 'origin/main' into extract-metadata-plugin

b3ccff5

Integrate HTTP plugin

245c2f7

enable the use of http metadata plugin

b5357d3

fix typo

abf2d3a

Hide transport APIs to TransferEngine class

c97e8f7

Support batch task submission to improve small request performance

72f162f

alogfans mentioned this pull request Dec 26, 2024

Revise APIs to support more protocols/media #52

Closed

alogfans added 2 commits December 27, 2024 03:03

convert c apis to use engine rather than transport

d5a9e66

update docs

4115537

alogfans marked this pull request as ready for review December 27, 2024 05:49

hide TransferMetadata class to user APIs

7e21edd

doujiang24 reviewed Dec 29, 2024

View reviewed changes

mooncake-transfer-engine/example/transfer_engine_bench.cpp Outdated Show resolved Hide resolved

alogfans and others added 2 commits December 30, 2024 09:31

Update mooncake-transfer-engine/example/transfer_engine_bench.cpp

db37ee3

Co-authored-by: doujiang24 <doujiang24@gmail.com>

rename variable of engine instace in benchmark program

8dd5b19

doujiang24 reviewed Dec 30, 2024

View reviewed changes

mooncake-transfer-engine/src/multi_transport.cpp Show resolved Hide resolved

mooncake-transfer-engine/src/transfer_engine.cpp Outdated Show resolved Hide resolved

alogfans added 3 commits December 30, 2024 07:40

extract topology to seperate class

9ba0098

add select transport check

f0911f6

avoid dup memory registration

475cce4

doujiang24 reviewed Dec 30, 2024

View reviewed changes

add break in onSetupRdmaConnections

86e639f

doujiang24 approved these changes Jan 2, 2025

View reviewed changes

ShangmingCai self-requested a review January 2, 2025 08:25

ShangmingCai reviewed Jan 2, 2025

View reviewed changes

ShangmingCai merged commit 64ddda4 into kvcache-ai:main Jan 2, 2025
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TransferEngine] Refactor code to hide transport logics from user APIs #51

[TransferEngine] Refactor code to hide transport logics from user APIs #51

alogfans commented Dec 26, 2024 •

edited

Loading

doujiang24 commented Dec 27, 2024

doujiang24 Dec 30, 2024

doujiang24 left a comment

stmatengss commented Jan 2, 2025

ShangmingCai left a comment

[TransferEngine] Refactor code to hide transport logics from user APIs #51

[TransferEngine] Refactor code to hide transport logics from user APIs #51

Conversation

alogfans commented Dec 26, 2024 • edited Loading

doujiang24 commented Dec 27, 2024

doujiang24 Dec 30, 2024

Choose a reason for hiding this comment

doujiang24 left a comment

Choose a reason for hiding this comment

stmatengss commented Jan 2, 2025

ShangmingCai left a comment

Choose a reason for hiding this comment

alogfans commented Dec 26, 2024 •

edited

Loading