[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status #49

jiafuzha · 2021-12-03T02:00:52Z

What changes were proposed in this pull request?

The partition lengths in highly compressed map status is not accurate. We depended on the lengths to read data from partitions. It caused only partial data being read.

To fix the issue, we depend on the actual size returned from DAOS, if it's highly compressed map status, to judge if end of partition is reached. To maintain the perf, we read multiple partitions in parallel as much as possible whilst weigh on current partition so that reduce task experiences less I/O wait.

How was this patch tested?

It's tested with HiBench repartition. By adjusting the value of "spark.shuffle.minNumPartitionsToHighlyCompress", we can control if we use normal compressed map status or highly compressed map status.

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

… Driver Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

github-actions · 2021-12-03T02:01:06Z

#43

jiafuzha added 17 commits January 21, 2021 19:13

reconstruct project and add new shuffle-daos plugin

092f01e

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

corrected location of scalastyle-config

16dd495

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

use daos-java version of 1.1.4

dbc19df

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

Merge remote-tracking branch 'upstream/master'

3526000

Merge remote-tracking branch 'upstream/master'

72aa8cb

Merge remote-tracking branch 'upstream/master'

ea8c1c9

Merge remote-tracking branch 'upstream/master'

573145f

Merge remote-tracking branch 'upstream/master'

f5faff9

Merge remote-tracking branch 'upstream/master'

b325e79

Merge remote-tracking branch 'upstream/master'

2a3470b

Merge remote-tracking branch 'upstream/master'

d287e8a

Merge remote-tracking branch 'upstream/master'

e9bde1f

Merge remote-tracking branch 'upstream/master'

b75cd6b

[REMOTE-SHUFFLE-43] Get Shuffle Partition Length from DAOS instead of…

ee1808f

… Driver Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

[REMOTE-SHUFFLE-43] Get Shuffle Partition Length from DAOS instead of…

2deb9cd

… Driver Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

Merge remote-tracking branch 'upstream/master' into ISSUE_43

8a1bfea

[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status

9d661a9

Signed-off-by: jiafu zhang <jiafu.zhang@intel.com>

jiafuzha requested a review from carsonwang December 3, 2021 02:01

Merge remote-tracking branch 'upstream/master' into ISSUE_43

f8aa6f0

jiafuzha merged commit 55f143b into oap-project:master Dec 14, 2021

jiafuzha deleted the ISSUE_43 branch December 14, 2021 07:36

jiafuzha mentioned this pull request Dec 14, 2021

Read Partitions from Highly Compressed Map Status #43

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status #49

[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status #49

jiafuzha commented Dec 3, 2021

github-actions bot commented Dec 3, 2021

[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status #49

[REMOTE-SHUFFLE-43] Read Partitions from Highly Compressed Map Status #49

Conversation

jiafuzha commented Dec 3, 2021

What changes were proposed in this pull request?

How was this patch tested?

github-actions bot commented Dec 3, 2021