Use max number of data files to infer module #3407

albertvillanova · 2021-12-08T14:58:43Z

When inferring the module for datasets without script, set a maximum number of iterations over data files.

This PR fixes the issue of taking too long when hundred of data files present.

Please, feel free to agree on both numbers:

# Datasets without script
DATA_FILES_MAX_NUMBER = 10
ARCHIVED_DATA_FILES_MAX_NUMBER = 5

Fix #3404.

lhoestq

Cool thank you ! This will makes the loading of some datasets much much faster.

Some minor comments:

src/datasets/config.py

src/datasets/load.py

lhoestq · 2021-12-14T10:30:01Z

Cool thanks :) Feel free to merge if it's all good for you

albertvillanova added 2 commits December 8, 2021 15:55

Set config max number of data files

e444947

Use max number of data files to infer module

d0ae0a8

albertvillanova mentioned this pull request Dec 8, 2021

Create dataset british_library_hertiage_made_digital_newspapers bigscience-workshop/data_tooling#232

Open

lhoestq approved these changes Dec 13, 2021

View reviewed changes

src/datasets/config.py Outdated Show resolved Hide resolved

src/datasets/load.py Outdated Show resolved Hide resolved

src/datasets/load.py Outdated Show resolved Hide resolved

albertvillanova added 2 commits December 13, 2021 18:36

Add max number of globbed data files and rename

18c29fd

Merge remote-tracking branch 'upstream/master' into fix-3404

d167bf4

albertvillanova merged commit 0d814bd into master Dec 14, 2021

albertvillanova deleted the fix-3404 branch December 14, 2021 17:08

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use max number of data files to infer module #3407

Use max number of data files to infer module #3407

albertvillanova commented Dec 8, 2021

lhoestq left a comment

lhoestq commented Dec 14, 2021

Use max number of data files to infer module #3407

Use max number of data files to infer module #3407

Conversation

albertvillanova commented Dec 8, 2021

lhoestq left a comment

Choose a reason for hiding this comment

lhoestq commented Dec 14, 2021