speakleash_filters

First filters for SpeakLeash files quality assessment.

filters.py — accepts dataset name, contains filters classified against three categories: format_quality, text_quality and readability. For each error category a list of indices of LOW and HIGH-quality documents is printed.

filters_df_labels.py — accepts dataset name, contains filters for final quality score (LOW, MEDIUM, HIGH) for each document, returns a dataframe with one final label per document assigned.

quality.py (to be implemented and included in speakleash file manifest) — accepts dataset name, contains filters for final quality score (LOW, MEDIUM, HIGH) for each document, returns a final label for each document.

quality_format.py (to be implemented and included in speakleash file manifest) — accepts dataset name, contains filters for format quality score for each document, returns a Boolean value for format_correct metric. To be used with OCR-ed documents.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.idea		.idea
.gitignore		.gitignore
README.md		README.md
code_url_detection.py		code_url_detection.py
filters.py		filters.py
filters_df_labels.py		filters_df_labels.py
q_and_a.py		q_and_a.py
quality.py		quality.py
quality_format.py		quality_format.py
similar_content_detection.py		similar_content_detection.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

speakleash_filters

About

Releases

Packages

Languages

mglabska/speakleash_filters

Folders and files

Latest commit

History

Repository files navigation

speakleash_filters

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages