Add language_bcp47 tag (#4753)

* fix ms_terms * fix ted_talks_iwslt * move tags to language_bcp47 * fix bad codes * add language_details and language_bcp47 in DatasetMetadata * more fixes * fix wiki_dpr
huggingface · Jul 27, 2022 · aa48a29 · aa48a29 · github-actions · Jul 27, 2022
1 parent f5847a3
commit aa48a29
Show file tree

Hide file tree

Showing 60 changed files with 641 additions and 575 deletions.
diff --git a/datasets/ai2_arc/README.md b/datasets/ai2_arc/README.md
@@ -4,6 +4,8 @@ annotations_creators:
 language_creators:
 - found
 language:
+- en
+language_bcp47:
 - en-US
 license:
 - cc-by-sa-4.0

diff --git a/datasets/arcd/README.md b/datasets/arcd/README.md
@@ -4,6 +4,8 @@ annotations_creators:
 language_creators:
 - crowdsourced
 language:
+- ar
+language_bcp47:
 - ar-SA
 license:
 - mit

diff --git a/datasets/bbaw_egyptian/README.md b/datasets/bbaw_egyptian/README.md
@@ -5,8 +5,8 @@ language_creators:
 - found
 language:
 - de
-- en
 - egy
+- en
 license:
 - cc-by-4.0
 multilinguality:

diff --git a/datasets/blbooks/README.md b/datasets/blbooks/README.md
@@ -4,10 +4,10 @@ annotations_creators:
 language_creators:
 - machine-generated
 language:
-- en
-- fr
 - de
+- en
 - es
+- fr
 - it
 - nl
 license:

diff --git a/datasets/blbooksgenre/README.md b/datasets/blbooksgenre/README.md
@@ -5,8 +5,8 @@ language_creators:
 - crowdsourced
 - expert-generated
 language:
-- en
 - de
+- en
 - fr
 - nl
 license:

diff --git a/datasets/casino/README.md b/datasets/casino/README.md
@@ -21,7 +21,6 @@ task_ids:
 - dialogue-modeling
 pretty_name: Campsite Negotiation Dialogues
 paperswithcode_id: casino
-
 ---
 
 

diff --git a/datasets/cc100/README.md b/datasets/cc100/README.md
@@ -12,7 +12,6 @@ language:
 - be
 - bg
 - bn
-- bn-Latn
 - br
 - bs
 - ca
@@ -39,7 +38,6 @@ language:
 - ha
 - he
 - hi
-- hi-Latn
 - hr
 - ht
 - hu
@@ -71,7 +69,6 @@ language:
 - mr
 - ms
 - my
-- my-x-zawgyi
 - ne
 - nl
 - 'no'
@@ -87,9 +84,9 @@ language:
 - ro
 - ru
 - sa
-- si
 - sc
 - sd
+- si
 - sk
 - sl
 - so
@@ -100,26 +97,31 @@ language:
 - sv
 - sw
 - ta
-- ta-Latn
 - te
-- te-Latn
 - th
 - tl
 - tn
 - tr
 - ug
 - uk
 - ur
-- ur-Latn
 - uz
 - vi
 - wo
 - xh
 - yi
 - yo
+- zh
+- zu
+language_bcp47:
+- bn-Latn
+- hi-Latn
+- my-x-zawgyi
+- ta-Latn
+- te-Latn
+- ur-Latn
 - zh-Hans
 - zh-Hant
-- zu
 license:
 - unknown
 multilinguality:

diff --git a/datasets/ccaligned_multilingual/README.md b/datasets/ccaligned_multilingual/README.md
@@ -18,9 +18,9 @@ language:
 - br
 - bs
 - ca
+- ceb
 - ckb
 - cs
-- ceb
 - cy
 - de
 - dv
@@ -48,6 +48,7 @@ language:
 - iu
 - ja
 - ka
+- kac
 - kg
 - kk
 - km
@@ -71,7 +72,6 @@ language:
 - ms
 - mt
 - my
-- my
 - ne
 - nl
 - 'no'
@@ -83,15 +83,14 @@ language:
 - pl
 - ps
 - pt
-- shn
-- kac
 - rm
 - ro
 - ru
 - rw
 - sc
 - sd
 - se
+- shn
 - si
 - sk
 - sl
@@ -116,19 +115,18 @@ language:
 - tr
 - ts
 - tt
-- zgh
 - ug
 - uk
 - ur
 - uz
 - ve
 - vi
-- wo
 - war
+- wo
 - xh
 - yi
 - yo
-- zh
+- zgh
 - zh
 - zu
 - zza

diff --git a/datasets/code_x_glue_tc_text_to_code/README.md b/datasets/code_x_glue_tc_text_to_code/README.md
@@ -4,8 +4,8 @@ annotations_creators:
 language_creators:
 - found
 language:
-- en
 - code
+- en
 license:
 - c-uda
 multilinguality:

diff --git a/datasets/code_x_glue_tt_text_to_text/README.md b/datasets/code_x_glue_tt_text_to_text/README.md
@@ -5,10 +5,10 @@ language_creators:
 - found
 language:
 - da
-- nb
+- en
 - lv
+- nb
 - zh
-- en
 license:
 - c-uda
 multilinguality:

diff --git a/datasets/common_language/README.md b/datasets/common_language/README.md
@@ -22,7 +22,7 @@ language:
 - eu
 - fa
 - fr
-- fy-NL
+- fy
 - ia
 - id
 - it
@@ -36,17 +36,22 @@ language:
 - nl
 - pl
 - pt
-- rm-sursilv
+- rm
 - ro
 - ru
 - rw
 - sah
 - sl
-- sv-SE
+- sv
 - ta
 - tr
 - tt
 - uk
+- zh
+language_bcp47:
+- fy-NL
+- rm-sursilv
+- sv-SE
 - zh-CN
 - zh-HK
 - zh-TW

diff --git a/datasets/common_voice/README.md b/datasets/common_voice/README.md
@@ -25,8 +25,8 @@ language:
 - fa
 - fi
 - fr
-- fy-NL
-- ga-IE
+- fy
+- ga
 - hi
 - hsb
 - hu
@@ -44,24 +44,31 @@ language:
 - mt
 - nl
 - or
-- pa-IN
+- pa
 - pl
 - pt
-- rm-sursilv
-- rm-vallader
+- rm
 - ro
 - ru
 - rw
 - sah
 - sl
-- sv-SE
+- sv
 - ta
 - th
 - tr
 - tt
 - uk
 - vi
 - vot
+- zh
+language_bcp47:
+- fy-NL
+- ga-IE
+- pa-IN
+- rm-sursilv
+- rm-vallader
+- sv-SE
 - zh-CN
 - zh-HK
 - zh-TW

diff --git a/datasets/conv_questions/README.md b/datasets/conv_questions/README.md
@@ -4,6 +4,8 @@ annotations_creators:
 language_creators:
 - crowdsourced
 language:
+- en
+language_bcp47:
 - en-US
 license:
 - cc-by-4.0

diff --git a/datasets/covost2/README.md b/datasets/covost2/README.md
@@ -5,27 +5,30 @@ language_creators:
 - crowdsourced
 - expert-generated
 language:
-- fr
+- ar
+- ca
+- cy
 - de
 - es
-- ca
-- it
-- ru
-- zh-CN
-- pt
-- fa
 - et
+- fa
+- fr
+- id
+- it
+- ja
+- lv
 - mn
 - nl
-- tr
-- ar
-- sv-SE
-- lv
+- pt
+- ru
 - sl
+- sv
 - ta
-- ja
-- id
-- cy
+- tr
+- zh
+language_bcp47:
+- sv-SE
+- zh-CN
 license:
 - cc-by-nc-4.0
 multilinguality:

diff --git a/datasets/hendrycks_test/README.md b/datasets/hendrycks_test/README.md
@@ -4,6 +4,8 @@ annotations_creators:
 language_creators:
 - expert-generated
 language:
+- en
+language_bcp47:
 - en-US
 license:
 - mit

diff --git a/datasets/ilist/README.md b/datasets/ilist/README.md
@@ -6,11 +6,11 @@ multilinguality:
 task_ids:
 - text-classification-other-language-identification
 language:
-- hi
 - awa
 - bho
-- mag
 - bra
+- hi
+- mag
 annotations_creators:
 - unknown
 source_datasets:

diff --git a/datasets/kan_hope/README.md b/datasets/kan_hope/README.md
@@ -4,6 +4,9 @@ annotations_creators:
 language_creators:
 - crowdsourced
 language:
+- en
+- kn
+language_bcp47:
 - en-IN
 - kn-IN
 license: