trwiki-67 is a language modeling dataset that contain 67 million words of raw wikipedia articles. It can be utilized as a benchmark for different language modeling tasks on character, subword, or word level.
This dataset was extracted from a Turkish wikipedia dump on 20 July 2021.
All lists and tables were removed from the articles, and the initial extraction from .xml dump was done using wikiextractor:
pip install wikiextractor
python -m wikiextractor.WikiExtractor trwiki-20210720-pages-articles-multistream.xml.bz2 \
--json \
--processes 16 \
--no-templates \
--output trwiki \
--bytes 100M \
--compress
Additionally, further preprocessing was applied to get rid of redundant text. Only raw text with the titles of the articles were kept in their cased format (with no upper/lower case transformations).
Article titles were included in text using this format == TITLE ==
. And articles are seperated by empty lines.
Example:
== NGC 1710 ==
NGC 1710, Yeni Genel Katalog'da yer alan bir galaksidir. Gökyüzünde Aslan takımyıldızı yönünde bulunur. E-S0 tipi bir merceksi, eliptik galaksidir. Amerikan astronom Francis Leavenworth tarafından 1885 yılında 66,04 cm (26 inç) çaplı mercekli tip bir teleskopla keşfedilmiştir.
== Şenol Gürşan ==
Şenol Gürşan, (d. 17 Ekim 1964, Pınarhisar, Kırklareli) Türk avukat ve siyasetçi.
İstanbul Üniversitesi Hukuk Fakültesi'ni bitirmiş ve serbest avukat olarak çalışmıştır. Kırklareli İlim Yayma Cemiyeti Kuruculuğu ve Başkanlığı görevlerinde bulunmuştur.
2009 yılında Adalet ve Kalkınma Partisi Kırklareli il yönetim kurulu üyesi olmuş, TBMM 24. dönem AK Parti Kırklareli milletvekili, Türkiye-Polonya Dostluk Grubu Başkanı ve TBMM KİT Komisyonu Sözcüsü olmuştur. Gelecek Partisi Kurucular Kurulu üyesi olup aynı zamanda partinin genel sekreteridir.
İyi düzeyde Almanca bilen Gürşan, evli ve 2 çocuk babasıdır.
== Bovenau ==
Bovenau Almanya'nın kuzeyinde Schleswig-Holstein eyaletinde, Rendsburg-Eckernförde iline bağlı bölge. Rendsburg'un 10 km. doğusunda yer alır. 26,2 km² yüzölçümüne sahiptir. Nüfusu, 17 Temmuz 2006 itibarıyla yaklaşık 1098 olarak tespit edilmiştir. Belediye Başkanlığı Jürgen Liebsch tarafından yürütülmektedir.
This dataset is split based on the number of articles for each split. In the table below you can find some statistics:
train | val | test | total | |
---|---|---|---|---|
# of Articles | 374123 | 10000 | 10000 | 394123 |
Raw text size | 508MB | 15MB | 14MB | 536MB |
Total # of words | 63.5M | 1.7M | 1.7M | 67M |
Avg. # of words per article | 198 | 210 | 200 | 198 |
Avg. # of sentences per article | 12.8 | 13.3 | 12.9 | 12.8 |
After setting min frequency to 3, number of unique words is ~644K
To separate articles with their titles you can use this snippet:
import re
with open("trwiki-67.test.txt") as fi:
content = fi.read()
articles = [ { "title": ti.strip("==").strip(), "text": tx.strip()} for ti, tx in zip(re.findall("== .* ==", content), re.split("== .* == \n\n", content)[1:]) ]
@dataset{ali_safaya_2021_5146001,
author = {Ali Safaya},
title = {trwiki-67},
month = jul,
year = 2021,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5146001},
url = {https://doi.org/10.5281/zenodo.5146001}
}
Uploaded and documented by Ali Safaya: alisafaya gmail com