GitHub - maxoodf/russian_news_corpus: Russian mass media stemmed texts corpus / Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ

Russian mass media stemmed texts corpus

Russian mass media (27 top on-line sources) articles collection for the period of 04.2016 - 03.2017. Articles are stemmed and separated by '\n' char delimiter.
Also, the original collection (without stemming) can be downloaded here.

Size: ~ 4.5 GB
Articles: ~ 1 500 000
Words, total: ~ 360 000 000
Words, unique: ~ 5 178 821
Vocabulary size: 435 114 (word frequency > 10)

The corpus could be useful in NLP projects, word2vec models training and other ML algorithms developing.

HOWTO

The file is compressed by bzip2 utility and split to 49M parts.
Execute the following commands to get the corpus in txt format:

git clone https://github.com/maxoodf/russian_news_corpus.git
cd ./russian_news_corpus
cat ./russian_news.txt.bz2_a* | bzip2 -d > ./russian_news.txt

Корпус лемматизированных текстов российских СМИ

Коллекция лемматизированных (морфологически нормализованных) текстов российских СМИ (27 ведущих он-лайн порталов) за период 04.2016 - 03.2017. Статьи разделены символом '\n'.
Коллекция тексов, так же, доступна без лемматизации.

Размер корпуса: ~ 4.5 GB
Статей: ~ 1 500 000
Слов, всего: ~ 360 000 000
Слов, уникальных: ~ 5 178 821
Размер словаря: 435 114 (частота слова > 10)

Назначение данного корпуса - исследования, связанные с машинной обработкой текстов, создание word2vec моделей, алгоритмов машинного обучения и т.д.

Как загрузить корпус

Файл с содержимым корпуса сжат и разбит на части по 49М. Необходимо выполнить следующие команды для получения исходного файла в текстовом формате:

git clone https://github.com/maxoodf/russian_news_corpus.git
cd ./russian_news_corpus
cat ./russian_news.txt.bz2_a* | bzip2 -d > ./russian_news.txt

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
LICENSE		LICENSE
README.md		README.md
russian_news.txt.bz2_aa		russian_news.txt.bz2_aa
russian_news.txt.bz2_ab		russian_news.txt.bz2_ab
russian_news.txt.bz2_ac		russian_news.txt.bz2_ac
russian_news.txt.bz2_ad		russian_news.txt.bz2_ad
russian_news.txt.bz2_ae		russian_news.txt.bz2_ae
russian_news.txt.bz2_af		russian_news.txt.bz2_af
russian_news.txt.bz2_ag		russian_news.txt.bz2_ag
russian_news.txt.bz2_ah		russian_news.txt.bz2_ah
russian_news.txt.bz2_ai		russian_news.txt.bz2_ai
russian_news.txt.bz2_aj		russian_news.txt.bz2_aj
russian_news.txt.bz2_ak		russian_news.txt.bz2_ak
russian_news.txt.bz2_al		russian_news.txt.bz2_al
russian_news.txt.bz2_am		russian_news.txt.bz2_am

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Russian mass media stemmed texts corpus

HOWTO

Корпус лемматизированных текстов российских СМИ

Как загрузить корпус

About

Releases

Packages

License

maxoodf/russian_news_corpus

Folders and files

Latest commit

History

Repository files navigation

Russian mass media stemmed texts corpus

HOWTO

Корпус лемматизированных текстов российских СМИ

Как загрузить корпус

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages