wikipedia-dump

Here are 76 public repositories matching this topic...

pirate / wikipedia-mirror

🌐 Guide and tools to run a full offline mirror of Wikipedia.org with three different approaches: Nginx caching proxy, Kiwix + ZIM dump, and MediaWiki/XOWA + XML dump

html docker nginx wiki docker-compose mediawiki wikipedia archiving datascience kiwix zim wikipedia-dump wikipedia-mirror openzim xowa internet-archiving mwdumper kiwix-offline-wikipedia

Updated Apr 7, 2021
Shell

yohasebe / wp2txt

Star

A command-line toolkit to extract text content and category data from Wikipedia dump files

ruby nlp machine-learning wikipedia corpus wikipedia-dump

Updated May 13, 2023
Ruby

howl-anderson / chinese-wikipedia-corpus-creator

Sponsor

Star

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

uma-pi1 / OPIEC

Star

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

pvoosten / explicit-semantic-analysis

Star

Wikipedia-based Explicit Semantic Analysis, as described by Gabrilovich and Markovitch

java vector java-8 concept lucene esa wikipedia-dump semantic-analysis explicit-semantic-analysis

Updated May 13, 2020
Java

dlenski / wp2git

Star

Downloads and imports Wikipedia page histories to a git repository

git mediawiki wikipedia-dump

Updated Dec 14, 2024
Python

shyamupa / wikidump_preprocessing

Star

Extracting useful metadata from Wikipedia dumps in any language.

multilingual redirects wikipedia python3 disambiguation wikipedia-dump metadata-extraction wikiextractor

Updated Sep 20, 2019
Python

macbre / mediawiki-dump

Star

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Dec 2, 2024
Python

lemire / IndexWikipedia

Sponsor

Star

A simple utility to index wikipedia dumps using Lucene.

java lucene wikipedia-dump

Updated Oct 13, 2020
Java

Dr-Lego / gag-network

Star

Network Visualizer for the 'Geschichten aus der Geschichte' Podcast

javascript python data-science database podcast wikipedia data-visualization sqlite3 network-analysis wikipedia-dump

Updated Nov 25, 2024
Python

OlehOnyshchak / pyWikiMM

Star

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

akb89 / witokit

Star

A Python toolkit to generate a tokenized dump of Wikipedia for NLP

multilingual nlp wikipedia dump wikipedia-dump tokenize

Updated May 3, 2024
Python

jon-edward / wiki_dump

Star

A library that assists in traversing and downloading from Wikimedia Data Dumps and their mirrors.

wikipedia wikidata wikimedia wikipedia-dump

Updated Dec 17, 2024
Python

tomer8007 / wikipedia-to-json

Star

Node.js module for parsing the content of wikipedia articles into javascript objects

nodejs javascript parser json wikipedia wikipedia-dump

Updated Oct 24, 2021
JavaScript

CristianCantoro / wikidump-download-tools

Star

Scripts to download the Wikipedia dumps (available at https://dumps.wikimedia.org/ )

wikipedia wikipedia-dump

Updated Apr 19, 2024
Shell

qcl / master-research

Star

Research for master degree, operation projizz-I/O

nlp knowledge-graph named-entity-recognition wikipedia-dump patty kba yago

Updated Dec 27, 2017
Python

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

DhavalTaunk08 / Wiki-Search-Engine

Star

Contains code to build a search engine by creating an index and perform search over Wikipedia data.

search-engine information-retrieval information-extraction xml-parser wikipedia-dump

Updated Oct 11, 2021
Python

studerw / wiki-dump-parser

Star

Java tool to Wikimedia dumps into Java Article pojos for test or fake data.

java wiki wikipedia wikipedia-dump fake-data wikiextractor

Updated Dec 5, 2023
Java

CogComp / wikidump-preprocessing

Star

Wikipedia Dump Processing

wikipedia wikipedia-dump

Updated Mar 26, 2020
Python

Improve this page

Add a description, image, and links to the wikipedia-dump topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-dump topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia-dump

Here are 76 public repositories matching this topic...

pirate / wikipedia-mirror

yohasebe / wp2txt

howl-anderson / chinese-wikipedia-corpus-creator

uma-pi1 / OPIEC

pvoosten / explicit-semantic-analysis

dlenski / wp2git

shyamupa / wikidump_preprocessing

macbre / mediawiki-dump

lemire / IndexWikipedia

Dr-Lego / gag-network

OlehOnyshchak / pyWikiMM

akb89 / witokit

jon-edward / wiki_dump

tomer8007 / wikipedia-to-json

CristianCantoro / wikidump-download-tools

qcl / master-research

quqixun / ReadWiki-ZH

DhavalTaunk08 / Wiki-Search-Engine

studerw / wiki-dump-parser

CogComp / wikidump-preprocessing

Improve this page

Add this topic to your repo