-
Notifications
You must be signed in to change notification settings - Fork 0
edesmontils/WA
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
WA est un outil permettant d'extraire des pages caractéristiques d'un DUMP XML de Wikipédia (qui respecte "mediawiki2.dtd"). Il permet d'obtenir des mesures sur le nombre de commits, le nombre de pages, le nombre d'interventions de robots, le nombre d'"utilisateurs", etc. WA.php fait une première passe pour trouver les pages intéressantes. Elle crée "WA_list.xml" selon la DTD "explore.dtd". php WA.php -w wiki_dump.xml [-n nb_of_res] -l WA_list.xml Extractor.php récupère ces pages pour créer un extrait du Wikipedia qu'elle dépose dans "wiki_corpus_repository". Chaque page respecte la DTD "page_mediawiki.dtd". php Extractor.php -d wiki_corpus_repository -w wiki_dump.xml -l WA_list.xml LogootAnalyser.php analyse les fichiers extraits par rapport à Logoot php LogootAnalyser.php -d wiki_corpus_repository -l WA_list.xml [options] Option sur les espaces de noms : -n "namespace" (par défaut tous les espaces sont pris) Options sur les propriétés (au moins une) : -t : pour la mesure sur les tailles des pages -p : pour la mesure sur le nombre de patchs -r : pour la mesure sur le nombre de robots -u : pour la mesure sur le nombre d'utilisateurs référencés Options d'optimisation : -b val : pour mettre en oeuvre les 'boundary' standard -a val : pour mettre en oeuvre les 'boundary' avancés (si -b présent) -o : pour mettre en oeuvre les optimisations d'ajout en création, en fin et début -i val : pour spécifier la longueur des identifiants (2 par défaut) Options de type de page : -x : les pages 'max' (par défaut) -m : les pages 'random' E. Desmontils, Université de Nantes, 20 juin 2011 / 21 sept. 2011 équipe GDD, LINA. Exemple d'analyse : php WA.php -w frwiki-head.xml -l ex.xml php Extractor.php -d ./files -w frwiki-head.xml -l ex.xml php LogootAnalyser.php -d ./files -l ex.xml -t > analyse.xml
About
WA is a Wikipedia Analyser based on the XML dump
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published