Skip to content

textes en français annotés pour l'étiquetage morpho-syntaxique (pos + feats).

License

Notifications You must be signed in to change notification settings

thjbdvlt/corpus-narraFEATS

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

narraFEATS est un corpus de textes en français annotés pour l'étiquetage morpho-syntaxique (POS + feats).

Le corpus est conçu pour entrainer des modèles d'annotation morphologique pour textes narratifs et/ou conversationnels contemporains dans lesquels les pronoms personnels et temps verbaux sont variés (typiquement: des textes de fictions contenant des dialogues). Il est constitué de textes littéraires et de sciences humaines, ainsi que de quelques textes très brefs rédigés de façon ad hoc, et d'extraits de Wikipedia. Le corpus est disponible sous licence CC BY-SA 4.0. Il possède quelques spécificités:

  • Les seules apostrophes présentes sont les apostrophes droites (').
  • Le seul format d'écriture inclusive contractée est celui-ci: parti·es, auteur·rices.
  • La morphological feature Gender est absente.

Les textes ont été annotés de façon semi-automatiques: pré-annotés à l'aide de la librairie spaCy puis corrigés à l'aide de scripts, puis manuellement -- il comporte encore des erreurs.

corpus

Tous les textes ont été largement modifiés, de larges portions ayant été retirées, réécrites ou ajoutées1. Certains adjectifs et noms très fréquents ont aussi été systématiquement remplacés pour assurer une plus grande diversité lexicale (voir plus bas).

wikisource

the wittgenstein project

les classiques des sciences sociales

wikipedia

Les articles tirés de Wikipedia ont tous été plus ou moins modifié, souvent simplement pour ajouter des formes ou des mots absents du corpus, sans avoir à écrire de nouvelles phrases.

substitution

Dans certains de ces textes, certains mots sont répétés inlassablement, tandis que de nombreux mots sont (évidemment) absents du corpus. Or, il me semblait inutile que le modèle que j'entrainais sur ce corpus voie (par exemple) le mot champi 146 fois (car il y a françois le champi, de george sand, dans mon corpus), 53 fois le mot moulin (idem), 58 fois le mot pensionnaires (dans le père goriot), 168 fois jeune ou 85 fois libre. Autant remplacer ces mots par d'autres qui possèdent les mêmes caractéristiques morphologiques: remplacer l'adjectif libres par vacantes, libertaires ou aériennes.

Pour ce faire, j'ai fait quelques listes de mots (disponibles dans le dossier ./mots/):

  • Une liste de noms propres, celles des noms du crew de la série Dark Crystal, récupérée sur IMDB et de laquelle j'ai retranché les noms qui étaient des mots français.
  • Une liste de mots désignant des objets matériels qu'on peut trouver dans une maison, récupérés dans des textes de George Perec: Notes sur les objets qui se trouvent sur ma table de travail et les trois premiers chapitres de La vie mode d'emploi.
  • Liste d'interjection et d'onomatopées, reprise d'un document présentant les conventions de transcriptions d'un corpus oral: le Corpus du Français Parlé de nos Régions2.
  • Liste de concepts, obtenue en posant à ChatGPT la question suivante: la nature, l'art, la vie, la littérature, ... (continue autant que tu peux). Le début de sa réponse: la musique, la science, la philosophie, l'amour, la poésie, l'histoire, la cuisine, la danse.
  • Liste de noms de métiers (issue de Wikipedia).
  • Deux listes d'adjectifs, l'une pour les personnes (les choses animées) et l'autre pour les choses (inanimées). La liste pour les choses est essentiellement composé d'adjectifs à usage esthétique. Par exemple: merveilleux·euse, joli·e, fantastique. Il s'agit moins d'adjectifs exprimant strictement la valeur esthétique d'une chose que d'adjectifs pouvant être substitués aux mots beau·elle, joli·e: quelle jolie maison, quelle fantastique maison.

La colonne Misc (la dernière) des fichiers .conllu contient des labels utilisés pour remplacer ces mots (organisés en catégorie) et présentes le mot originalement présents (afin qu'il puisse être restauré si besoin)3:

25	cafétéria	_	NOUN  ...  Number=Sing  ...  noun.lieu=fontaine

Footnotes

  1. L'une des modifications a consisté à intégrer des formes d'écritures inclusive: formes contractées (auteur·rices, entraîné·es, etc.) et pronoms inclusifs et/ou non-binaires (iel, celleux, etc.).

  2. La liste ici présente contient quelques mots en plus (heu, ha, ...), d'autres en moins (oui, ouais).

  3. Certains mots comme, les noms propres originaux (tous remplacés par Dominique) ont été remplacé dans les textes avant l'annotation (pour facilité la pré-annotation automatique).

Releases

No releases published

Packages

No packages published