narraFEATS est un corpus de textes en français annotés pour l'étiquetage morpho-syntaxique (POS + feats).
Le corpus est conçu pour entrainer des modèles d'annotation morphologique pour textes narratifs et/ou conversationnels contemporains dans lesquels les pronoms personnels et temps verbaux sont variés (typiquement: des textes de fictions contenant des dialogues). Il est constitué de textes littéraires et de sciences humaines, ainsi que de quelques textes très brefs rédigés de façon ad hoc, et d'extraits de Wikipedia. Le corpus est disponible sous licence CC BY-SA 4.0. Il possède quelques spécificités:
- Les seules apostrophes présentes sont les apostrophes droites (
'
). - Le seul format d'écriture inclusive contractée est celui-ci:
parti·es
,auteur·rices
. - La morphological feature
Gender
est absente.
Les textes ont été annotés de façon semi-automatiques: pré-annotés à l'aide de la librairie spaCy puis corrigés à l'aide de scripts, puis manuellement -- il comporte encore des erreurs.
Tous les textes ont été largement modifiés, de larges portions ayant été retirées, réécrites ou ajoutées1. Certains adjectifs et noms très fréquents ont aussi été systématiquement remplacés pour assurer une plus grande diversité lexicale (voir plus bas).
- Colette, Paris de ma fenêtre (1944)
- George Sand, François le champi (1853)
- Jack London, L'appel de la forêt (1903, trad. 1908)
- Jack London, Lettre au juge Samuel (1910)
- Léon Tolstoi, Qu'est-ce que l'art (1898, trad. 1918)
- Marc-Aurèle, Pensées pour moi-même, (1876)
- Marcel Mauss, La sociologie: objet et méthode (1971)
- Selma Lagerlöf, Le Merveilleux Voyage de Nils Holgersson à travers la Suède (1906, trad. 1912)
- Simone Weil, La condition ouvrière (1951, rédaction en 1934-1937)
- Ludwig Wittgenstein, Conférence sur l'éthique (1929)
- Ludwig Wittgenstein, Le cahier bleu et Le cahier brun (trad. automatique avec deepl)
- Marcel Mauss, Les techniques du corps (1934 -- texte dans le domaine public depuis 2021).
Les articles tirés de Wikipedia ont tous été plus ou moins modifié, souvent simplement pour ajouter des formes ou des mots absents du corpus, sans avoir à écrire de nouvelles phrases.
- Article Donnée
- Article Logiciel libre
- Article Copier-coller
- Article Commun
- Extraits de l'article Football et Lois du jeu
Dans certains de ces textes, certains mots sont répétés inlassablement, tandis que de nombreux mots sont (évidemment) absents du corpus. Or, il me semblait inutile que le modèle que j'entrainais sur ce corpus voie (par exemple) le mot champi 146 fois (car il y a françois le champi, de george sand, dans mon corpus), 53 fois le mot moulin (idem), 58 fois le mot pensionnaires (dans le père goriot), 168 fois jeune ou 85 fois libre. Autant remplacer ces mots par d'autres qui possèdent les mêmes caractéristiques morphologiques: remplacer l'adjectif libres par vacantes, libertaires ou aériennes.
Pour ce faire, j'ai fait quelques listes de mots (disponibles dans le dossier ./mots/):
- Une liste de noms propres, celles des noms du crew de la série Dark Crystal, récupérée sur IMDB et de laquelle j'ai retranché les noms qui étaient des mots français.
- Une liste de mots désignant des objets matériels qu'on peut trouver dans une maison, récupérés dans des textes de George Perec: Notes sur les objets qui se trouvent sur ma table de travail et les trois premiers chapitres de La vie mode d'emploi.
- Liste d'interjection et d'onomatopées, reprise d'un document présentant les conventions de transcriptions d'un corpus oral: le Corpus du Français Parlé de nos Régions2.
- Liste de concepts, obtenue en posant à ChatGPT la question suivante: la nature, l'art, la vie, la littérature, ... (continue autant que tu peux). Le début de sa réponse: la musique, la science, la philosophie, l'amour, la poésie, l'histoire, la cuisine, la danse.
- Liste de noms de métiers (issue de Wikipedia).
- Deux listes d'adjectifs, l'une pour les personnes (les choses animées) et l'autre pour les choses (inanimées). La liste pour les choses est essentiellement composé d'adjectifs à usage esthétique. Par exemple: merveilleux·euse, joli·e, fantastique. Il s'agit moins d'adjectifs exprimant strictement la valeur esthétique d'une chose que d'adjectifs pouvant être substitués aux mots beau·elle, joli·e: quelle jolie maison, quelle fantastique maison.
La colonne Misc
(la dernière) des fichiers .conllu
contient des labels utilisés pour remplacer ces mots (organisés en catégorie) et présentes le mot originalement présents (afin qu'il puisse être restauré si besoin)3:
25 cafétéria _ NOUN ... Number=Sing ... noun.lieu=fontaine
Footnotes
-
L'une des modifications a consisté à intégrer des formes d'écritures inclusive: formes contractées (auteur·rices, entraîné·es, etc.) et pronoms inclusifs et/ou non-binaires (iel, celleux, etc.). ↩
-
La liste ici présente contient quelques mots en plus (heu, ha, ...), d'autres en moins (oui, ouais). ↩
-
Certains mots comme, les noms propres originaux (tous remplacés par Dominique) ont été remplacé dans les textes avant l'annotation (pour facilité la pré-annotation automatique). ↩