Lemma är grundformen av ett ord ("springa" är grundformen av "sprang" och "sprungit"), vilket är användbara i en stemmer.
675 137 ordpar med lemma på svenska.
Kolumn | Beskrivning | Datatyp |
---|---|---|
lemma |
Grundformen av ordet (t ex "springa") | Text |
word |
Varianter av ordet (t ex "sprungit") | Text |
- https://github.com/michmech/lemmatization-lists/, licensierad med Open Database License.
# Import.
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/peterdalle/svensktext/master/lemma/lemmatization.csv",
encoding = "utf-8",
header = 0,
sep = ",")
# Count unique lemmas.
len(df["lemma"].unique())
# Import.
df <- read.csv("https://raw.githubusercontent.com/peterdalle/svensktext/master/lemma/lemmatization.csv",
header = TRUE,
encoding = "UTF-8",
stringsAsFactors = FALSE)
# Count unique lemmas.
NROW(unique(df$lemma))