Name		Name	Last commit message	Last commit date
parent directory ..
src		src
0.txt		0.txt
1.txt		1.txt
2.txt		2.txt
3.txt		3.txt
4.txt		4.txt
5.txt		5.txt
6.txt		6.txt
7.txt		7.txt
8.txt		8.txt
9.txt		9.txt
README.md		README.md
_.txt		_.txt
a.txt		a.txt
aring.txt		aring.txt
auml.txt		auml.txt
b.txt		b.txt
c.txt		c.txt
d.txt		d.txt
e.txt		e.txt
f.txt		f.txt
g.txt		g.txt
h.txt		h.txt
i.txt		i.txt
j.txt		j.txt
k.txt		k.txt
l.txt		l.txt
m.txt		m.txt
n.txt		n.txt
o.txt		o.txt
ouml.txt		ouml.txt
p.txt		p.txt
q.txt		q.txt
r.txt		r.txt
s.txt		s.txt
t.txt		t.txt
u.txt		u.txt
v.txt		v.txt
w.txt		w.txt
x.txt		x.txt
y.txt		y.txt
z.txt		z.txt

README.md

Wikipedia

Filer

6 130 751 titlar från alla svenska Wikipedia-sidor, fördelat med en fil per begynnelsebokstav (exempelvis a.txt för bokstaven A) för alla ord A-Ö och 0-9 samt övriga titlar sorterade under _.txt.

Svenska tecken som Å, Ä och Ö fungerar inte speciellt bra som filnamn och har därför fått följande namn i stället (baserade på deras HTML-tecken):

Å = aring.txt
Ä = auml.txt
Ö = ouml.txt

Datastruktur

En Wikipedia-titel per rad.

Källa

Wikimedia Downloads (Ladda ned direkt: svwiki-latest-all-titles-in-ns0.gz 30 MB, 120 MB uppackat)

Källkod

Python

import pandas as pd

sv_wikipedia_titles = pd.DataFrame(columns=["title"])

# Read each file into a single list.
for char in "a b c d e f g h i j k l m n o p q r s t u v w x y z aring auml ouml _ 0 1 2 3 4 5 6 7 8 9".split(" "):
    print("Reading {}...".format(char))
    df = pd.read_csv("https://github.com/peterdalle/svensktext/raw/master/wikipedia/" + char + ".txt", names=["title"]) 
    sv_wikipedia_titles = sv_wikipedia_titles.append(df)

# How many titles do we have?
print(len(sv_wikipedia_titles))

# Show tail.
sv_wikipedia_titles.tail()

R

# Read each file into a single list.
sv_wikipedia_titles <- NULL
for(char in c(letters, "aring", "auml", "ouml", "_", 0:9))
{
  print(paste0("Reading ", char, "..."))
  df <- read.csv(paste0("https://github.com/peterdalle/svensktext/raw/master/wikipedia/", char, ".txt"), 
                 encoding = "utf8", 
                 quote = "", 
                 sep="",
                 row.names = NULL, 
                 stringsAsFactors = FALSE,
                 header = FALSE)
  df$title <- df$V1
  df$V1 <- NULL
  sv_wikipedia_titles <- rbind(sv_wikipedia_titles, df)
}

# Set title encoding to UTF-8.
Encoding(sv_wikipedia_titles$title) <- "UTF-8"

# View.
tail(sv_wikipedia_titles$title)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia

wikipedia

README.md

Wikipedia

Filer

Datastruktur

Källa

Källkod

Python

R

Files

wikipedia

Directory actions

More options

Directory actions

More options

Latest commit

History

wikipedia

Folders and files

parent directory

README.md

Wikipedia

Filer

Datastruktur

Källa

Källkod

Python

R