layout: true
CLARIN-D – Common Language Resources and Technology Infrastructure | www.clarin-d.net |
class: title-slide
Thomas Werneke | Kay-Michael Würzner |
---|---|
werneke@zzf-potsdam.de | wuerzner@bbaw.de |
Vier Ziele:
- Vermittlung technischer Grundlagen
- Veranschaulichung der computerlinguistischen Verfahren anhand einfacher Beispiele
- Annäherung an die methodischen Herausforderungen der digitalen Hermeneutik
- Einstieg in fachlich relevante Fallbeispiele
-
Was sind Digitale Geisteswissenschaften?
- Neue Arbeitsweisen?
- Neue Methodiken?
- Eine neue Disziplin?
-
Alle arbeiten bereits „digital“
- mit Smartboards, Lernplattformen und digitalen Bildungsmedien
- mit Online‐Katalogen der Bibliotheken und fachlichen Onlineportalen (z. B. H-Soz-Kult)
- mit digitalen Werkzeugen (wie Google Ngram Viewer)
Fallbeispiel: love=>*_noun
im „English“-Korpus
(10 häufigste Nomen in der Nähe von love)
class: title-slide
- Sammlungen von Texten
- sprachwissenschaftliche Referenzkorpora
- repräsentative Erfassung der Gesamtheit einer Sprache (bzw. eines Sprachstandes)
- Englisch: British National Corpus (Burnard, 1995)
- Deutsch:
- DWDS-Kernkorpus (Geyken, 2007)
- Deutsches Textarchiv (Geyken und Klein, 2009)
- Spezialkorpora
- repräsentative Erfassung eines speziellen Ausschnitts einer Sprache
- medial: Zeitungskorpora, Filmuntertitelkorpora, Internetkorpora
- inhaltlich: Berliner Wendekorpus, JuSpiL-Korpus (Dittmar, 2005)
- forschungsbezogen: childLex (Schroeder et al., 2014)
- große Auswahl an gegenwartssprachlichen
- DWDS-Kernkorpus, -Ergänzungskorpus
- Zeitungskorpora (Die ZEIT, Spiegel (online), Auswahl Bild, Welt etc.)
- Spezialkorpora (Filmuntertitel, politische Reden, Bundestagsprotokolle und -drucksachen)
- und historischen Korpora
- DTA-Kernkorpus
- DTA-Ergänzungen (Auswahl Wikisource, Auswahl Gutenberg, Auswahl Mannheimer historische Zeitungen etc.)
- Dinglers Polytechnisches Journal
- Die Grenzboten
- einheitliche Architektur für Annotation, Indizierung und Auswertung und Präsentation: dstar
- Indizierung der Text- und Metadaten
- Wortattribute
- Token, Lemma, PoS, kanonische Schreibung ...
- Metadatenattribute
- Autor, Titel, Datum, Textsorte ...
- Wortattribute
- Abfragetypen
- Term-Expansion: Query Lizard:
Bank
- Konjunktion, satzlokal:
Bank {Geld, Kredit}
- oder termlokal:
Kohl with $p=NE
- Wildcards, Phrasen, RegEx:
"anti* #2 Propaganda"
- Term-Expansion: Query Lizard:
class: title-slide
- zum Begriff linguistische Annotation
- Auszeichnung bestimmter linguistischer Eigenschaften
- Bezug zu einer Einheit des Textes:
- Wort: Silbenstruktur, morphologische Zerlegung, lexikalische Semantik etc.
- Wortgruppe: Mehrwortausdrücke, Namen, Kollokationen etc.
- Phrase: syntaktische Kategorie, syntaktische Funktion
- Satz: syntaktische Struktur, Satzsemantik, Funktion im Text
- manuelle vs. automatische Annotation
- Annotation von Korpora
- Strukturierung und Anreicherung der Rohtexte zum Zwecke
- besserer Durchsuchbarkeit
- einfacherer Belegidentifikation
- moderner Korpuspräsentationsformen
- quantitativer Auswertungen
- Korpusumfang bedingt vollautomatische Analysekette
- Strukturierung und Anreicherung der Rohtexte zum Zwecke
Beispiel | |||||
---|---|---|---|---|---|
Rohtext | Aerzte | ſind | des | HERRgotts | Menſchenflikker |
Normalisiert | Ärzte | sind | des | Herrgotts | Menschenflicker |
Lemma | Arzt | sein | die | Herrgott | Menschenflicker |
Tag | NN |
VAFIN |
ART |
NN |
NN |
Grammatik | Subjekt |
Prädikat |
Objekt |
Objekt |
Objekt |
- Analysekette:
- Zerlegung des Fließtextes in Wörter und Sätze: Tokenisierung
- Bestimmung der Grundform der Wörter: Lemmatisierung
- Bestimmung der tatsächlichen Wortart eines Wortes: PoS-Tagging
- Klassifizierung der Beziehungen der Wörter untereinander: Dependenzparsing
- Auszählen gemeinsamer Vorkommen von Wörtern bzw. Wortgruppen: distributionelle Semantik
- vollautomatisch möglich (mit akzeptabler Qualität)
- zwei grundsätzliche Ansätze der Modellierung:
- auf Basis von Expertenwissen manuell erstellte Regeln
- auf Basis manuell erstellter Beispiele automatisch induzierte Regeln
- Unterteilung von Fließtext in Wörter (bzw. Tokens) und Sätze
- (Vor-)Klassifizierung der Tokens zur Beschleunigung der morphologischen Analyse
- Abkürzungen
- Zahlen
- Sonderzeichen
- Fremdalphabete
- Normalisierung der Worttrennung
- Ansatz: Trennung an Leerraum
- statistischer Ansatz, überwachtes Lernen
Problembereich Satz
Nach einer Schätzung des Industrieministeriums sind es mehr als 800.
»Österreich wurde alleingelassen in Europa«, beschwerte sich SPÖ-
Zentralsekretär Josef Cap.
SZ: Auf die Wahlerfolge der rechtsradikalen Parteien ...
Problembereich Token
Kaiser's-Netz → Kaiser 's-Netz
Jeanne d'Arc → Jeanne d' Arc
mm. → mm. [ORD]
CDU/CSU → CDU / CSU
(Verwaltungs-)Personal → ( Verwaltungs- ) Personal
- Aufgabe
- Bestimmung der möglichen Wortarten eines Wortes
grünen ↦ {Verb, Adjektiv} Müller ↦ {Substantiv, Eigenname}
- Abbildung auf eine kanonische Grundform (Lemma)
grünen ↦ grün Müllers ↦ Müller
- Identifikation der beteiligten Wortbildungsprozesse
Grünspan ↦ grün<A>#Span<N> verirren ↦ ver<p>+irren<V>
- Bestimmung der möglichen Wortarten eines Wortes
- Verfahren des maschinellen Lernens nicht geeignet
- herausfordend für Sprachen mit komplexer Wortbildung
Finite State Morphology
(klassischer regelbasierter Ansatz):- man nehme
- eine große Liste einfacher Wörter
- deren morphosyntaktische Eigenschaften
- Vor- und Nachsilben,
- packe dies in einen endlichen Automaten und
- bilde dessen Kleenesche Hülle
- man nehme
- Bestandteil der meisten Sprachverarbeitungssysteme
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
count: false
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
count: false
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
count: false
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
count: false
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
count: false
- Illustration
- Lexikon
{schön<A>,Geist<N>}
- Vorsilben
{un<p>,ur<p>}
- Nachsilben
{heit<N>,lich<A>}
- Lexikon
- Auswahl der wahrscheinlichsten Wortart im konkreten Satzkontext aus der Menge der möglichen Wortarten eines Wortes
- statistischer Ansatz, trainiert auf manuell kategorisierten Daten
- Modell über Trigramme aus Wörtern und Kategoriemengen (i. e. Wortklasse)
- Bestimmung der wahrscheinlichsten Kategoriesequenz für einen Satz
- heuristische Auswahl der „einfachsten“ Grundform
- angepasste Modelle für historische Sprache, gesprochene Sprache, Kindersprache etc.
TreeTagger
als bekanntestes, frei verfügbares Werkzeug
count: false
- Häufigkeit eines Wort über einen zeitlichen Verlauf
- nutzen Textsammlungen als Basis, z. B.:
- Zeitungen (1945 bis heute)
- Deutsches Textarchiv und DWDS-Kernkorpus (1600–2000)
- Metadaten für jeden Text:
- Datum (Jahr)
- Textklasse (Belletristik, Gebrauchsliteratur, Wissenschaft, Zeitung)
- und viele weitere (i. e. beliebige DDC-Abfragen)
- Darstellung:
- relativ (Vorkommen pro Million) + .red[Achtung!] Kurven werden häufig geglättet, da nicht für jedes Jahr ausreichend und gleich viele Daten verfügbar sind
- in absoluten Zahlen
- DWDS-Wortprofil
- statistisch signifikante und damit typische Wortverbindungen
- als Schlagwortwolke (Tagcloud) oder als Tabelle
- kombiniert distributionelle Semantik mit Dependenzparsing
- Bestimmung der strukturellen Beziehungen zwischen Wörtern im Satz
- regelbasierter Ansatz
- handgeschriebene Grammatik
- Grundform, Kategorie und morphosyntaktische Merkmale als Beschreibungseinheit
- Implementierung mit Hilfe endlicher, gewichteter Automaten (schnell!)
- Semantik: Theorie von der sprachlichen Bedeutung
- lexikalische Semantik: Wortbedeutungen
- kompositionelle Semantik: Phrasen- und Satzbedeutung
- ontologische Beziehungen: Synonyme, Hyponyme, Hyperonyme
- mit automatischen Verfahren sehr schwer zu erfassen
- distributionelle Ähnlichkeit: gleiche Kontexte ⇒ ähnliche Bedeutung
- John Rupert Firth (1890–1960)
- »You shall know a word by the company it keeps« (1957)
Er versenkte den .... im Tor.
count: false
- Semantik: Theorie von der sprachlichen Bedeutung
- lexikalische Semantik: Wortbedeutungen
- kompositionelle Semantik: Phrasen- und Satzbedeutung
- ontologische Beziehungen: Synonyme, Hyponyme, Hyperonyme
- mit automatischen Verfahren sehr schwer zu erfassen
- distributionelle Ähnlichkeit: gleiche Kontexte ⇒ ähnliche Bedeutung
- John Rupert Firth (1890–1960)
- »You shall know a word by the company it keeps« (1957)
Er versenkte den Ball im Tor.
- Vorgehen:
- Man definiere einen Kontext (z. B. Satz) und interessante Wörter,
- werfe für jedes Zielwort alle interessanten Wörter (z. B. Nomen und Verben) aus dem Kontext in einen Topf (Bag of Words),
- repräsentiere den Topf als hochdimensionalen Vektorraum und
- vergleiche die Vektoren miteinander.
- Illustration:
- Wortvergleiche: Gemeinsamkeiten und Unterschiede verkünden und bekanntgeben
.center[Klick mich!]
class: title-slide
Wie geht der Forscher mit quantitativen Ergebnissen um?
- Grundvoraussetzung ist Kenntnis über die Arbeitsweise digitaler Tools
- Vorgehen: Integration von Distant Reading-Methoden und klassischen Close Reading-Ansätzen
- Ziel: Etablierung einer neuen hermeneutischen Methode: Digitale Hermeneutik
- Definition:
- quantitative Betrachtung großer Textmengen
- Verständnis von Texten durch statistische Auswertung (und nicht durch Lesen)
... a little pact with the devil: we know how to read texts, now let’s learn how not to read them.
Moretti, F.: Distant reading. Verso, 2013.
- Verfahren:
- Volltextsuche
- Lexikometrie und Korpusstatistik
- Methoden maschinellen Lernens/ Topic modelling
- Netzwerkanalysen
- Voraussetzung: annotierte Textkorpora
Fünf neue Basisfertigkeiten nach Andreas Fickers (Luxemburg):
- Algorithmuskritik
- Datenkritik
- Werkzeugkritik
- Interface-Kritik
- Simulationskritik
„Unter dem Begriff des ‚blended reading‘ schlagen wir eine Strategie im Sinne einer Best Practise vor, die semiautomatische Analyseverfahren mit klassischer Textlektüre so integriert, dass sozialwissenschaftliche Erkenntnispotenziale, die sich auf die Auswertung großer Textdatenmengen stützen, optimal ausgeschöpft werden.“
Stulpe/Lemke (Textmining in den Sozialwissenschaften, 2016, S. 21)
class: title-slide
- Kollokation bezeichnet häufiges gemeinsames Auftreten zweier Wörter in vordefiniertem Kontext (Satz, Absatz etc.)
- enge semantische Beziehungen (Schüler → Lehrer)
- Sachverhalte (Schule → Reform)
- feste Phrasen (Hänschen → Hans)
- Grundidee:
- Ermittlung aller Kollokationen eines Eingabebegriffes
- Ordnung nach deren Assoziationsgrad zum Eingabebegriff
- Beispiel Begriff im DTA
„Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache.“
Ludwig Wittgenstein (Philosophische Untersuchungen)
- DiaCollo ermöglicht die Analyse von Sprachwandel, indem es die historische (Zeit-)Dimension in großen digitalen Textkorpora visualisiert
- Untersuchungszeiträume frei skalierbar (jahresweise, dekadenweise etc.)
- Visualisierungsoptionen für Abfrageergebnisse (Wordclouds, Bubble, Gmotion, HTML‐Listen)
- prinzipiell eine Kombination von Wortverlaufskurven und distributioneller Semantik
- getestet an großen und mittelgroßen Korpora, darunter Die Grenzboten und DDR-Presseportal
http://kaskade.dwds.de/dstar/dta/diacollo/ http://kaskade.dwds.de/diacollo‐tutorial/#introduction.html https://clarin‐d.net/de/kollokationsanalyse‐in‐diachroner‐perspektive
class: title-slide
-
explorativ
- Wordstatistiken und Verlaufskurven
- signifikante Veränderungen im Inhaltswortbereich
- Hinweise auf Bedeutungsverschiebung bzw. Bezeichnungswandel
-
hypothesengeleitet
- spezifische Korpusrecherchen zur effizienten Belegauswahl
- Belegauswertung
- quantitatives „Untermauern“
- Nationalliberale Zeitschrift Die Grenzboten
- Erscheinungszeitraum 1841 bis 1922 wöchentlich, zeitweise zweiwöchentlich
- insgesamt ca. 270 Bände (ca. 187 000 Seiten)
- Digitalisierung an der SuUB Bremen im Rahmen zweier DFG-Projekte
- Erschließung von Volltext und Struktur
- seit 2017 auch in CLARIN-D integriert
Methodik:
- Schritt 1: Deduktive Eingrenzung eines vielversprechenden Zeitraumes
- die 1880er Jahre und der Antisemitismusstreit
- Schritt 2: Suche nach Kollokaten (hier Nomen
NN
) für das Lemma Jude- Auswahl ungewöhnlicher Kollokate, die auf Ressentiments hinweisen
- Schritt 3: Analyse der Textpassagen via Funktion
key word in context
(KWIC)- konventionelle Quellenexegese
Einfache Suchabfrage nach dem Lemma Jude
Close reading-Beispiel zu Vermehrung und Handel
„Aber auch abgesehen von diesem Umstände erscheint die [Vermehrung](http://kaskade.dwds.de/dstar/grenzboten/dstar.perl?fmt=html&corpus=&limit=10&ctx=8&q=NEAR(+($l=@%27Jude%27%29+=1,+($l=@%27Vermehrung%27+WITH+$p=@%27NN%27%29+=2,+8%29+#SEPARATE+%23asc_date[1880-00-00,1889-99-99]+%23cntxt+1+%23in+p&_s=submit) der Juden noch viel zu bedeutend, um allein auf besonders günstige biotische Verhältnisse, auf größere Fruchtbarkeit und längere Lebensdauer, die ihnen nebenher nicht abgesprochen werden sollen, zurückgeführt werden zu können.“
In: „Die Juden in Osterreich.“ Die Grenzboten, Jg. 41 (1882), S. 629.
„Der tüchtigste Bauer ist oft dem simpelsten Juden lange nicht gewachsen, wo es um Geld, Handel, um Schein und Hypothek und Wechsel geht.“
In: „Erdboden.“ Die Grenzboten, Jg. 59 (1900), S. 271.
Vorsichtiger Befund:
- Es lassen sich in den Grenzboten Stereotypen ausmachen, die auf kulturellen und biologisierenden Rassismus hinweisen.
- Die Autoren bauten derartige rassistische Ressentiments in den 1880er Jahren in ihre Argumentation ein.
Methodik:
-
Schritt 1: Korpusstatistische Abfrage (über lexdb):
- Identifizierung hochfrequenter [Begriffe](https://kaskade.dwds.de/dstar/grenzboten/lexdb/view.perl?select=w,p,l,sum(f%23+as+freq&from=lex&where=p+=+'NN'&groupby=l&orderby=freq+desc&offset=0&limit=100&_s=submit)
- Auswahl interessanter Begriffe (hier: Schule)
- Ermittlung hochfrequenter [Kompositaformen](http://kaskade.dwds.de/dstar/grenzboten/dstar.perl?fmt=kwic&corpus=&limit=100&ctx=8&q=count(/schule/i+#sep%23+#by[$l]+#desc_count&_s=submit) für Schule
-
Schritt 2: Suchabfragen über DiaCollo:
- häufigste Adjektive, Substantive, Eigennamen
- Ermittlung von Debatten
- Recherche in den Texten über KWIC
Wortverläufe im Vergleich
Gymnasium in DiaCollo Kollokationen für Gymnasium in 1850er Jahren Kollokationen für Gymnasium" in 1870er Jahren
Wortbeziehungen für Erziehung in DiaCollo
- Adjektive
- häuslich, sittlich (1850er)
- weiblich, ästhetisch (1870er)
- national und dann staatsbürgerlich (1910er)
- Nomen
- Menschengeschlecht (Lessings Hauptwerk von 1780)
- Jugend/Kind (1860er)
- Unterricht, Schule und Ausbildung treten hinzu (1870er)
- Eigennamen
- Frankreich (1840er)
- Hegel, Lessing, Fichte, Schiller, Rousseau (1860–1880)
- Paul Güßfeldt, Georg Kerschensteiner (1890–1910)
- drei DDR-Zeitungen:
- Neues Deutschland
- Berliner Zeitung
- Neue Zeit
- im Rahmen eines DFG-Projekts digitalisiert
- im Rahmen eines CLARIN-D-Kurationsprojektes aufbereitet
- ideologisch motivierte Entdifferenzierung von Sprache, semantische Verknappung
- extensive Nutzung von Hochwertwörtern wie Frieden
- Ritualisierung des Berichtsstils, -tons, und der Sprache
- DDR-Presse diente als ein „Verlautbarungsorgan“ der SED, um Entscheidungen des Politbüros zu verkünden.
- Intuition des Forschers: schwindende utopische Perspektive in der DDR-Presse
- aber: signifikanter Anstieg der Vorkommenshäufigkeit seit Mitte der 1980er Jahre
- ursprünglich: utopischer Fluchtpunkt für umfangreiche soziale und ökonomische Entwicklungen in der kommunistischen Integrationszone
- aber: mehr und mehr auch als Begriff zur Markierung des realen Übergangs ins reale Jahr 2000:
- Das Millennium wird zur Schwelle, die tatsächlich überquert werden kann,
- verdeutlicht durch Wendungen wie darüber hinaus.
- Schritt 1: Identifikation von hochfrequenten Begriffen mittels korpusstatistischer Auswertung
- Schritt 2: Auswahl interessanter Begriffe wie Wohl oder Sorge
- Schritt 3: Abfrage dieser Begriffe über DiaCollo
- Schritt 4: Auswertung typischer Kollokate
Identifikation hochfrequenter Begriffe im Korpus:
Häufigste Nomen (inkl. Menschen, Leben, Tanzen, Welt!)
Kollokationen zu *Wohl* in den 1950ern (ND, nur Nomen) Kollokationen zu *Wohl* in den [1980er Jahren](http://kaskade.dwds.de/dstar/nd/diacollo/?query=Wohl&_s=submit&date=&slice=10&score=ld&kbest=20&cutoff=&profile=2&format=cloud&groupby=l%2Cp%3DNN&debug=1&eps=0)
Exemplarisches Muster für die modulare Sprache
Sprachtransfer in die DDR-Presse?
- qualitativer Befund:
- Suche nach Bürgernähe als Begriff in der Sprache des SED-Regimes
- kein Begriff der offiziellen Herrschaftssprache
- quantitativer Vergleich:
- ZEIT-Korpus (BBAW)
- DDR-Presseportal
- Ergebnisse ZEIT:
- erster Beleg 1971
- formulierter Anspruch an die (kommunale) Verwaltung
- Ende der 1970er Jahre als direkte Aufgabe der Politik formuliert
- etwa gleichbleibende Frequenz in 1970er und leicht rückläufig in 1980er Jahren
- Ergebnisse DDR-Presseportal:
- erster Beleg 1979 in Berliner Zeitung
- auch hier stark auf Verwaltung bezogen
- Gegenbegriff Bürokratismus
- starker Anstieg der Frequenz in den Jahren 1987–1989
- DiaCollo unterstützt:
- semasiologische Methodik (Bedeutungswandel)
- induktive und explorative Methoden
- fließenden Wechsel von distant zu close reading (und zurück)
- neue digitale Ansätze für Textanalyse und Hermeneutik
- derzeit nicht unterstützt:
- onomasiologische Methodik (Bezeichnungswandel)
- syntaktische Beziehungen (i.e. Wortprofil + Wortverlauf)
- Ausprobieren!
- Feedback von Fachwissenschaftlern entscheidend für die (Weiter-)Entwicklung der Werkzeuge
- Verbreitung in der Forschung entscheidend für Förderung
- Perspektive für die Geschichtswissenschaften?
- paralleles Quellenstudium unabdingbar
- Wissenschaftler werden mehr denn je lesen, nicht weniger!
- Digitale Geschichtswissenschaft inkludiert fachliche (und nicht technische) Methodenentwicklung.
class: title-slide