Skip to content

Commit

Permalink
Merge pull request #102 from LinguList/master
Browse files Browse the repository at this point in the history
Final PR for V-1.0 Release
  • Loading branch information
LinguList committed Mar 7, 2016
2 parents 807bf62 + 7d12fac commit 85f98a5
Show file tree
Hide file tree
Showing 40 changed files with 10,272 additions and 8,441 deletions.
3 changes: 3 additions & 0 deletions CONTRIBUTING.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
# How to Contribute to the CLLD Concepticon?

... more info coming soon ...
31 changes: 11 additions & 20 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,8 +1,17 @@
# concepticon-data
# Concepticon-Data

[![Build Status](https://travis-ci.org/clld/concepticon-data.svg?branch=master)](https://travis-ci.org/clld/concepticon-data)

## Data structure
This repository offers the raw data underlying the [Concepticon](http://concepticon.clld.org) of the [CLLD](http://clld.org) project. Here, you can find [previous and latest releases](https://github.com/clld/concepticon-data/releases), [current issues we are trying to handle](https://github.com/clld/concepticon-data/issues), as well as the [most actual unreleased form of the data](https://github.com/clld/concepticon-data/tree/master/concepticondata).

Further information you may find here and which you may find interesting:

* For an overview on the status of all currently linked conceptlists, see [here](https://github.com/clld/concepticon-data/blob/master/concepticondata/conceptlists/README.md).
* For basic information on metadata, see [here](https://github.com/clld/concepticon-data/blob/master/concepticondata/concept_set_meta/README.md).
* For information on how you can contribute to the project or profit from the data sources we offer, see [here](https://github.com/clld/concepticon-data/blob/master/CONTRIBUTING.md).


## Data Structure

- **conceptlists/** folder contains conceptlists with links to IDs in concepticon.tsv, the
lists are named after the first person who proposed them, the year of the reference publication
Expand All @@ -25,22 +34,4 @@
[Model for Tabular Data and Metadata on the Web](http://www.w3.org/TR/tabular-data-model/).


## Note on concept list "types"

It is not easy to classify the various types of concept lists, but we try anyway to come up with an initial schema. Here's the current types which are distinguished along with their abbreviations:

* an: **annotated concept list**, a concept list that contains any level of annotation added to the concepts it contains. Typical example are those lists which additionally order the concepts into semantic fields, like "Bowern-208-207", or add colexification information, like "List-2015-1280".
* av: **areal vocabulary list**, a concept list that was designed for the purpose of subgrouping in a specific area, like "Matisoff-1978-200", or "Norman-2003-40"
* bv: **basic vocabulary list**, the most typical case of a conceptlist.
* h: **historical concept list**, a list which we included for historical reasons, and where due to the historical character of the concept list, the reasons for the compilation are not necessarily clear
* hi: **HiHi vocabulary list**, following the terminology of [McMahon and McMahon (2005)](http://bibliography.lingpy.org?key=McMahon2005), this is the most stable part of a given basic vocabulary list.
* lo: **LoLo vocabulary list**, following the terminology of [McMahon and McMahon (2005)](http://bibliography.lingpy.org?key=McMahon2005), this is the least stable part of a given basic vocabulary list.
* ls: **Less stable sublist**, in contrast to the practice by [McMahon and McMahon (2005)](http://bibliography.lingpy.org?key=McMahon2005), wo extract two small lists from a baselist, which do not cover the whole baselist, less stable sublists are based on a complete division of a given wordlist in two parts. Paradigmatic examples are "Yakhhontov-1991-100", which is divided into "Yakhontov-1991-35" and "Yakhontov-1991-65".
* ms: **more stable sublist**, the counterpart of a **less stable sublist**, that this the upper division of a given basic vocabulary list, which is supposed to be more stable than the lower division.
* q: **questionnaire**, a term which is reserved for all lists which have a larger amount of lexical items and have been created for specific purposes other than lexicocstatistical subgrouping or cognate detection. Questionnaires are often typical for a given area or language family.
* rank: **ranked concept list**, a list which can be ranked according to some meta-data that the list provides, like "Tadmor-2008-100", or "Starostin-2007-110".
* sp: **special purpose list**, a dummy category to include all lists which can currently not be sufficiently classified.
* us: **ultra stable concept list**, a list that was compiled with the idea in mind to list concepts whose form-meaning relation is supposed to be very stable.

Note that we try to avoid assigning multiple "type" labels to one and the same list, but that we do not discourage that automatically, since there are well a few lists which have been compiled with different goals in mind.

36 changes: 18 additions & 18 deletions concepticondata/README.md
Original file line number Diff line number Diff line change
@@ -1,17 +1,17 @@
# Concepticon Statistics
* concept sets (used): 2495
* concept lists: 160
* concept labels: 30222
* concept labels: 30220
* concept labels (unique): 8035
* Ø concepts per list: 188.89
* Ø concepts per list: 188.88
* Ø concepts per concept set: 12.11
* Ø unique concept labels per concept set: 3.25

# Twenty Most Diverse Concept Sets

| No. | concept set | distinct labels | concept lists | examples |
| --- | --- | --- | --- | --- |
| 1 | THOU | 32 | 104 | «$thou», «2sg pronoun», «THOU», «Thou», «You», «[2P:SG] thou», «`*`thou», «`*`you (sg)», «`*`you», «second person marker», «thou (2s)», «thou (you sg.)», «thou, you (p)», «thou, you (pronoun)», «thou/thee [second person sg. pronoun]», «thou/thee», «thou», «you (2 p.s.)», «you (2.Sg.)», «you (2s.)», «you (int. sing.)», «you (sg)», «you (sg.)», «you (sig.)», «you (sing.) (thou)», «you (sing.)», «you (singular)», «you (thou)», «you sg.», «you, sg», «you.SG», «you» |
| 1 | THOU | 32 | 111 | «$thou», «2sg pronoun», «THOU», «Thou», «You», «[2P:SG] thou», «`*`thou», «`*`you (sg)», «`*`you», «second person marker», «thou (2s)», «thou (you sg.)», «thou, you (p)», «thou, you (pronoun)», «thou/thee [second person sg. pronoun]», «thou/thee», «thou», «you (2 p.s.)», «you (2.Sg.)», «you (2s.)», «you (int. sing.)», «you (sg)», «you (sg.)», «you (sig.)», «you (sing.) (thou)», «you (sing.)», «you (singular)», «you (thou)», «you sg.», «you, sg», «you.SG», «you» |
| 2 | FAT (ORGANIC SUBSTANCE) | 31 | 82 | «$fat/grease», «(its) fat», «FAT (SUBSTANCE)», «FAT, GREASE», «FAT2, GREASE», «Fat (n.)», «GREASE/FAT», «Grease», «`*`fat(grease) / fat», «`*`fat-grease», «`*`fat/grease», «fat (grease)», «fat (n)», «fat (n.)», «fat (nn.)», «fat (noun)», «fat (organic substance)», «fat (organic substance; grease)», «fat / grease», «fat [nn]», «fat, grease (substance)», «fat, grease», «fat-grease», «fat/grease», «fat», «grease (fat)», «grease [= fat/grease]», «grease(fat)», «grease, fat», «grease», «the grease or fat» |
| 3 | PERSON | 25 | 109 | «MAN, (PERSON)», «MAN2, (PERSON)», «PERSON», «Person», «`*`human being», «`*`person (human being)», «`*`person/human being», «`*`person», «human being», «human», «man (homo)», «man (human being)», «man (human)», «man (person)», «man SW person», «man, human being», «person (e.g. room for one person only)», «person (n)», «person (noun)», «person, Aborigine», «person, aborigine», «person, human being», «person/human being», «person», «the person» |
| 4 | EARTH (SOIL) | 25 | 103 | «EARTH (SOIL)», «EARTH/SOIL», «EARTH», «Earth», «`*`earth/soil», «`*`earth», «earth (as in soil)», «earth (soil as in flower pot)», «earth (soil)», «earth 2 (primarily land landform ground soil world)», «earth or soil», «earth%», «earth, land, soil, dirt», «earth, soil (noun)», «earth, soil», «earth/soil», «earth=ground, soil», «earth», «ground++», «ground, soil», «ground; soil (sb.)», «ground», «land, soil», «soil», «the soil» |
Expand All @@ -22,12 +22,12 @@
| 9 | RIGHT | 21 | 73 | «$right», «RIGHT (CORRECT)», «RIGHT (HAND)», «Right», «`*``*`right», «right (a., correct)», «right (adj., vs. left)», «right (arm)», «right (at, to the)», «right (hand side)», «right (hand)», «right (side)», «right (side/hand)», «right (vs. left)», «right [GEN]», «right side», «right(1)», «right(hand)», «right-side», «rightside», «right» |
| 10 | SLEEP | 20 | 109 | «(he) sleeps», «SLEEP», «Sleep (v.)», «Sleep», «TO SLEEP», «To sleep», «`*`sleep vb», «`*`sleep», «sleep (1)», «sleep (2)», «sleep (noun)», «sleep (v.)», «sleep (vb.; sb.)», «sleep [vb]», «sleep+», «sleep, to», «sleep/lie down», «sleep», «to sleep (verb)», «to sleep» |
| 11 | ROAD | 20 | 67 | «ROAD», «Road», «`*`road(path) / road», «`*`road-path», «`*`road», «path (road)», «path, trail», «road (or trail)», «road (or trail; path)», «road (outside settlements, hard surface optional)», «road (path)», «road (trail)», «road or path», «road+», «road, path», «road/street/way», «road; way (road)», «road», «the road», «way» |
| 12 | YOU | 19 | 67 | «YE», «YOU», «Ye», «[2P-PAUC] ye», «`*``*`you (pl)», «`*`you», «ye > you (pl.)», «ye», «you (2 p.p.)», «you (2p)», «you (2pl.)», «you (pl.) (ye)», «you (pl.)», «you (plural)», «you (plural, pronoun)», «you dl.», «you pl.», «you pl», «you» |
| 13 | CRY | 19 | 45 | «(he) cries», «CRY», «Cry», «`*`cry», «cry (child)», «cry (vb. = weep); weep», «cry (weep)», «cry — weep», «cry, mourn», «cry, to», «cry, wail», «cry, weep», «cry», «to cry, to weep (verb)», «to cry, weep», «to cry/weep», «to cry», «to weep», «weep» |
| 12 | CRY | 19 | 45 | «(he) cries», «CRY», «Cry», «`*`cry», «cry (child)», «cry (vb. = weep); weep», «cry (weep)», «cry — weep», «cry, mourn», «cry, to», «cry, wail», «cry, weep», «cry», «to cry, to weep (verb)», «to cry, weep», «to cry/weep», «to cry», «to weep», «weep» |
| 13 | KNOW (SOMETHING) | 19 | 103 | «(he) knows», «KNOW (FACTS)», «KNOW», «Know», «`*`know/be knowledgeable», «`*`know», «know (facts)», «know (v facts)», «know [facts]», «know [info]», «know, to», «know-fact», «know/be knowledgeable», «know», «to know (a fact)», «to know (facts)», «to know (things, be knowledgeable)», «to know, be knowledgeable», «to know» |
| 14 | FLY (MOVE THROUGH AIR) | 19 | 98 | «FLY (v.)», «FLY», «Fly», «TO FLY», «To fly», «`*`fly (vb)», «`*`fly vb», «`*`fly», «fly (of bird)», «fly (v)», «fly (v.)», «fly (vb)», «fly (vb.)», «fly [vb]», «fly v.», «fly, to», «fly», «to fly away», «to fly» |
| 15 | KNOW (SOMETHING) | 19 | 103 | «(he) knows», «KNOW (FACTS)», «KNOW», «Know», «`*`know/be knowledgeable», «`*`know», «know (facts)», «know (v facts)», «know [facts]», «know [info]», «know, to», «know-fact», «know/be knowledgeable», «know», «to know (a fact)», «to know (facts)», «to know (things, be knowledgeable)», «to know, be knowledgeable», «to know» |
| 16 | FALL | 18 | 76 | «$fall», «(he) falls», «TO FALL (DROP)», «`*`fall», «drop (vb.); fall (vb.)», «fall (e.g. tree)», «fall (from a height)», «fall (tree)», «fall (v, down)», «fall (v.)», «fall down», «fall, drop», «fall», «to fall (as a fruit)», «to fall (as in drop)», «to fall (drop rather than topple)», «to fall down», «to fall» |
| 17 | DRY | 18 | 97 | «(it is) dry», «DRY (SUBSTANCE)», «DRY», «Dry (adj.)», «Dry», «`*`dry», «`*`to dry (sth.)», «dry (N, Adj)», «dry (a. general term, b. to dry up)», «dry (a.)», «dry (adjective)», «dry (cloth)», «dry (e.g. of clothes)», «dry (substance)», «dry--», «dry», «to be dry», «to dry» |
| 15 | YOU | 19 | 58 | «YE», «YOU», «Ye», «[2P-PAUC] ye», «`*``*`you (pl)», «`*`you», «ye > you (pl.)», «ye», «you (2 p.p.)», «you (2p)», «you (2pl.)», «you (pl.) (ye)», «you (pl.)», «you (plural)», «you (plural, pronoun)», «you dl.», «you pl.», «you pl», «you» |
| 16 | DRY | 18 | 97 | «(it is) dry», «DRY (SUBSTANCE)», «DRY», «Dry (adj.)», «Dry», «`*`dry», «`*`to dry (sth.)», «dry (N, Adj)», «dry (a. general term, b. to dry up)», «dry (a.)», «dry (adjective)», «dry (cloth)», «dry (e.g. of clothes)», «dry (substance)», «dry--», «dry», «to be dry», «to dry» |
| 17 | FALL | 18 | 76 | «$fall», «(he) falls», «TO FALL (DROP)», «`*`fall», «drop (vb.); fall (vb.)», «fall (e.g. tree)», «fall (from a height)», «fall (tree)», «fall (v, down)», «fall (v.)», «fall down», «fall, drop», «fall», «to fall (as a fruit)», «to fall (as in drop)», «to fall (drop rather than topple)», «to fall down», «to fall» |
| 18 | WALK | 18 | 93 | «TO WALK», «To walk», «WALK2», «WALK», «Walk», «`*`walk», «to go, walk», «to walk, go», «to walk, wander», «to walk/go», «to walk», «walk (V)», «walk (go)», «walk (to go by foot)», «walk (vb.)», «walk(go)», «walk, to», «walk» |
| 19 | CORRECT (RIGHT) | 18 | 49 | «RIGHT (CORRECT)», «`*`correct/true», «`*`correct», «correct (adj.)», «correct (right)», «correct [OBJ]», «correct, true», «correct/true», «correct», «just right», «right (adj., vs. wrong)», «right (correct)», «right(2)», «right, correct», «right-correct», «right/correct», «right», «to be correct» |
| 20 | FLY (INSECT) | 17 | 33 | «FLY», «Fly (n.)», «`*`blowfly/housefly», «a fly», «blowfly/housefly», «fly (N)», «fly (animal)», «fly (insect)», «fly (n)>>», «fly (n)», «fly (n.)», «fly (nn.)», «fly (noun)», «fly (sb.)», «fly---», «fly», «the fly» |
Expand All @@ -41,17 +41,17 @@
| 4 | TWO | 14 | 127 | «2», «TWO2», «TWO», «Two», «[CL] `*`two», «`*`two», «two (1)», «two (2)», «two (numeral)», «two (people)», «two (persons)», «two (things)», «two/pair», «two» |
| 5 | FIRE | 10 | 126 | «FIRE, (FIREWOOD)», «FIRE», «Fire», «`*`fire», «fire (for cooking)/heat», «fire (n.)», «fire (noun)», «fire-», «fire», «the fire» |
| 6 | BLOOD | 10 | 125 | «(its) blood», «BLOOD», «Blood», «`*`blood», «blood (1)», «blood (2)», «blood (noun)», «blood`*`», «blood», «the blood» |
| 7 | STAR | 9 | 125 | «STAR», «Stars», «Star», «`*`star», «star (noun)», «star++», «star`*`», «star», «the star» |
| 8 | TONGUE | 12 | 125 | «(its) tongue», «TONGUE», «Tongue», «`*`Tongue», «`*`tongue», «the tongue», «tongue (1)», «tongue (2)», «tongue (body part)», «tongue (noun)», «tongue`*`», «tongue» |
| 7 | TONGUE | 12 | 125 | «(its) tongue», «TONGUE», «Tongue», «`*`Tongue», «`*`tongue», «the tongue», «tongue (1)», «tongue (2)», «tongue (body part)», «tongue (noun)», «tongue`*`», «tongue» |
| 8 | STAR | 9 | 125 | «STAR», «Stars», «Star», «`*`star», «star (noun)», «star++», «star`*`», «star», «the star» |
| 9 | NOSE | 12 | 124 | «(its) nose», «NOSE», «Nose», «`*`nose», «nose (1)», «nose (2)», «nose (noun)», «nose++», «nose; to smell», «nose`*`», «nose», «the nose» |
| 10 | ONE | 9 | 124 | «ONE», «One», «[CL] `*`one», «`*`one», «one (numeral)», «one (person)», «one (thing)», «one++», «one» |
| 11 | EAR | 13 | 124 | «(its) ear», «EAR2», «EAR», «Ear», «`*`ear», «ear (1)», «ear (2)», «ear (noun)», «ear-», «ear`*`», «ear», «noise, ear», «the ear» |
| 10 | EAR | 13 | 124 | «(its) ear», «EAR2», «EAR», «Ear», «`*`ear», «ear (1)», «ear (2)», «ear (noun)», «ear-», «ear`*`», «ear», «noise, ear», «the ear» |
| 11 | ONE | 9 | 124 | «ONE», «One», «[CL] `*`one», «`*`one», «one (numeral)», «one (person)», «one (thing)», «one++», «one» |
| 12 | NAME | 9 | 122 | «(its) name», «NAME», «Name», «`*`name», «name (noun)», «name (noun,though some overlap with verb)», «name», «the name», «to name» |
| 13 | EAT | 15 | 120 | «(he) eats», «EAT», «Eat», «TO EAT», «To eat», «`*`eat», «ate», «eat (1)», «eat (2)», «eat, to», «eat», «he eats (verb)», «to eat (verb)», «to eat», «you eat (verb)» |
| 14 | EGG | 9 | 120 | «EGG», «Egg», «`*`egg», «egg (noun)», «egg+», «egg`*`», «eggs», «egg», «the egg» |
| 15 | SUN | 12 | 120 | «SUN, (SUMMER)», «SUN2, (DAY)», «SUN», «Sun», «`*`sun», «sun (1)», «sun (2)», «sun (noun)», «sun+», «sun`*`», «sun», «the sun» |
| 16 | DOG | 8 | 120 | «DOG», «Dog», «`*`dog», «dog (noun)», «dog `*`», «dog+», «dog», «the dog» |
| 17 | HEAD | 13 | 120 | «(its) head», «11a. head (2)», «HEAD», «Head», «`*`head», «haze (1.74) head», «head (1)», «head (3)», «head (noun)», «head++», «head`*`», «head», «the head» |
| 18 | BONE | 9 | 120 | «(its) bone», «BONE», «Bone», «`*`bone», «bone (noun)», «bone`*`», «bones», «bone», «the bone» |
| 13 | SUN | 12 | 120 | «SUN, (SUMMER)», «SUN2, (DAY)», «SUN», «Sun», «`*`sun», «sun (1)», «sun (2)», «sun (noun)», «sun+», «sun`*`», «sun», «the sun» |
| 14 | EAT | 15 | 120 | «(he) eats», «EAT», «Eat», «TO EAT», «To eat», «`*`eat», «ate», «eat (1)», «eat (2)», «eat, to», «eat», «he eats (verb)», «to eat (verb)», «to eat», «you eat (verb)» |
| 15 | HEAD | 13 | 120 | «(its) head», «11a. head (2)», «HEAD», «Head», «`*`head», «haze (1.74) head», «head (1)», «head (3)», «head (noun)», «head++», «head`*`», «head», «the head» |
| 16 | EGG | 9 | 120 | «EGG», «Egg», «`*`egg», «egg (noun)», «egg+», «egg`*`», «eggs», «egg», «the egg» |
| 17 | BONE | 9 | 120 | «(its) bone», «BONE», «Bone», «`*`bone», «bone (noun)», «bone`*`», «bones», «bone», «the bone» |
| 18 | DOG | 8 | 120 | «DOG», «Dog», «`*`dog», «dog (noun)», «dog `*`», «dog+», «dog», «the dog» |
| 19 | MOUTH | 10 | 119 | «MOUTH2», «MOUTH3», «MOUTH», «Mouth», «`*`mouth», «mouth (noun)», «mouth---», «mouth`*`», «mouth», «the mouth» |
| 20 | NIGHT | 12 | 118 | «NIGHT», «Night», «`*`night», «night (1)», «night (2)», «night (dark time)», «night (noun)», «night (time)», «night++», «night`*`», «night», «the night» |
5 changes: 4 additions & 1 deletion concepticondata/concept_set_meta/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,9 @@

* SimLex999 covers 472 concept sets (0.18 %)
* wikipedia covers 152 concept sets (0.06 %)
* wordnet covers 1372 concept sets (0.52 %)
* gbif covers 1 concept sets (0.00 %)
* eat covers 2061 concept sets (0.78 %)
* omegawiki covers 2070 concept sets (0.79 %)
* babelnet covers 928 concept sets (0.35 %)
* babelnet covers 1151 concept sets (0.44 %)
* mrc covers 1946 concept sets (0.74 %)
Loading

0 comments on commit 85f98a5

Please sign in to comment.