Repozitár pozostáva zo:
- stop-words (pôvodný zdroj code.google.com/p/stop-words/)
- OpenThesaurus-SK - synonymický slovník vo formáte pre ElasticSearch / SOLR (prekonvertované z originálneho OpenThesaurus-SK)
- hunspell-sk pripravený pre
hunspell token filter
(zdroj hunspell-sk)
Pre lepšie výsledky pri lematizácii odporúčame použiť LemmaGen (licencia umožňuje použitie len v nekomerčných projektoch)
Do pozornosti dávame aj hunspell slovník od Essential Data
Implementáciu projektu (vyhľadávanie s podporou skloňovania / časovania / synoným) nájdete na www.webumenia.sk.
Otestované pre ElasticSearch v1.3.4
Synonymický slovník je vo formáte použitelnom aj pre SOLR (zatiaľ netestované).
Obsah repozitáru stačí nakopírovať do priečinku config/
vo vašej inštalácií ElasticSearch
|-bin
|-config
|---hunspell
|-----sk_SK
|---stop-words
|---synonyms
|-libexec
Príklad, ako si nastaviť analyzer:
{
"settings": {
"analysis": {
"filter": {
"lemmagen_filter_sk": {
"type": "lemmagen",
"lexicon": "sk"
},
"sk_SK" : {
"type" : "hunspell",
"locale" : "sk_SK",
"dedup" : true,
"recursion_level" : 0
},
"synonym_filter": {
"type": "synonym",
"synonyms_path": "synonyms/sk_SK.txt",
"ignore_case": true
},
"stopwords_SK": {
"type": "stop",
"stopwords_path": "stop-words/stop-words-slovak.txt",
"ignore_case": true
}
},
"analyzer": {
"slovencina_synonym": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"stopwords_SK",
"lemmagen_filter_sk",
"lowercase",
"stopwords_SK",
"synonym_filter",
"asciifolding"
]
},
"slovencina": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"stopwords_SK",
"lemmagen_filter_sk",
"lowercase",
"stopwords_SK",
"asciifolding"
]
}
}
}
}
}
pozn. tento príklad používa LemmaGen
- implementované vyhľadávanie je možné otestovať si na www.webumenia.sk
- prezentácia Elasticsearch po slovensky na webelement slideshare a youtube
- dvojdielny seriál o podpore češtiny (a slovenčiny) na zdrojak.cz ( prvý a druhý diel )
- slovenská podpora pre ES od Essential Data elasticsearch-sk
(privítame tip na ďaľšie relevantné odkazy)
Tento projekt spravuje lab.SNG. Ak máte akékoľvek otázky, vytvorte issue priamo tu alebo nám napíšte na lab@sng.sk.
-
OpenThesaurus-SK a hunspell-sk používa dáta vydané pod GPLv2, LGPLv2.1, MPLv1.1
-
stop-words sú pod public domain