Skip to content

SlovakNationalGallery/elasticsearch-slovencina

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Podpora slovenčiny pre ElasticSearch

Repozitár pozostáva zo:

Pre lepšie výsledky pri lematizácii odporúčame použiť LemmaGen (licencia umožňuje použitie len v nekomerčných projektoch)

Do pozornosti dávame aj hunspell slovník od Essential Data

Implementáciu projektu (vyhľadávanie s podporou skloňovania / časovania / synoným) nájdete na www.webumenia.sk.

Požiadavky a inštalácia

Otestované pre ElasticSearch v1.3.4

Synonymický slovník je vo formáte použitelnom aj pre SOLR (zatiaľ netestované).

Obsah repozitáru stačí nakopírovať do priečinku config/ vo vašej inštalácií ElasticSearch

   |-bin
   |-config
   |---hunspell
   |-----sk_SK
   |---stop-words
   |---synonyms
   |-libexec   

Použitie

Príklad, ako si nastaviť analyzer:

{
  "settings": {
    "analysis": {
      "filter": {
        "lemmagen_filter_sk": {
          "type": "lemmagen",
          "lexicon": "sk"
        },
        "sk_SK" : {
          "type" : "hunspell",
          "locale" : "sk_SK",
          "dedup" : true,
          "recursion_level" : 0
        },
        "synonym_filter": {
          "type": "synonym",
          "synonyms_path": "synonyms/sk_SK.txt",
          "ignore_case": true
        },
        "stopwords_SK": {
          "type": "stop",
          "stopwords_path": "stop-words/stop-words-slovak.txt",
          "ignore_case": true
        }
      },
      "analyzer": {
        "slovencina_synonym": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "stopwords_SK",
            "lemmagen_filter_sk",
            "lowercase",
            "stopwords_SK",
            "synonym_filter",
            "asciifolding"
          ]
        },
        "slovencina": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [
            "stopwords_SK",
            "lemmagen_filter_sk",
            "lowercase",
            "stopwords_SK",
            "asciifolding"
          ]
        }
      }
    }
  }
}

pozn. tento príklad používa LemmaGen

Odkazy a ďaľšie zdroje

(privítame tip na ďaľšie relevantné odkazy)

Správa projektu

Tento projekt spravuje lab.SNG. Ak máte akékoľvek otázky, vytvorte issue priamo tu alebo nám napíšte na lab@sng.sk.

Licencia

  • OpenThesaurus-SK a hunspell-sk používa dáta vydané pod GPLv2, LGPLv2.1, MPLv1.1

  • stop-words sú pod public domain