Skip to content
Alexandre Rademaker edited this page May 25, 2015 · 44 revisions

Welcome to the OpenWordnet-PT Wiki!

Nosso sistema pode ser utilizado para pesquisas em http://logics.emap.fgv.br/wn.

Diretrizes da OpenWordnet-PT

A OpenWordNet-PT é uma rede léxica, construída semi-automaticamente, seguindo o modelo da WordNet de Princeton https://wordnet.princeton.edu/.

Decidimos usar uma palavra feminina para designá-la por que "rede" (net) em português é feminino, mas poderíamos ter usado uma palavra masculina, pois, muitas vezes, também pensamos na OpenWordnet-PT como um banco de dados lexicais (lexical knowledge base).

Sobre minúsculas e maiúsculas

As entradas devem ser escritas em minúsculas, exceto nos seguintes casos:

  • Se a entrada representar algo único, específico e particular (nomes tratados como "substantivos próprios" pela gramática tradicional) todas as suas palavras, exceto conectivos (“de”, “das”), estarão em maiúsculas. Exemplos principais são nomes de pessoas (Ferdinand de Saussure, Johann Wolfgang von Goethe), de lugares (Rio de Janeiro) e de organizações/empresas (Organização das Nações Unidas, Companhia das Letras).

Outros exemplos incluem áreas de conhecimento (Mecânica Estatística, História da Arte) e alguns enunciados famosos tais como Princípio de Exclusão de Pauli. Diferente de: opinião pública, tubarão-golfinho.

(No Novo Acordo Ortográfico do Português, nada é dito sobre uso de minúsculas e maiúsculas, por isso seguimos os usos recorrentes em dicionários. Manter as palavras de obras artísticas em minúsculo (exceto a primeira palavra) é um uso bastante corrente: Memórias das minhas putas tristes, Cem anos de solidão, As mil e uma noites, A incrível e triste história da Cândida Erêndira e sua avó desalmada.)

(Enunciados famosos são debativeis e Valeria nao gosta do uso de maiúsculas para os mesmos, pois um julgamento de valor sobre a importância do mesmo precisa ser feito. Temos o mesmo problema de 'notabilidade' com o julgamento do que constitui uma área de conhecimento.)

  • Línguas são escritas em minúsculas em português. Exemplo: finlandês, línguas altaicas. Nomes de povos e etnias tambem são escritos em minúsculas em português: zulus, franceses, armênios. Finalmente religiões e seus praticantes: católicos, protestantes, hindus, budistas, macumbeiros e umbandistas.

Português Europeu e Português Brasileiro

As entradas que têm grafia diferente em PE (Português Europeu) e PB (Português Brasileiro) devem aparecer (dentro das nossas possibilidades) com as duas formas, no entanto não marcamos na OpenWordnet-PT onde cada forma é usada. Exemplo: género gramatical e gênero gramatical.

Constituição dos Synset

Synset é um conjunto (set) de sinônimos (syn), um conjunto de palavras que são substituíveis entre si em algum contexto. Synsets são constituídos por: ID, PALAVRA, GLOSA, EXEMPLO, vide http://logics.emap.fgv.br/wn/synset?id=01503061-n.

ID é o número que localiza o synset, seu "offset", seguido por uma letra que caracteriza a classe gramatical do synset (n, a, v, r para, respectivamente, substantivos, adjetivos, verbos e advérbios). Considerando o exemplo acima, o ID do synset é 01503061-n.

Palavra é cada um dos elementos que integra um synset. As variantes de um synset não necessariamente precisam ser palavras, mas podem também ser expressões mais complexas que uma única palavra, como em http://logics.emap.fgv.br/wn/synset?id=06413020-n. No synset considerado acima, as palavras que compõem o synset (palavras sinônimas) são "pássaro" e "ave". Deve-se incluir no campo palavra apenas expressões que possam ser intercambiadas com outros sinônimos em uma frase.

Glosa é uma pequena explicação do synset. Diferente da WordNet de Princeton que coloca sob o rótulo "gloss" tanto explicações, quanto exemplos, a OpenWordNet-PT traz campos diferentes para cada um destes dados. A glosa do exemplo acima é "animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas".

Exemplo é uma frase que demonstra o uso de uma dada palavra em um contexto. No caso do synset acima, "O pássaro aprendeu a voar." As frases devem ser pontuadas e serem iniciadas por letras maiúsculas.

(Adendo): Valeria de Paiva discorda da ideia de que uma separação rígida entre definiçõeses e exemplos seja uma melhoria da OpenWordnet em relação à WordNet de Princeton e deixa registrado seu voto vencido, a favor de seguir o modelo de Princeton. A objeção principal dela é que a fronteira entre expressões que devem estar na OpenWordnet e expressões que são explicações dessas não é clara, e que portanto, não deve-se tentar fazer uma distinção categórica.

Os demais pesquisadores (Livy, Alexandre, Cláudia) optam pela separação por que: 1. as expressões a serem usadas por ferramentas de NLP não incluem, geralmente, as glosas e os exemplos, logo, a distinção categórica entre glosa ou exemplo não altera a qualidade do recurso, 2. otimizamos a forma de obter glosas e exemplos ao separá-los; 3. a WordNet de Princeton, ao unificar glosas e exemplos, se abstém de apresentar glosas e exemplos para todos os synsets, o que ao nosso ver é negativo, além de dar a entender de que glosas e exemplos têm o mesmo papel em um recurso, o que não é verdade. Glosas, algumas vezes, poderiam ser intercambiadas por words, já exemplos nunca poderiam; 4. acreditamos que a separação explícita entre glosas e exemplos aumenta nossa organização interna sem atrapalhar qualquer funcionalidade do recurso.

Da tradução dos synsets

Synsets em português devem conter sinônimos das palavras dos synsets em inglês.

Deve-se ao máximo tentar manter na tradução a mesma categoria morfológica do synset original (n, v, a, r) e o mesmo registro (palavra eruditas devem ser traduzidas por palavras eruditas e palavras mais cotidianas por palavras comuns).

Quando possível, devemos manter também a mesma raiz da palavra original (por exemplo, traduzir "finished" por "finalizado" em http://logics.emap.fgv.br/wn/synset?id=01003050-a).

É desejável que os sinônimos esgotem todas as possibilidades de representar o significado de um synset, mas nem sempre é possível. Quando houver mais de uma tradução possível, esta pode ser incluída, mas claramente não ambicionamos adicionar todas as traduções possíveis, o que destroi a ideia mesma de synset. http://logics.emap.fgv.br/wn/synset?id=06778102-n

Quando um synset original for muito específico e não houver tradução melhor em português, deve-se traduzir pelo hiperônimo (synset acima) mais próximo que existir em português. http://logics.emap.fgv.br/wn/synset?id=07742513-n

Glosas devem ser traduzidas tão literalmente quanto for possível, mantendo a aceitabilidade da definição em português.

Fontes de Referência

Clone this wiki locally