Skip to content

Latest commit

 

History

History
31 lines (22 loc) · 2.33 KB

README.md

File metadata and controls

31 lines (22 loc) · 2.33 KB

Processamento de Linguagem Natural (PLN)

Anotações sobre Processamento de Linguagem Natural.

Datasets

  • Alpaca Dataset in Portuguese: é um dataset com ~52,000 instruções geradas pelo modelo text-davinci, da OpenAI. Essas instruções podem ser utilizadas durante o fine-tuning de modelo generativos.

  • Microsoft Research Paraphrase Corpus in Portuguese - MRPC: Versão em Português do dataset MRPC, originalmente proposto no artigo. O dataset consiste em 5,801 pares de sentenças, com um rótulo que indica se as sentenças são paráfrases ou não.

  • Brazilian Portuguese Sentiment Analysis Datasets

  • FakeWhatsApp.Br: um dataset em Português para detecção de FakeNews, publicado no artigo e baseado na dissertação de mestrado de Lucas Cabral. Os dados são de mensagens que circulavam em grupos do Whatsapp, durante a eleição de 2018. O dataset contém 5,284 mensagens, que foram classificadas como desinformação (1) e sem desinformação (0).

Livros

Leitura recomendada:

Cursos