Processamento de Linguagem Natural (PLN)

Anotações sobre Processamento de Linguagem Natural.

Datasets

Alpaca Dataset in Portuguese: é um dataset com ~52,000 instruções geradas pelo modelo text-davinci, da OpenAI. Essas instruções podem ser utilizadas durante o fine-tuning de modelo generativos.
- Disponível no huggingface.com
Microsoft Research Paraphrase Corpus in Portuguese - MRPC: Versão em Português do dataset MRPC, originalmente proposto no artigo. O dataset consiste em 5,801 pares de sentenças, com um rótulo que indica se as sentenças são paráfrases ou não.
- Disponível no huggingface.co
Brazilian Portuguese Sentiment Analysis Datasets
- Disponível no huggingface.co e kaggle
FakeWhatsApp.Br: um dataset em Português para detecção de FakeNews, publicado no artigo e baseado na dissertação de mestrado de Lucas Cabral. Os dados são de mensagens que circulavam em grupos do Whatsapp, durante a eleição de 2018. O dataset contém 5,284 mensagens, que foram classificadas como desinformação (1) e sem desinformação (0).
- Disponível no github.com

Leitura recomendada: