Desenvolvevor um experimento de aprendizagem de máquina utilizando bases de dados públicas na internet.
Utilizando a biblioteca de algoritmos de aprendizagem de máquina Scikit-Learn, escolha um banco de dados aberto (ou do seu grupo de trabalho) para fazer experimentos de classificação ou regressão. O trabalho consiste na escolha dos dados, pré-processamento dos dados, uso do Scikit-Learn, escolha dos algoritmos de aprendizagem, uso do Pandas como estrutura de dados e apresentação dos experimentos no Jupyter Notebook no repositório do GitHUb.
- http://datapoa.com.br/dataset?res_format=CSV (Variado)
- http://www.cs.waikato.ac.nz/ml/proper/datasets.html (Variado)
- http://saifmohammad.com/WebPages/EmotionIntensity-SharedTask.html (Regressão, PLN)
- https://inclass.kaggle.com/c/si650winter11 (Classificação)
- http://www.technologyforge.net/Datasets/ (Variado)
- https://github.com/bluenex/WekaLearningDataset (Variado)
- http://scikit-learn.org/stable/datasets/index.html (Variado)
Enviar email da conta do GitHub para henrique.santos.003@acad.pucrs.br para receber acesso.
Scikit-Learn, GitHub, Jupyter Notebook, Pandas e Python
- Apresentação do Notebook em Aula no dia 10/10/2017
- 15 Minutos de Apresentação por Grupo
A versão final do Notebook deve ser enviada ao GitHub até o dia 10/10/2017 às 19:00
- 2 pessoas
- cada dupla envia um arquivo ipynb com seus primeiros nomes
- Ex.: fulano1_funalo2.ipynb
- GitHub
- Python
- Jupyter Notebook
- Sklearn
- Pandas
- NumPy
- Pré-Processamento
- Classificação/Regressão
- Validação Cruzada
- Avaliação
- Prazo de Entrega
- Organização do Jupyter Notebook
- Explicação da Base de dados
- Explicação do Algoritmo Escolhido
- Explicação dos Parâmetros Escolhidos
- Explicação da Validação Cruzada
- Explicação da Avaliação