Trabalho final da disciplina de Machine Learning - Pós-graduação em Data Science na Faesa, pelos alunos Iúri Brandão e Júlio Scopel.
Nesse repositório há dois Notebooks Jupyter, sendo que no arquivo mais recente foram realizados tratamentos dos dados (feature engineering), de modo a trazer os valores zerados de insulina e glicose, dentre outros, para perto da realidade.
- Pesquise e selecione uma coleção (https://archive.ics.uci.edu/ , https://www.kaggle.com/ , outra fonte de sua escolha desde que coloque a referência);
- Selecione três modelos de aprendizagem de máquina para aplicar a coleção;
- Explique o funcionamento dos modelos selecionados;
- Compare os resultados obtidos por cada modelo e destaque as nuances de cada um, utilize gráficos para comparação das métricas e comente os resultados;
- A entrega deverá ser feita através da publicação no Github em modo público do Notebook gerado;
- Todos componentes dos grupos deverão enviar o trabalho no AVA no formato PDF gerado a partir do Notebook;
- O trabalho pode ser realizado em grupos de até 3 pessoas;
- Não serão aceitos trabalhos idênticos;
- Coloque todas as referências externas utilizadas para confecção do trabalho.
O objetivo do trabalho é avaliar o Dataset diabetes.csv, disponível em https://www.kaggle.com/uciml/pima-indians-diabetes-database, realizando análise exploratória e executando o aprendizado de máquina (machine learning) utilizando três modelos de aprendizagem, que serão discutidos ao longo do desenvolvimento do trabalho.
- Carregamento dos dados;
- Análise exploratória;
- Tratamento dos dados;
- Definição dos modelos de aprendizagem;
- Utilização dos modelos;
- Discussão dos resultados.
- Number of times pregnant
- Plasma glucose concentration a 2 hours in an oral glucose tolerance test
- Diastolic blood pressure (mm Hg)
- Triceps skin fold thickness (mm)
- 2-Hour serum insulin (mu U/ml)
- Body mass index (weight in kg/(height in m)^2)
- Diabetes pedigree function
- Age (years)
- Class variable (0 or 1)
O resultado das análises consta no final dos Notebooks Jupyter presente nesse repositório. Importante frisar a diferença obtida nos resultados sem e com a feature engineering, de modo com que os preditores e seus fatores de importância estejam mais próximos da realidade - compare os Notebooks e perceba a diferença. Compare, por exemplo, o gráfico de importância das variáveis e veja como é importante o tratamento de dados zerados, bem como o entendimento do significado de cada preditor.
- https://www.endocrino.org.br/10-coisas-que-voce-precisa-saber-sobre-diabetes/
- https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
- https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8
- https://www.vooo.pro/insights/6-passos-faceis-para-aprender-o-algoritmo-naive-bayes-com-o-codigo-em-python/
- https://www.dezyre.com/article/top-10-machine-learning-algorithms/202