Este projeto foi desenvolvido no âmbito da Unidade Curricular Inteligência Artificial (IA) do 2º semestre do 3º ano da Licenciatura em Engenharia Informática e Computação (LEIC) da Faculdade de Engenharia da Universidade do Porto (FEUP), no ano letivo 2023/2024.
Grupo: Group A2_42
- António Marujo Rama - up202108801
- Manuel Ramos Leite Carvalho Neto - up202108744
- Matilde Isabel da Silva Simões - up202108782
Para instalar as bibliotecas necessárias, é necessário correr os comandos:
pip install matplotlib
pip install numpy
pip install pandas
pip install seaborn
pip install sklearn
O programa consiste num Jupyter Notebook no qual se encontra documentado todo o processo de desenvolvimento de um modelo de machine learning, segundo uma adaptação da metodologia CRISP-DM.
Assim, cada uma das cinco fases do processo de mineração de dados está contida numa secção, com várias subsecções, de acordo com o índice abaixo.
- Introdução
- Estrutura
- Tecnologias
- Compreensão do Tema
- Objetivos do Tema
- Definição do Problema
- Objetivos do Modelo
- Compreensão dos Dados
- Dados Iniciais
- Descrição dos Dados
- Qualidade dos Dados
- Exploração dos Dados
- Preparação dos Dados
- Seleção
- Limpeza
- Construção
- Transformação
- Modelação
- Escolha dos Algoritmos
- Design do Teste
- Construção do Modelo - Árvore de Decisão
- Afinação dos Parâmetros - Árvore de Decisão
- Construção do Modelo - Rede Neuronal
- Afinação dos Parâmetros - Rede Neuronal
- Construção do Modelo - K-Nearest Neighbors
- Afinação dos Parâmetros - K-Nearest Neighbors
- Construção do Modelo - Support Vector Machine
- Afinação dos Parâmetros - Support Vector Machine
- Construção do Modelo - Random Forest
- Afinação dos Parâmetros - Random Forest
- Avaliação
- Avaliação dos Resultados
- Revisão
- Próximos Passos
Para complementar as descrições/explicações textuais, existem diversos blocos de código ao longo do notebook, bastando carregar no play para os executar. Após a execução, o output de cada bloco de código aparece imediatamente abaixo do mesmo.
Note-se que o dataset se encontra no ficheiro data.csv, pelo que esse documento não deve ser alterado.