Este repositório armazena as análises desenvolvidas durante o curso "Data Science na Prática" da Sigmoidal, bem como aprendizados próprios. Nota: Os dados utilizados nos projetos (acessados no diretório de dados) são apenas para fins de demonstração.
- Instale as dependências necessárias.
- Execute os notebooks como de costume, usando um servidor Jupyter Notebook, Vscode, etc.
-
- Análise dos Dados do Airbnb em Hong Kong: Uma análise dos dados do Airbnb na cidade de Hong Kong, utilizando ferramentas de análise estatística para entender os preços médios, tipos de imóveis disponíveis e suas localizações. Além disso, o notebook apresenta visualizações e insights sobre as avaliações dos usuários e os requisitos mais buscados pelos hóspedes.
- Panorama da COVID-19: Uma análise dos dados da COVID-19 em nível mundial, utilizando ferramentas de visualização para apresentar a evolução dos casos confirmados, mortes e taxas de recuperação em diferentes países. Além disso, o notebook apresenta uma análise dos dados em relação à densidade populacional e IDH dos países, buscando entender possíveis fatores que influenciam a disseminação da doença.
Ferramentas: Pandas, Seaborn, Matplotlib
-
- Detecção de Fraudes em Cartões de Crédito: Neste projeto, é utilizada uma base de dados de transações de cartões de crédito para desenvolver um modelo de aprendizado de máquina capaz de identificar fraudes. São utilizadas técnicas de pré-processamento, análise exploratória e seleção de atributos para treinar modelos de classificação, buscando maximizar a identificação de transações fraudulentas e minimizar falsos positivos.
- Churn Prediction: Neste projeto, é desenvolvido um modelo de aprendizado de máquina para prever a taxa de churn de clientes em uma empresa fictícia. São utilizadas técnicas de pré-processamento, análise exploratória e seleção de atributos para treinar modelos de classificação, buscando prever quais clientes têm maior probabilidade de abandonar a empresa e identificar possíveis fatores que influenciam nessa decisão. O objetivo final é ajudar a empresa a tomar medidas preventivas para reduzir a taxa de churn e aumentar a retenção de clientes.
- Credit Risk Analysis: Neste projeto, é utilizada uma base de dados financeiros de clientes para desenvolver um modelo de aprendizado de máquina capaz de avaliar o risco de crédito. O objetivo é prever a probabilidade de um cliente não cumprir com suas obrigações financeiras, o que é conhecido como default. São utilizadas técnicas de pré-processamento para preparar os dados para o treinamento do modelo. Isso pode envolver a limpeza dos dados, tratamento de valores ausentes, e a transformação de variáveis categóricas em numéricas, além de feature engineering, feature selection e balanceamento de classes
Ferramentas: Sklearn, Imblearn, Pandas, Seaborn, Matplotlib
-
-
Classificação de Saúde Fetal: Neste projeto, é desenvolvido um modelo de classificação para prever a saúde fetal com base em dados clínicos. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis correlações entre as variáveis. Em seguida, diferentes modelos de aprendizado de máquina são treinados e avaliados para encontrar o que apresenta o melhor desempenho na classificação das diferentes condições de saúde fetal.
-
Previsão de Custos de Seguro de Saúde: Neste projeto, é desenvolvido um modelo de regressão para prever os custos de seguro de saúde com base em informações sobre os segurados. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis correlações entre as variáveis. Em seguida, diferentes modelos de regressão são treinados e avaliados para encontrar o que apresenta o melhor desempenho na previsão dos custos de seguro de saúde. O objetivo final é ajudar as seguradoras a estimar os custos de seus segurados e definir preços mais justos para seus planos de saúde.
Ferramentas: Pycaret, Sklearn, Imblearn, Pandas, Seaborn, Matplotlib
-
-
- Classificador de Fake News: Neste projeto, desenvolvemos um modelo de classificação de notícias como verdadeiras ou falsas, por meio de redes neurais. O objetivo é criar um classificador de aprendizado de máquina capaz de detectar automaticamente notícias falsas, auxiliando no combate à desinformação. Utilizando um conjunto de treinamento de notícias rotuladas, o modelo é treinado para identificar padrões e distinguir entre notícias verdadeiras e falsas. Esse projeto contribui para a identificação e mitigação da propagação de informações enganosas, visando a promoção de um ambiente informacional mais confiável e seguro.
Ferramentas: Tensorflow, Sklearn, Pandas, Numpy, Seaborn, Matplotlib
-
- Previsão de Demanda de Vinhos com Séries Temporais: : Neste projeto, é desenvolvido um modelo de previsão de demanda de vinhos com base em séries temporais. São utilizados dados históricos de vendas para treinar e testar diferentes modelos de previsão, como ARIMA, Prophet e LSTM. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis tendências e sazonalidades. O objetivo final é ajudar uma vinícola a antecipar a demanda por seus produtos e otimizar sua produção e distribuição.
Ferramentas: Prophet, Sklearn, Pandas, Seaborn, Matplotlib