Esse é um projeto proposto pela KPMG no seu programa de estágio virtual,
confira aqui
Explore a documentação »
Conteúdo
A Sprocket Central Pty Ltd, uma organização de bicicletas e acessórios de ciclismo de tamanho médio, precisa de ajuda com seus dados de clientes e transações. A organização tem um grande conjunto de dados relacionados a seus clientes, mas sua equipe não sabe como analisá-lo efetivamente para ajudar a otimizar sua estratégia de marketing.
A Sprocket Central Pty Ltd também possui uma lista de 1.000 clientes em potencial com seus dados demográficos e atributos. No entanto, esses clientes não têm histórico de transações anteriores com a organização. A equipe de marketing da Sprocket Central Pty Ltd tem certeza de que, se analisados corretamente, os dados revelariam informações úteis sobre os clientes que poderiam ajudar a otimizar a alocação de recursos para marketing direcionado, concentrando-se em consumidores que poderiam dar um alto retorno.
Além disso, a empresa espera a exibição dos resultados da análise em um painel com no máximo de 4 visualizações/guias.
Siga os passos para conseguir reproduzir o projeto localmente. Para conseguir uma cópia do mesmo, siga os passos abaixo.
A versão Python utilizada neste projeto é a 3.9.13.
- Pip (Windows)
py get-pip.py
- Virtual Env (Opcional)
pip install virtualenv
- Clone o repositório
git clone https://github.com/dnsrsdata/Segmentacao_Clientes.git
- Crie e ative um ambiente virtual (Opcional)
- Instale os pacotes
pip install -r requirements.txt
- [✔️] Entendimento dos dados e do problema de negócio
- [✔️] Análise exploratória
- [✔️] Limpeza dos dados
- [✔️] Feature Engineering
- [✔️] Construção do modelo
- [✔️] Aplicação de rótulo nos dados dos potenciais clientes
- [✔️] Construção de dashboard no PowerBI
- [❌] Modularização do código
- [❌] Deploy do modelo
Durante a análise dos dados dos clientes fornecidos pela empresa, foram produzidas algumas visualizações tendo como base os dados dos clientes que podem auxiliar o time de Marketing da Sprocket Central Pty Ltd na otimização da sua estratégia. atráves do gráfico abaixo, onde temos a quantidade de compras por idade, podemos perceber um volume maior de compras entre pessoas com idade entre 41 a 50 anos, mostrando que os clientes da empresa que estão nessa faixa de idade são mais ativos.
Já em relação ao segmento de indústria que os clientes participam, foi possível notar que o setor de manufatura, seguido pelo de serviços financeiros são onde estão os clientes que mais compraram produtos de ciclismo nos ultimos 3 anos, onde a quantidade de compras nesses dois setores somados representam 47% de todas as vendas nesse período. Se levassemos em consideração o setor da saúde, o terceiro maior, a representação passa a ser de 66% no número total de vendas, como pode ser visto abaixo.
Ainda em relação ao cliente, mas dessa vez, relacionando o mesmo com o estado em que reside, percebemos que o estado de New South Wales é onde 53% de todas as vendas ocorreram nos últimos 3 anos, onde mesmo somadas, as vendas que ocorreram em outros estados ainda são inferiores em 15% se compradas com o mesmo.
Tirando um pouco o foco do cliente e olhando para o produto, conseguimos ver que a marca Solex é a mais popular, vendendo em média 36% a mais do que as outras marcas.
Além das visualizações oriundas dos dados fornecidos, também foi desenvolvido um modelo para a clusterização dos consumidores atuais da Sprocket Central Pty Ltd, onde houve uma divisão dos mesmos em dois grupos, sendo registrado um número de compras 170% maior do grupo 1 em relação ao grupo 2 e uma quantidade de custos necessários para a fabricação dos itens 10% menor do primeiro grupo em relação ao segundo, mostrando que o grupo 1, além de consumir bem mais (1,7X) do que o grupo 2, também mostrou ser melhor em relação aos custos de fabricação dos itens. A construção de tal modelo teve como objetivo segmentar uma lista de clientes em potencial, buscando aqueles com características semelhantes aos consumidores do primeiro grupo, que foi julgado ser o melhor. Da lista com 1000 pessoas, 506 foram identificadas como clientes com características semelhantes ao do melhor grupo. O resumo apresentado em uma Dashboard pode ser conferido abaixo.
Distribuído sob a licença MIT. Veja LICENSE.txt
para mais informações.
Daniel Soares - danielsoares.data@outlook.com
Outros projetos: https://github.com/dnsrsdata?tab=repositories
├── LICENSE
├── README.md <- Readme contendo a descrição do projeto.
├── data
│ ├── external <- Dados coletados de terceiros.
│ ├── interim <- Dados com transformações.
│ ├── processed <- Dados finais, após a modelagem.
│ └── raw <- Dados originais, imutáveis.
│
├── models <- Modelos treinados, predições do modelo, ou sumário do modelo.
│
├── notebooks <- Jupyter notebooks.
│
├── reports <- Análises geradas em HTML, PDF, LaTeX, etc.
│ └── figures <- Gráficos gerados e figuras usadas no relatório.
│
└── requirements.txt <- Arquivo com as bibliotecas necessárias para a reprodução do projeto.
Gerado com `pip freeze > requirements.txt`