Data Science & Points

Projeto de aplicação em Data Science do início ao fim. Um pipeline completo para solução de dados.

Sobre
Desafio
Sobre o autor
Como apoiar

Este material está sob a licença: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Sobre

Coinstruimos uma solução de Data Science, aplicando técnicas de Machine Learning para um problema de negócios específico.

Tudo foi desenvolvido ao vivo no canal Téo Me Why e disponibilizado para nossos Subs da Twitch e Membros do YouTube.

Assina aqui: Twitch / YouTube

Contexto

Temos os dados de nossos usuários de sistema de pontos do canal. Com base nisso, desejamos identificar ações e produtos de dados que aumentem o engajamento de nossos usuários.

Assim, pensamos em construir um projeto de Data Science que aborde todas as etapas necessárias para construção de um produto de dados.

Etapas

Construção de Feature Store;
Processamento das safras;
Construção da variável resposta;
Construção da ABT (Analytical Base Table);
Treinamento de modelos preditivos;
Deploy;

Pré-requisitos

Disciplinas

Para ter uma melhor experiência com nosso projeto, vale a pena conferir as seguintes playlists totalmente gratuitas:

Materiais

↘️ Baixe os dados aqui! ↙️
↘️ Acesso a Apresentação aqui! ↙️

Softwares

Setup

Com as ferramentas necessários instaladas, podemos criar nosso enviroment a partir do Anaconda (conda):

conda create --name ds_points python=3.
conda activate ds_points

pip install -r requirements.txt

Desafio

Durante o nosso curso realizamos o treinamento de um modelo Random Forest com GridSearch. A partir deste modelo, obtivemos as seguintes métricas:

Base	Acurárica	Curva Roc	Precisão	Recall
Train	0.819401	0.913987	0.770598	0.845745
Test	0.747634	0.817416	0.684848	0.801418
Oot	0.741602	0.814528	0.669291	0.594406

Utilize os dados deste link para tentar melhorar a performance do modelo na base Out of Time (oot).

Considere:

target = 'flChurn'
features = df_train.columns[3:].tolist()

# Dataframe oot
df_oot = df[df['dtRef']==df['dtRef'].max()]

# Dataframe de treino
df_train = df[df['dtRef']<df['dtRef'].max()]

X_train, X_test, y_train, y_test = model_selection.train_test_split(df_train[features],
                                                                    df_train[target],
                                                                    random_state=42,
                                                                    train_size=0.8,
                                                                    stratify=df_train[target])

Sobre o autor

Téo é um entusiasta do universo de dados, traz consigo uma rica jornada nas esferas de Data Science e Analytics. Como líder, destacou-se na condução estratégica de equipes, liderando pessoas e projetos de Advanced Analytics. Sua visão inovadora, não apenas transformou a cultura organizacional, mas também impulsionou a implementação de diversos projetos de dados, integrando de maneira eficiente áreas cruciais da empresa.

Além de suas realizações profissionais, Teo nutre uma paixão dedicada à democratização do conhecimento na área de dados e tecnologia. Por meio de sua iniciativa educacional, Téo Me Why, ele compartilha insights valiosos, promove treinamentos envolventes e disponibiliza material autoral, alcançando uma audiência global. Sua abordagem acessível e inspiradora tem impactado milhares de entusiastas, tornando o aprendizado sobre dados mais inclusivo e estimulante.

Apoie essa inciativa!

Realizamos um trabalho de educação na área de dados de forma gratuita, então todo apoio é importante. Confira as diferentes maneiras de nos apoiar:

💵 Chave Pix: pix@teomewhy.org
💶 LivePix: livepix.gg/teomewhy
💷 GitHub Sponsors: github.com/sponsors/TeoMeWhy
💴 ApoiaSe: apoia.se/teomewhy
🎥 Membro no YouTube: youtube.com/@teomewhy/membership
🎮 Sub na Twitch: twitch.tv/teomewhy
💌 Newsletter: teomewhy.substack.com

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
data		data
models		models
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Science & Points

Sobre

Contexto

Etapas

Pré-requisitos

Disciplinas

Materiais

Softwares

Setup

Desafio

Sobre o autor

Apoie essa inciativa!

About

Releases

Sponsor this project

Packages

Languages

License

TeoMeWhy/ds-points

Folders and files

Latest commit

History

Repository files navigation

Data Science & Points

Sobre

Contexto

Etapas

Pré-requisitos

Disciplinas

Materiais

Softwares

Setup

Desafio

Sobre o autor

Apoie essa inciativa!

About

Resources

License

Stars

Watchers

Forks

Releases

Sponsor this project

Packages 0

Languages

Packages