Skip to content

ecdyzone/bootcamp-data-science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Este repositório contém meus cadernos de aula e dados utilizados, organizados em pastas de acordo com os módulos de aulas.

Contexto

Em maio, a Alura (uma das maiores plataformas brasileira de cursos de tecnologia), lançou a Imersão Dados 2021. Eu me inscrevi, e durante uma semana tivemos conteúdo sobre ciência de dados aplicada a descobrimento de novos fármacos. (Meus cadernos de aulas estão disponíveis aqui).

Ao final desta semana havia um desafio final a ser entregue, e o meu projeto foi um dos dez selecionados para ganhar uma bolsa integral a este Bootcamp Data Science Aplicada, que vai de Maio a Julho de 2021.

Meus Projetos

Ao final de cada módulo do bootcamp desenvolvi um projeto que está num repositório separado. Clique no link para ir ao repositório.

  • Módulo 1 - Análise de internações, óbitos e taxa de mortalidade do SUS entre janeiro de 2011 e março de 2021.
  • Módulo 2 - Análise comparativa sobre a cobertura vacinal nos estados brasileiros entre 2017 e 2020, destacando desigualdades entre Regiões e Estados brasileiros.
  • Próximos módulos ainda não concluídos.

Ementa do Curso

A Ementa em pdf está disponível aqui.

Principais bibliotecas (Python) utilizadas: Pandas, Numpy, Seaborn, Matplotlib, Scikit-Learn, Facebook Prophet

 

Módulo 01: Python e pandas para análise de dados reais

Neste módulo vamos aprender como utilizar Python, Pandas e Matplotlib para explorar os dados financeiros do SUS, mais precisamente os gastos por Unidade Federativa ao longo dos anos. Os desafios se iniciam na aquisição dos dados em uma plataforma do governo e seus possíveis problemas, passando pelo leitura destes dados com o Pandas até a criação de hipóteses na área da saúde, que sempre devem ser cuidadosas, simulando os desafios diários de uma pessoa cientista de dados.

Meu caderno dos módulos 1 e 2

 

Módulo 02: Visualização de dados com Seaborn e Matplotlib

Neste módulo seguiremos nas análises dos dados financeiros do SUS. Vamos mais fundo no tratamento e manipulação dos dados para análises mais complexas, utilizando recursos mais avançados do Pandas e da Linguagem Python como um todo.

Fontes de dados externas serão utilizadas para enriquecer a análise exploratória e realizar comparações mais precisas entre os diferentes estados. Além disso, discutiremos mais sobre boas práticas de visualização, interpretação de gráficos e sua construção com o Seaborn.

Meu caderno dos módulos 1 e 2

 

Módulo 03: Análise de séries temporais

Neste módulo vamos descobrir o que são séries temporais e estudar suas particularidades.

Todo arcabouço teórico adquirido até aqui será aplicado para o entendimento das nuances envolvendo as séries temporais. Da estatística descritiva, passando pela análise exploratória e chegando às previsões, sempre de forma aplicada e prática utilizando ferramentas específicas para esse tipo de dados, como o statsmodels e Prophet desenvolvido pelo Facebook.

Meu caderno do módulo 3

 

Módulo 04: Tratamento, análise e Machine Learning aplicado

Estamos chegando na reta final, e este módulo dará início ao desenvolvimento de um projeto prático que passará por todo o workflow em Data Science, do entendimento do problema, tratamento e análise dos dados até a proposta de solução utilizando Machine Learning.

Vamos trabalhar com dados da COVID-19 do hospital Sírio Libanês, focando este módulo no tratamento e análise de dados para entender profundamente o problema que estamos lidando e propor possíveis soluções.

A partir de agora, tudo que você aprendeu ao longo destes meses será colocado em prática para ajudar a propor soluções para problemas reais de um hospital. Você irá encarar desafios reais de uma pessoa Cientista de Dados na área da saúde.

Meu caderno do módulo 4

 

Módulo 05: Modelos, métricas e validações em Machine Learning

No último módulo aplicamos todo nosso conhecimento para analisar dados da COVID-19, entender alguns dos desafios dos hospitais em época de pandemia e propor soluções a partir das análises de dados.

Nossa proposta de solução foi utilizar modelos de Machine Learning, mas para tornar isso possível precisamos aprofundar nossos conhecimentos nesta área, testando modelos mais avançados, utilizando métricas adequadas ao problema e validando de forma correta. Neste módulo vamos trabalhar todas estas frentes para tornar nossa solução uma proposta viável.

Caderno do módulo 5

 

Módulo 06: Finanças

Agora chegou o momento de consolidar seu conhecimento em uma nova área. Vamos sair do assunto saúde e desenvolver um projeto completo de data science aplicado a finanças, será mais um projeto incrível para complementar seu portfólio e principalmente para te ensinar assuntos específicos desta área tão relevante.

About

Alura Data Science Bootcamp

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published