Nível: Iniciante/Intermediário
Este curso é indicado para desenvolvedores, estudantes dos cursos de desenvolvimento de sistemas, engenheiros e pesquisadores. Neste curso do aluno irá aprender as técnicas e ferramentas de um Cientista de Dados até o nível intermediário.
Os conhecimentos básicos de linguagem de programação e estatística básica são requisitos desejados, não são obrigatórios. Os alunos sem esse conhecimento deverão se esforçar mais durante os exercícios.
- As Ferramentas do Cientista de Dados
- Introdução em Ciência de Dados e Big data
- Obtendo ajuda (git, Stackoverflow e etc)
- Introdução a linguagem R
- RStudio
- Github
- Análise de Datasets
- Linguagem R
- Tipos de dados e objetos em R
- Lendo e gravando Dados
- Estruturas de controle, funções e regras
- Laços e ferramentas de depuração
- Simulação
- Aquisição e análise exploratória de dados
- Coleção de Dados (Datasets)
- Arquivos do tipo Raw (.xls, .csv)
- Bases de dados (mySQL, MongoDB)
- API
- Formato dos dados
- Flat Files (.csv, .txt)
- XML
- JSON
- Gráficos exploratórios
- Princípios da análise em gráficos
- Plotando em dispositivos gráficos em R
- Base, Lattice e ggplot2
- Técnicas de redução de dimensionalidade
- Publicação dos resultados
- Estatística Inferencial e Modelos de Regressão
- Probabilidade
- Expectativas
- Independência
- Probabilidade Condicional
- Inferência Estatística
- Distribuição de Probabilidade
- Likelihood
- Inferência Bayesiana
- Teste de Hipótese
- P-value
- Testes múltiplos
- Machine Learning
- Predição – Estudo e design
- Tipos de erro
- Funções objetivo
- Cross-validation
- Fitting models em R
- Predição e regressão
- Predição por árvore de decisão (Bayes)
- Predição com boosting e bagging
- Combinando Preditores
- Diagnostico