Skip to content

Latest commit

 

History

History
178 lines (103 loc) · 9.92 KB

Segunda parte.md

File metadata and controls

178 lines (103 loc) · 9.92 KB

Introdução

Vamos agora discorrer sobre análise de regressão e as correlações de cada critério em relação à pontuação. Porém, antes vamos discutir sobre um ponto que deve ficar claro.

Recapitulando…

A fórmula do aproveitamento é $AP=\frac{QP}{QT}\times100$, como $QT=114$ no nosso caso, temos então que $AP=\frac{QP}{114}\times100=QP\times\frac{100}{114}$. Portanto, o aproveitamento é diretamente proporcional à pontuação. Mais do que isso, é totalmente dependente da pontuação.

Vamos analisar os dois tipos de gráficos de cada critério. Primeiro, as frequências.

Comparação A similaridade das duas distribuições de frequência é clara. Até as diferenças entre cada medida central são parecidas. Agora, vamos ver as médias de cada time.

Mesma coisa, a semelhança é óbvia. As médias e valores são idênticos.

Pontuação Aproveitamento

Correlação

Agora, vamos ver a matriz de correlação.

Posição Pontos Vitórias Empates Derrotas Saldo Aproveitamento
Posição 1 -0.939 -0.916 0.195 0.814 -0.866 -0.939
Pontos -0.939 1 0.973 -0.195 -0.873 0.923 1.000
Vitórias -0.916 0.973 1 -0.418 -0.736 0.879 0.973
Empates 0.195 -0.195 -0.418 1 -0.308 -0.099 -0.195
Derrotas 0.814 -0.873 -0.736 -0.308 1 -0.846 -0.873
Saldo -0.866 0.923 0.879 -0.099 -0.846 1 0.923
Aproveitamento -0.939 1 0.973 -0.195 -0.873 0.923 1

Vemos que os coeficientes de correlação do aproveitamento são iguais aos da pontuação, mais uma vez confirmando a relação direta entre aproveitamento e pontuação.

Continuando, temos agora os gráficos de dispersão de cada critério, nas diagonais, cada distribuição de frequência e, na parte inferior, cada dispersão apresenta a concentração dos dados. pairplot

Queremos avaliar a pontuação. Então, vamos ver mais detalhadamente essa categoria.

pontuação

Correlação total e positiva entre aproveitamento e pontuação até graficamente.

Modelos de regressão

Vamos começar a verificar quais critérios influem na pontuação. Vou omitir o aproveitamento porque já verificamos a relação direta.

Criei funções para gerar cada modelo e outro para exibir os resultados.

Posição

image

O coeficiente de determinação da posição é 0.882, o que quer dizer que o modelo linear explica 88,2% da variação da pontuação, um ótimo ajuste. O p-valor do modelo é nulo, então há significância estatística nele.

Temos, logo depois dele, os intervalos de confiança. Agora vamos ver a reta ajustada do modelo.

De fato a reta estima razoavelmente bem a pontuação dada a posição.

$$ y=33.2-0.4x $$

Podemos dizer que a posição é o primeiro fator que tem influência direta na pontuação, mesmo que negativa.

Untitled

Vitórias

image

O coeficiente de determinação das vitórias é 0.946, o que quer dizer que o modelo linear explica 94,6% da variação da pontuação, um ajuste quase perfeito. O p-valor do modelo é nulo, então há significância estatística nele.

Temos, logo depois dele, os intervalos de confiança. Agora vamos ver a reta ajustada do modelo.

A reta estima quase perfeitamente a pontuação dado o número de vitórias. Uma relação linear quase direta.

$$ y=-4.3+0.4x $$

A vitória é outro dos fatores que têm influência direta na pontuação, dessa vez positiva.

Untitled

Saldo de gols

Untitled

O coeficiente de determinação do saldo de gols é 0.853, então o modelo explica razoavelmente a pontuação, um bom ajuste. O p-valor do modelo é nulo, então há significância estatística nele.

Vamos ver a reta ajustada desse modelo. Ela estima bastante a pontuação dado o saldo de gols.

$$ y=-62.4+1.2x $$

O saldo de gols é mais um dos fatores que têm influência direta positiva na pontuação.

Untitled

Lembrando dos histogramas da parte 1, temos dois critérios que se aproximam de uma distribuição normal: os empates e, principalmente, as derrotas. Vamos fazer uma avaliação mais detalhada deles.

Empates

image

O coeficiente de determinação dos empates é 0.038, então o modelo explica quase nada da pontuação, como já devia ser esperado. O p-valor do modelo é nulo, então há significância estatística nele.

Nem podemos chamar de ajuste, vamos apenas ver a reta desse modelo.

Dados totalmente dispersos em volta da reta.

O p-valor do teste Omnibus, como vemos acima, é de 0.803, muito maior que 0.05, nosso nível de significância, então os resíduos do modelo não se distribuem como uma normal, um fato óbvio. O p-valor do teste Jarque-Bera, 0.891, confirma o mesmo fato.

Untitled

Esse gráfico abaixo faz uma comparação de distribuições de probabilidade com a normal. Quando as distribuições são muito próximas ou, até mesmo, iguais, esses valores, os pontinhos azuis, vão ficar bem em cima dessa reta vermelha, isso mostra que ela se distribui bem próxima de uma distribuição normal.

Untitled

Os dados se aproximam bastante de uma distribuição normal. Além disso, a assimetria (skew) se aproxima bastante de zero, e a curtose (curtosis) é muito próxima de 3, evidenciando a semelhança com a normal.

Derrotas

image

O coeficiente de determinação dos empates é 0.762, então o modelo razoavelmente bem a pontuação. O p-valor do modelo é nulo, então há significância estatística nele.

Vamos ver a reta ajustada desse modelo. Ela estima de certo jeito a pontuação dadas as derrotas.

$$ y=29.3-0.3x $$

O p-valor do teste Omnibus, como vemos acima, também é de 0.803, então os resíduos do modelo não se distribuem como uma normal, um fato óbvio de novo. Não é uma distribuição normal, só similar.

O p-valor do teste Jarque-Bera, também de 0.891, confirma o mesmo fato.

A derrota é mais um dos fatores que têm influência direta negativa na pontuação.

Untitled

Untitled

Esses dados também se aproximam bastante de uma distribuição normal. A assimetria e a curtose têm os mesmos valores do modelo anterior, evidenciando a semelhança com a normal.

Um exemplo de não normalidade

A distribuição de frequências da posição se afasta bastante de uma normal.

image

Mais algumas considerações

Vamos ver as regressões e distribuições de frequência das categorias relevantes para a pontuação. Untitled

Untitled

Vemos que a distribuição das derrotas se assemelha à forma de sino de uma distribuição normal, assim como a dos empates, como visto abaixo.

Untitled

A reta de ajuste do aproveitamento explica perfeitamente a pontuação, porém o ajuste linear não é estatisticamente significativo pois o p-valor é muito grande. Untitled

Para terminar essa seção, vamos ver os boxplots de cada time de acordo com as pontuações e aproveitamentos. Temos gráfico semelhantes uma vez mais.

Untitled

image

Conclusão

Temos que os critérios que influenciam positivamente na pontuação são as vitórias e o saldo de gols. Quanto maiores forem, maior será a pontuação. Os critérios que influenciam negativamente na pontuação são as derrotas e a posição. Quanto maiores forem, menor será a pontuação.

Além disso, o aproveitamento depende diretamente da pontuação, um fato óbvio, mas que comprovamos nesse texto.

Bom, aqui está o notebook do Colab com todos os comandos: brasileirão parte 2.ipynb.

Muito obrigado pela leitura de novo!