Skip to content

Commit

Permalink
Revert some translation
Browse files Browse the repository at this point in the history
  • Loading branch information
mathisdrn committed Apr 10, 2024
1 parent 325daae commit 71ab399
Show file tree
Hide file tree
Showing 2 changed files with 67 additions and 69 deletions.
107 changes: 50 additions & 57 deletions src/01 Preprocessing.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@
},
{
"cell_type": "code",
"execution_count": 1,
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
Expand All @@ -29,7 +29,7 @@
},
{
"cell_type": "code",
"execution_count": 2,
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
Expand All @@ -46,7 +46,7 @@
},
{
"cell_type": "code",
"execution_count": 3,
"execution_count": 4,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -149,7 +149,7 @@
"std 2.581816 NaN 1.310644 1.166416"
]
},
"execution_count": 3,
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -160,7 +160,7 @@
},
{
"cell_type": "code",
"execution_count": 4,
"execution_count": 5,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -270,7 +270,7 @@
"4 Tottenham 1.0 "
]
},
"execution_count": 4,
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -291,7 +291,7 @@
},
{
"cell_type": "code",
"execution_count": 5,
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
Expand Down Expand Up @@ -326,7 +326,7 @@
},
{
"cell_type": "code",
"execution_count": 6,
"execution_count": 7,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -454,7 +454,7 @@
"4 2019-06-30 351 63 40 11 12 "
]
},
"execution_count": 6,
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -469,7 +469,7 @@
},
{
"cell_type": "code",
"execution_count": 7,
"execution_count": 8,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -609,7 +609,7 @@
"std 817.590044 75.888020 39.502648 18.724610 20.571695 "
]
},
"execution_count": 7,
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -627,7 +627,7 @@
},
{
"cell_type": "code",
"execution_count": 8,
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
Expand All @@ -642,36 +642,28 @@
"metadata": {},
"source": [
":::{caution}\n",
"Les dossiers de nomination des entraîneurs, extraits de TransferMarkt, contiennent des données relatives à l’entraîneur dans ce club particulier : durée, nombre de matchs joués, nombre de matchs gagnés, etc. Ces données dépassent notre date limite de fin de saison 2023 (2024-01-14).\n",
"Head coach appointments records, extracted from TransferMarkt, contains data related to head coach in that specific club : tenure, number of matches played, number of matches won, etc. Those datapoint goes beyond our cut-off date of 2023 end season (2024-01-14).\n",
"\n",
"Une chose importante est que ces caractéristiques au-delà de la date limite sont toujours liées à une nomination d’entraîneur que nous avons dans nos dossiers. Cela nous garantit que les indicateurs tels que *nombre d’entraîneurs de club gérés* sont correctement reflétés et toujours liés à la performance des entraîneurs. \n",
"One important thing is that those feature beyond cut-off date still relate to a head coach appointment we have in our records. This guarantees us that metrics such *number of club head coach managed* are properly reflected and still relate to head coach performance.\n",
"\n",
"Cependant, cela crée une asymétrie dans nos données, car certains points de données sont limités par une période et d’autres non.\n",
"De plus, nous devons être prudents dans la façon dont nous comparons ces points de données à d’autres ensembles de données, comme les résultats de correspondance, car cela pourrait facilement biaiser notre étude statistique.\n",
"However, this create an asymetry in our data, as certain data point are limited by a time-frame and others not.\n",
"Moreover, we must be careful in how we compare these datapoint to others dataset such as match results as it could easily bias our statistical study.\n",
"\n",
"La seule façon de combiner ce jeu de données pour obtenir le résultat est d’extraire le titre d’entraîneur le jour d’un match. Cela ne biaise pas notre étude statistique car il s’agit d’une caractéristique qui est correctement reflétée par notre date limite.\n",
"The only way we combine this dataset to match result is by extracting head coach tenure on day of a match. This does not bias our statistical study as it is a feature that is properly reflected by our cut-off date.\n",
":::\n",
"\n",
":::{note}\n",
"nous avons envisagé de calculer la mesure du rendement des coachs en chef à partir des résultats des matchs, mais nous perdrions de l’information sur les dossiers antérieurs et nous créerions des données de déséquilibre pour le tracé, comme une régression linéaire du rendement des coachs en chef par rapport à leur ancienneté : un entraîneur de longue date qui n’aurait pas été congédié peu de temps après notre date de début aurait un nombre inférieur de matchs, donc une mesure de performance avec une variance plus élevée qui biaiserait la régression linéaire en raison de la longue durée.\n",
"I have considered computing Head Coach performance metric from match results but we would lose information on prior records as well as creating imbalance data for plot such as linear regression of head coach performance over head coach tenure : a long standing coach which would not been dismissed soon after our start date would have a lower number of matches, thus a performance metric with higher variance that would bias linear regression due to long tenure.\n",
":::"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nous devons nous assurer que les données sont cohérentes et qu’il n’y a qu’un seul entraîneur-chef à la fois pour une équipe."
]
},
{
"cell_type": "code",
"execution_count": 9,
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"# We need to verify that for a given team there is only 1 head coach at a time\n",
"# Each row contains a record of an head coach appointments. This appointment is ongoing between the Appointed and EndDate\n",
"# Ensuring there is only 1 head coach at a time in any given team.\n",
"\n",
"head_coach_bis = head_coach.copy()\n",
"# Sort data by 'Team' and 'Appointed'\n",
Expand All @@ -697,7 +689,7 @@
},
{
"cell_type": "code",
"execution_count": 10,
"execution_count": 11,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -844,7 +836,7 @@
"190 -21 days True "
]
},
"execution_count": 10,
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -855,7 +847,7 @@
},
{
"cell_type": "code",
"execution_count": 11,
"execution_count": 12,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -985,7 +977,7 @@
"2238 FC Empoli 2020-01-26 2020-08-11 False 8 days"
]
},
"execution_count": 11,
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -996,7 +988,7 @@
},
{
"cell_type": "code",
"execution_count": 12,
"execution_count": 13,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -1091,7 +1083,7 @@
"3389 Stade Reims 2022-10-13 2024-01-14 False"
]
},
"execution_count": 12,
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -1103,7 +1095,7 @@
},
{
"cell_type": "code",
"execution_count": 13,
"execution_count": 14,
"metadata": {},
"outputs": [],
"source": [
Expand All @@ -1117,12 +1109,12 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Ensuite, nous aimerions ajouter à chaque entraîneur le nombre de rendez-vous qu’il termine."
"Next we would like to add to each head coach record the number of appointment he is completing."
]
},
{
"cell_type": "code",
"execution_count": 14,
"execution_count": 15,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -1256,7 +1248,7 @@
"415 693 119 89 14 16 1 "
]
},
"execution_count": 14,
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -1272,7 +1264,7 @@
},
{
"cell_type": "code",
"execution_count": 15,
"execution_count": 16,
"metadata": {},
"outputs": [
{
Expand All @@ -1281,7 +1273,7 @@
"0"
]
},
"execution_count": 15,
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -1293,7 +1285,7 @@
},
{
"cell_type": "code",
"execution_count": 16,
"execution_count": 17,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -1729,14 +1721,14 @@
"label": "join_head_coach_match"
},
"source": [
"Nous aimerions ajouter des informations sur combien de temps l’entraîneur a été en charge de léquipe lorsque le match a été joué. Cela nous permettra de voir si le poste d’entraîneur a un impact sur le résultat du match.\n",
"Nous ajoutons aux données de match l'ancienneté du coach au sein de l'équipe lorsque ce match a été joué. Cela nous permettra de voir si l'ancienneté de l'entraîneur au sein d'une équipe a un impact sur sa performance.\n",
"\n",
"Cependant, en essayant de joindre les deux dataframes, nous avons constaté que les noms d’équipe ne sont pas cohérents entre les deux dataframes. Nous devrons corriger cela avant de pouvoir joindre les deux dataframes."
"Cependant, le nom des équipes dans les deux jeux de données sont différents. Nous devons corriger cela avant de pouvoir joindre les deux dataframes."
]
},
{
"cell_type": "code",
"execution_count": 17,
"execution_count": 18,
"metadata": {},
"outputs": [
{
Expand All @@ -1745,7 +1737,7 @@
"(58, 153)"
]
},
"execution_count": 17,
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -1767,16 +1759,17 @@
"label": "inconsistent_team_names"
},
"source": [
"Au total, match_results contient {eval}`len(match_team)`teams et head_coach contient {eval}`len(coach_team). Cependant, le nom de certaines équipes est différent entre les deux ensembles de données. Par exemple, « Liverpool » dans match_results est « Liverpool FC » dans head_coach. C’est problématique, car nous devrons joindre des données dans les colonnes de l’équipe.\n",
"Au total, les résultats de matchs contiennent {eval}`len(match_team)` équipes et les mandats de coachs contiennent {eval}`len(coach_team) équipes. Cependant, le nom de certaines équipes est différent entre les deux jeux de données. Par exemple, « Liverpool » dans les résultats de match devient « Liverpool FC » dans les mandats des entraîneurs.\n",
"\n",
"Au total, il y a {eval}`len(coach_team_not_in_match)` des équipes présentes dans les dossiers de l’entraîneur qui ne sont pas dans les résultats du match et {eval}`len(match_team_not_in_coach)` des équipes présentes dans les résultats du match, mais pas dans les dossiers de l’entraîneur.\n",
"Il existe {eval}`len(coach_team_not_in_match)` références à des équipes dans les mandats de coachs qui n'ont pas de correspondance dans les résultats de match.\n",
"\n",
"Nous utiliserons la distance de Levenshtein pour trouver l’équipe la plus proche de *match_results* qui correspond à chaque équipe dans les dossiers de l’entraîneur-chef. Nous vérifierons ensuite manuellement les résultats pour nous assurer que les correspondances sont correctes."
"Nous utiliserons la distance de Levenshtein afin de faire correspondre les équipes des mandats d'entraîneurs aux équipes des résultats de matchs. Nous restreignons la recherche d'une équipe correspondante à la liste des équipes du pays correspondant afin de limiter le nombre de correspondances possibles.\n",
"L'ajustement du score de Levenshtein permet de rapidement vérifier la validité des correspondances de moins bonne certitudes."
]
},
{
"cell_type": "code",
"execution_count": 18,
"execution_count": 19,
"metadata": {},
"outputs": [
{
Expand All @@ -1798,7 +1791,7 @@
" Name: Team, dtype: object)"
]
},
"execution_count": 18,
"execution_count": 19,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -1813,7 +1806,7 @@
},
{
"cell_type": "code",
"execution_count": 19,
"execution_count": 20,
"metadata": {},
"outputs": [],
"source": [
Expand Down Expand Up @@ -1841,7 +1834,7 @@
},
{
"cell_type": "code",
"execution_count": 20,
"execution_count": 21,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -1895,7 +1888,7 @@
},
{
"cell_type": "code",
"execution_count": 21,
"execution_count": 22,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -2029,7 +2022,7 @@
"2633 2022-06-30 364 37 14 9 14 2 "
]
},
"execution_count": 21,
"execution_count": 22,
"metadata": {},
"output_type": "execute_result"
}
Expand All @@ -2049,7 +2042,7 @@
},
{
"cell_type": "code",
"execution_count": 22,
"execution_count": 23,
"metadata": {},
"outputs": [
{
Expand Down Expand Up @@ -2165,7 +2158,7 @@
"4 Alan Pardew 1423.0 "
]
},
"execution_count": 22,
"execution_count": 23,
"metadata": {},
"output_type": "execute_result"
}
Expand Down Expand Up @@ -2199,7 +2192,7 @@
},
{
"cell_type": "code",
"execution_count": 23,
"execution_count": 24,
"metadata": {},
"outputs": [],
"source": [
Expand Down
Loading

0 comments on commit 71ab399

Please sign in to comment.