#M2 Yue GUO
Ce document détaille le processus automatisé de récupération, de nettoyage et d'analyse des données pour le recrutement à l'aide du scraping web et de l'apprentissage automatique.
- Le script
getCVdata.py
est exécuté pour accéder aux profils des candidats sur le site de LinkedIn en utilisant le fichiercvUrlIT.csv
. - Il utilise ensuite l'API Proxycurl avec la clé d'API stockée dans
api_key.text
pour automatiser la collecte des informations. - Les données collectées sont sauvegardées sous forme de 10 fichiers JSON contenant les CV.
Commande pour exécuter le script :
subprocess.run(["python", "getCVdata.py"])
###Récupération des annonces d'emploi
- Le script getAnnounceEmploi.py emploie Selenium pour imiter les actions humaines de recherche d'annonces d'emploi, recueillant des informations pertinentes.
- Les données récupérées sont enregistrées dans le fichier
announce.csv
.
subprocess.run(["python", "getAnnounceEmploi.py"])
###Nettoyage des données
Les notebooks dataCleanAnnonce.ipynb
et dataCleanProfileLinkedin.ipynb
sont utilisés pour nettoyer les données récupérées respectivement.
Après nettoyage, les descriptions pertinentes sont combinées et l'expérience requise ou possédée est compilée en mois.
Fichiers de données nettoyées :
df_announce=pd.read_csv('./dataDownloadSelenium/data_announce_propre.csv')
df_cv=pd.read_csv('./dataDownloadSelenium/data_cv_propre.csv')
###Apprentissage et Analyse
Le notebook TrainingDataEmployCV.ipynb
détaille le processus d'apprentissage machine.
Calcul de la similarité cosinus entre chaque CV et annonce de recrutement.
Construction d'un modèle de réseau siamois pour l'extraction des caractéristiques.
Identification des CV idéaux correspondant aux annonces.