Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

JS Crawling via chrome headless #288

Open
wants to merge 26 commits into
base: master
Choose a base branch
from
Open

JS Crawling via chrome headless #288

wants to merge 26 commits into from

Conversation

arnaudmolo
Copy link
Collaborator

@arnaudmolo arnaudmolo commented Jan 30, 2019

TODO:

Introduction de deux nouveaux scripts python dans l'espoir de réactiver le JSCrawling.

bin/install_chromium.py va aller télécharger chromium et chromedriver, deux outils nécessaires pour contrôler chrome headless via selenium.
Les binaires vont se placer dans un dossier temporaire dont le nom peut être modifier via env vars, et qui par défaut sera local-chromium. La version de chromium téléchargé peut elle aussi être précisé via env vars.
Attention, cette ce numéro de version n'est pas le SEMVER (ex: 73.0.3679.0) mais le numéro de build, ici 624487 par défaut.
La dernière version pour chaque plateforme peut se trouver à l’adresse https://commondatastorage.googleapis.com/chromium-browser-snapshots/{plateforme}/LAST_CHANGE (ex: https://commondatastorage.googleapis.com/chromium-browser-snapshots/Mac/LAST_CHANGE)

bin/pop_chrome.py n'est qu'un exemple d'utilisation de chrome headless avec selenium ⚠️
Ce fichier contient du code dupliqué est n'est qu'une PoC.

scrolldown_and_unfold.js a été modifier pour ne pas quitter la page tout en gardant les events JS qui afficherais des bouts de pages cachés.

@boogheta boogheta changed the title Grab chrome JS Crawling via chrome headless Jan 30, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

2 participants