Este repositório destina-se aos scripts de extração de dados, utilizando ferramentas e tecnologias para web scraping, como parte prática do Trabalho de Conclusão de Curso 2 em Engenharia de Software.
Todos os experimentos deste projeto foram criados e executados para fins acadêmicos, como forma de analisar ferramentas e métodos de extração de dados. Nenhum script foi ou será utilizado para denegriar a imagem da instituição fonte ou para corromper dados acessados.
-
Python3
sudo apt-get install python3
-
Pip3
sudo apt-get install python-pip
-
Selenium
sudo pip3 install selenium
-
WebDrivers (Chrome e Firefox)
Chrome:
https://sites.google.com/chromium.org/driver/
Firefox:
https://github.com/mozilla/geckodriver/releases
-
Mover os WebDrivers para a raíz da máquina
Chrome:
sudo mv chromedriver /src/bin
Firefox:
sudo mv geckodriver /src/bin
-
Beautiful Soup
pip3 install beautifulsoup4
-
Scrapy
pip3 install scrapy
- Clone o repositório
git clone https://github.com/RafaellaJunqueira/WebScraping.git
- Executar experimento 1 (Selenium)
-
Acessar o diretório do experimento:
cd SeleniumSelenium
-
Executar o script:
python3 SeleniumSelenium.py
- Executar experimento 2 (Selenium + Beautiful Soup)
-
Acessar o diretório do experimento:
cd SeleniumBs4
-
Executar o script:
python3 SeleniumBs4.py
- Executar experimento 3 (Requisição em API)
-
Acessar o diretório do experimento:
cd Requests
-
Executar o script:
python3 Requests.py
- Executar experimento 4 (Selenium e Scrapy)
-
Acessar o diretório do experimento:
cd SeleniumScrapy/my_scrapy
-
Executar o script:
scrapy crawl stf_spider
Na raíz do projeto, executar: python3 expTimes.py
Cada experimento teve a experiência de desenvolvimento relatada desde de ponta a ponta. O documento descreve o passo a passo para atingir o resultado esperado, os desafios enfrentados e aprendizados durante o processo. Cada diretório contempla um experimento e seu respectivo memorando.