Extração de dados em ambiente Web

Este repositório destina-se aos scripts de extração de dados, utilizando ferramentas e tecnologias para web scraping, como parte prática do Trabalho de Conclusão de Curso 2 em Engenharia de Software.

Licença

Todos os experimentos deste projeto foram criados e executados para fins acadêmicos, como forma de analisar ferramentas e métodos de extração de dados. Nenhum script foi ou será utilizado para denegriar a imagem da instituição fonte ou para corromper dados acessados.

Pré-requisitos:

Python3 sudo apt-get install python3
Pip3 sudo apt-get install python-pip
Selenium sudo pip3 install selenium
WebDrivers (Chrome e Firefox)

Chrome: https://sites.google.com/chromium.org/driver/

Firefox: https://github.com/mozilla/geckodriver/releases
Mover os WebDrivers para a raíz da máquina

Chrome: sudo mv chromedriver /src/bin

Firefox: sudo mv geckodriver /src/bin
Beautiful Soup pip3 install beautifulsoup4
Scrapy pip3 install scrapy

Execução dos códigos

Clone o repositório git clone https://github.com/RafaellaJunqueira/WebScraping.git
Executar experimento 1 (Selenium)

Acessar o diretório do experimento: cd SeleniumSelenium
Executar o script: python3 SeleniumSelenium.py

Executar experimento 2 (Selenium + Beautiful Soup)

Acessar o diretório do experimento: cd SeleniumBs4
Executar o script: python3 SeleniumBs4.py

Executar experimento 3 (Requisição em API)

Acessar o diretório do experimento: cd Requests
Executar o script: python3 Requests.py

Executar experimento 4 (Selenium e Scrapy)

Acessar o diretório do experimento: cd SeleniumScrapy/my_scrapy
Executar o script: scrapy crawl stf_spider

Executar script para tempos de execução

Na raíz do projeto, executar: python3 expTimes.py

Memorandos

Cada experimento teve a experiência de desenvolvimento relatada desde de ponta a ponta. O documento descreve o passo a passo para atingir o resultado esperado, os desafios enfrentados e aprendizados durante o processo. Cada diretório contempla um experimento e seu respectivo memorando.

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
Requests		Requests
RequestsBs4		RequestsBs4
SeleniumBs4		SeleniumBs4
SeleniumScrapy		SeleniumScrapy
SeleniumSelenium		SeleniumSelenium
img		img
.gitignore		.gitignore
README.md		README.md
expTimes.py		expTimes.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Extração de dados em ambiente Web

Licença

Pré-requisitos:

Execução dos códigos

Executar script para tempos de execução

Memorandos

About

Releases

Packages

Languages

RafaellaJunqueira/WebScraping

Folders and files

Latest commit

History

Repository files navigation

Extração de dados em ambiente Web

Licença

Pré-requisitos:

Execução dos códigos

Executar script para tempos de execução

Memorandos

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages