Skip to content

Projeto python de Web Scraping para coleta de textos do Site Recanto das Letras.

License

Notifications You must be signed in to change notification settings

romavini/Web-Scraping-Recanto-Das-Letras

Repository files navigation

🤖🧰 Web Scraping | Recanto das Letras 📓✒

version

Projeto Web Scraping Python para o site Recanto das Letras, rede social de compartilhamento de contos, poesias e textos em geral.

Web Scraping Python project for the Recanto das Letras website, a social network for sharing stories, poetry and texts in general.

License: CC-BY-NC-SA

Psycopg SQLalchemy Selenium Pandas NumPy

WebScraping

Recursos

  • Coleta e cataloga todos os textos de um perfil pessoal, armazenando os seguintes dados dos textos:
    • id [gerado automaticamente]
    • Título;
    • Conteúdo do texto;
    • URL para texto;
    • Categoria;
    • Data de publicação;
    • Visualizações.
  • Armazena em servidor PostgreSQL.

postgres

Para Adicionar

  • Coleta de outros perfis.

Executando 🏁

  1. Baixe o webdriver para uso da biblioteca Selenium, disponível aqui.
  2. Crie um arquivo .env na pasta raiz do repositório contendo as seguintes informações:
# Login Recanto das Letras
user =   # Usuário
password =   # Senha

# Webdriver
chrome_driver_path =   # Caminho para Webdriver (p.ex. C:\Users\user\.google\chromedriver.exe)

# PostgreSQL
user_db =   # Usuário do Banco de Dados
password_db =   # Senha
host_db =   # Host (localhost)
port_db =   # Porta
database_db =   # Banco de Dados destino
  1. Instale as dependências e execute.
$ pip install -r requirements.txt
$ python getpoetry/main.py

Teste 🚧

  • Instale as dependências de desenvolvedor.
$ pip install -r requirements-dev.txt
$ pytest getpoetry