Skip to content

martimfj/CrawlWordsWebBR

Repository files navigation

Crawl Words WebBR - Projeto Final Megadados

Professor Fábio Ayres
Alunos: Martim José, Sabrina Simão e Leonardo Medeiros

Este é o projeto final da disciplina Megadados (2018.2) do curso de Engenharia da Computação do Insper. O principal objetivo deste projeto era manipular e analisar um grande conjunto de dados, considerados Big Data. Para isso, foi implementado uma Pipeline em um EMR (Elastic Map Reduce) da AWS que utilizou por meio do Zeppelin o Pypark, para manipular os dados do Common Crawl do mês de Setembro, que compreende terabytes de dados, da Web mundial. Porém como o professor já havia feito um filtro dos sites brasileiros, esses terabytes de dados se transformaram em 64GB salvos em um bucket S3. A partir dos dados, foi feita análise estatística da frequência das palavras que são ditas em conjunto com os nomes das capitais dos estados do Brasil. Para assim mapear o vocabulário associado a cada capital dos estados.

Como utilizar

Pipeline (Extract)

O Pipeline implementado no cluster EMR da AWS rodou o programa desenvolvido em PySpark no Zeppelin, que originou os arquivos pickle frenquencia_palavras_geral_big para a contagem de palavras da web brasileira. E o arquivo frequencia_palavras_big para a contagem de palavras para cada capital de Estado brasileiro. Para executar essa etapa, crie um cluester EMR na AWS com Zeppelin, importe o notebook (crawler_br_code.json) e rode as células.

Para apenas visualizar a pipeline criada, acesse o notebook na plataforma Zepl.

Calcula P-value (Transform and Load)

Estes arquivos são lidos pelo programa implementado no arquivo python br-web-crawler que calcula o p-value de das palavras e cria um pickle (palavras_pvalue.pickle) com esses dados calculados.

Para executar esse programa instale as dependências via:

$ sudo pip install -r requirements.txt

E rode com:

$ python br-web-crawler.py

Análise

Toda a análise de dados foi feita no jupyter notebook MegaDadosFinal.ipynb que carrega o arquivo gerado no passo anterior. Para re-executar as células do Notebook é preciso instalar as dependências descritas anteriormente e também ter o Jupyter Notebook instalado em seu computador (instruções).

Documentação e resultados

Toda a documentação do projeto se encontra no arquivo documentação.pdf.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •