Este projeto apresenta uma implementação pyspark
resolvendo 5 questões a partir de um arquivo de log.
Fonte oficial do dateset: http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html
- Jul 01 to Jul 31, ASCII format, 20.7 MB gzip compressed, 205.2 MB.
- Aug 04 to Aug 31, ASCII format, 21.8 MB gzip compressed, 167.8 MB.
O dataset possui todas as requisições HTTP para o servidor da NASA Kennedy Space Center WWW na Flórida para um período específico.
Os logs estão em arquivos ASCII com uma linha por requisição com as seguintes colunas:
- Host: um hostname quando possível, caso contrário o endereço de internet se o nome não puder ser identificado;
- Timestamp: no formato "DIA/MÊS/ANO:HH:MM:SS TIMEZONE";
- Request: método HTTP e URL;
- HTTP Code: código do retorno HTTP;
- Bytes: total de bytes retornados.
- Python >= 3.7.1
- Virtualenv >= 16.4.3
- Wget >= 1.17.1
- clone o presente repositório:
$ git clone git@github.com:imbrito/pyspark-example.git
. - acesse a pasta do projeto:
$ cd pyspark-example
. - faça download dos aqruivos de entrada:
$ make wget
. - instale as dependências:
$ make install
. - ative o ambiente:
$ source venv/bin/activate
. - execute o pipeline:
$ python run.py
.