Skip to content

Latest commit

 

History

History
33 lines (29 loc) · 657 Bytes

README.md

File metadata and controls

33 lines (29 loc) · 657 Bytes

Curso de SPARK

Introdução:

  • Instalando pyspark no Colab
  • decompactar arquivos com zipar
  • ler os arquivos de CSV com spark
  • Renomeando Colunas
  • Bibliotecas
  • Mudar os tipo do dado
  • Consulta com select
  • Filtragem com filter
  • Agrupamento, Agregação e Sumarizando
  • Função case(when)
  • Join e Union
  • SQL
  • Formato CSV OCR PARQUET

NLP

  • Nuvem de Palavras
  • Remoção de caracteres especiasis
  • separar em partes Tokenização
  • Remover ruidos os StopWords
  • Vetorizar ou Bag of Words
  • Modelo de arvore de decisao
  • Teste e Metrificação

Text Multi-class

  • Tokenizer
  • StopWordsRemover
  • CountVectorizer
  • IDF
  • LogisticRegression