Skip to content

Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark.

Notifications You must be signed in to change notification settings

jmcurbelo/pyspark-ingenieria-de-datos

Repository files navigation

Big Data y Spark: ingeniería de datos con Python y pyspark

Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark, la cual nos permite el trabajo con Apache Spark.

Estructura del repositorio

El repositorio está organizado en secciones, cada una de las cuales corresponde a una sección del curso. Dentro de cada sección, encontrarás los archivos .py correspondientes a las lecciones del curso.

Contenido de las secciones

  • Sección 2: Descargando e instalado Spark en Google Colaboratory
  • Sección 3: Introducción a los RDD en Spark
  • Sección 4: Transformaciones en un RDD
  • Sección 5: Acciones sobre un RDD en Spark
  • Sección 6: Aspectos avanzados sobre RDD
  • Sección 7: Spark SQL
  • Sección 8: Spark SQL avanzado
  • Sección 9: Funciones en Spark SQL

Cada sección del repositorio contiene los siguientes archivos:

Archivos .py: Estos archivos contienen el código Python que se utiliza en las lecciones del curso.

About

Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages