pyspark

Star

Here are 1,149 public repositories matching this topic...

furkancets / PrescreiberPipelineSpark

Star

Trying best case apache spark working environment for robust data pipelines

spark apache-spark hadoop pyspark

Updated Apr 1, 2023
Python

vamshitalla / python

Star

python spark datascience pyspark

Updated Aug 12, 2018
Python

Thelin90 / stockmarket-ml-research

Star

stockmarket machine learning

ai pandas pyspark stockmarket iexfinance-api

Updated May 30, 2018
Python

LeePleased / Pokemon-OneShotLearning

Star

Leverage parallel python sprak computation based on intel deep learning architecture, bigdl to solve one shot learning on pokeman dataset by siamese network.

pokemon pyspark bigdl oneshotlearning

Updated Jan 1, 2019
Python

Wolvarun9295 / SparkStructuredStreaming--TwitterAPI-PySpark-Kafka

Star

Demonstrating Spark Structured Streaming using Twitter API, Apache Spark and Apache Kafka.

twitter-api python3 pyspark apache-kafka structured-streaming

Updated Jul 25, 2020
Python

Silicon-Orchard / Parquet_Avro_Bigdata_file_converter

Star

Convert data from JSON to Parquet or from Parquet to JSON. Convert data from Avro to Parquet or from Parquet to Avro

python bigdata pyspark

Updated May 28, 2021
Python

Madhan-kumar-selvaraj / Data-scientist-growth-rate

Star

Analysing Data scientist growth rate from Naukri website

pandas python3 seaborn pyspark mysql-database

Updated Jul 27, 2023
Python

redon-n-roy / Analysis-of-Suicide-Cases-in-India

Star

This is my Project 2 under Revature training

python spark hive pyspark hdfs

Updated Sep 28, 2021
Python

dcwangmit01 / spark-snowflake-profiling

Star

Querying Snowflake from Spark in 4 different ways

spark parallel-computing distributed-computing snowflake pyspark

Updated Oct 8, 2021
Python

vvr-rao / Star-Chart

Star

Pet project to create a Starhopping website for Astronomy. Exploring Concepts from Graph Databases, Apache Spark and Static Website hosting.

aws spark aws-emr pyspark graphdb graphdatabase

Updated May 10, 2022
Python

jsourabh123 / Formula1-data-analysis

Star

sql pyspark

Updated Jun 5, 2022
Python

jdongca2003 / pyspark_tree_decision_path

Star

Spark decision tree path extraction

pyspark decision-trees

Updated Mar 21, 2022
Python

Miracle-Fruit / spark-wordcloud

Star

Generate word clouds from large text files and determine term and document frequency across several documents

docker spark wordcloud pyspark

Updated Jul 1, 2022
Python

limz1986 / PySpark-ML-Model-DataBricks

Star

An introduction to PySpark, Creating a simple multi regression ML model and hosting it on a databricks cluster

linear-regression pyspark databricks databricks-notebooks pyspark-mllib

Updated Sep 24, 2022
Python

ghiles10 / ETL_STAR_SCHEMA_MUSIC_DATA

Star

This repository houses an ETL pipeline that processes music data sourced from a music application. The pipeline retrieves data from logs and files, transforms it, and loads it into a star schema in a PostgreSQL database

postgresql pyspark data-modeling etl-pipeline

Updated Jan 29, 2023
Python

SamiraParva / Data_Analysis_Pipeline

Star

This repository offers an analytical data pipeline for extracting insights from TSV files stored in AWS S3. It efficiently processes the data, conducts in-depth analysis, and prepares it for integration into PostgreSQL.

python docker docker-compose aws-s3 postgresql pyspark etl-pipeline