DE4E: Data Engineering for Everybody by Pseudo-Lab.
Loved the project? Please visit our Website
Welcome to our DE4E repository! We aim to give you a complete understanding of data engineering, from fundamentals to advanced concepts. Whether you're new or experienced, our repository empowers data lovers with the knowledge and skills for success in the data-driven era. Join us on this exciting journey as we unlock the full potential of data engineering together!
click the above image will guide you to DE4E website
➡️ move to the website: pseudo-lab.github.io/data-engineering-for-everybody
DE4E: Data Engineering for Everybody는 가짜연구소의 DSF 프로그램에서 시작되었습니다.
시작에 앞서 감사의 말씀을 전합니다.
가짜연구소는 DataCamp의 후원을 받아 Donates 프로그램을 진행하고 있습니다. 프로그램을 통해 구직자, 불완전 취업자, 비영리 연구 과학자, 학생분들께 DataCamp에서 제공하는 다양한 코스와 트랙을 제공합니다. 본 프로젝트는 DataCamp Donates 프로그램 중 하나인 Data Science Fellowship으로부터 시작되었습니다.
DE4E는 데이터 분석가, 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어가 함께 모여 데이터의, 데이터에 의한, 데이터를 위한 Data Engineering Repository를 만들어 나가고자 합니다.
- Self-Check List
- Session 1. Introduction to Data Engineering
- Session 2. Data Sources and Data Collection
- Session 3. Data Transformation and Cleaning
- Session 4. Data Storage
- Session 5. Data Processing Frameworks
- Session 6. Data Processing Frameworks II
- Session 7. Introduction to Apache Airflow
- Session 8. Cloud Computing and Data Engineering
- Capstone Project(In Progress)
idx | Date | Subject | Presenter | Pre-Question | Tag |
---|---|---|---|---|---|
0 | 2023-03-26 | Session 0. Orientation | 이영전 | Why should we learn Data Engineering? | #OT #Direction # Motivation |
1 | 2023-04-02 | Session 1. Introduction to Data Engineering | 이영전 | What is Data Engineering? | #Data Engineering #Discussion |
2 | 2023-04-09 | Session 2. Data Sources and Data Collection | 이동욱, 김세현 | How can we collect data from variaty sources? | #Source Data #Data Collection #Data Type #Structured Data #Unstructured Data #Batch Data #Real-time Data |
3 | 2023-04-16 | Session 3. Data Transformation and Cleaning | 이영전 | How can we transform data more efficiently? | #Data Processing |
4 | 2023-04-30 | Session 4. Data Storage | 송윤호, 전희선 | How can we store data more efficiently? | #Data Store #Database #Data Lake #Lakehouse #Object-Storage #NoSQL |
5 | 2023-05-07 | Session 5. Data Processing Frameworks | 정경륜, 이화림 | How data processing framework help us? | #Hadoop Eco-system #Parallel Computing |
6 | 2023-05-14 | Session 6. Data Processing Frameworks II | 김예신, 최한승 | Learn about various data processing framework | #Apache Spark #Apache Kafka #Apache Storm #Apache Flink |
7 | 2023-05-28 | Session 7. Introduction to Apache Airflow | 김성훈, 이희민 | How can we schedule, orchestrate data processing? | #Apache Airflow #Tutorial |
8 | 2023-06-04 | Session 8. Cloud Computing and Data Engineering | 이민행, 이영전 | What is Cloud Computing? and Why it is so important? | #Cloud Computing #Multi-Cloud #Data Engineering |
9 | 2023-06-18 | Capstone Project | 이화림 | Let's dive into Data Engineering Capstone Proeject | #Capstone Project |
10 | 2023-07-09 - | Project Management | 이영전, 전희선, 정경륜, 이동욱, 김예신 | Build Together! | #Share #Motivation #Delighted to work together #Pseudo-Lab |
가짜연구소는 머신러닝, 데이터 사이언스, 데이터 엔지니어링을 중심으로 모인 비영리단체입니다. 누구나 원하는 연구를 할 수 있는 시작점이 되는, 진짜보다 더 진짜 같은 연구소를 꿈꾸고 있습니다. 공유(Share), 동기부여(Motivation), 함께하는 즐거움(Delighted to work together)라는 핵심가치를 추구하며 약 1800여 명의 연구원분들이 오늘도 함께 머신러닝, 데이터 사이언스, 데이터 엔지니어링 분야에 선한 영향력을 행사하고 있습니다. 보다 자세한 내용은 여기서 살펴보실 수 있습니다.
This project is licensed under MIT license.