Skip to content

alfendio/Data-Science-Methodology

Repository files navigation

Data Science Methodology

Materi 1 🚀

9 Februari 2022 - Pertemuan 4

Berisi code pengenalan python

Instalasi Library PANDAS dan Library MATPLOTLIB

Materi 2 🚀 🚀

16 Februari 2022 - Pertemuan 5

Berisi materi Data Understanding, yang dipelajari Data Gathering

Melalui pendekatan statistik

Cara mengambil data, mengakses sumber data secara internal atau eksternal.

  • Manual
  • By code
  • Crawling data

Sumber data yang digunakan: Goal Dataset - Top 5 European Leagues - epl-goalScorer (20-21)

source: https://www.kaggle.com/shreyanshkhandelwal/goal-dataset-top-5-european-leagues

Materi 3 🚀 🚀 🚀

23 Februari 2022 - Pertemuan 6

Berisi materi Data Understanding Visualization

Melihat dan memahami data dari visualisasi

  • Pie Chart
  • Bar Chart
  • Line Graph
  • Scatter plot
  • Heatmap

Pertemuan 6 📊

Berisi file tugas Data Understanding-Visualisasi.

Pertemuan 7 🚀

2 Maret 2022

Berisi materi Data Preparation, Data Cleaning, Hands On

Sumber data yang digunakan:

  • BL-Flickr-Images-Book
  • university_towns
  • train

source:

https://github.com/realpython/python-data-cleaning/blob/master/Datasets/BL-Flickr-Images-Book.csv

https://github.com/realpython/python-data-cleaning/blob/master/Datasets/university_towns.txt

https://www.kaggle.com/iabhishekofficial/mobile-price-classification#train.csv

Pertemuan 8 🚀🚀

9 Maret 2022

Berisi materi tentang Imputasi.

Imputasi adalah mengganti nilai/data yang hilang (missing value; NaN; blank) dengan nilai pengganti.

Teknik imputasi berdasarkan tipe data, terdiri dari:

  1. Tipe data Variabel Numerik, dengan cara:

    • Imputasi mean atau median.
    • Imputasi nilai suka-suka (arbitrary).
    • Imputasi nilai/data ujung (end of tail).
  2. Tipe data Variabel Kategorik, dengan cara:

    • Imputasi kategori yang sering muncul.
    • Tambah kategori yang hilang.

TTS_ALFEND 🔥

16 Maret 2022

Pertemuan 9. Berisi file jawaban TTS.

Pertemuan 10 🚀🚀🚀

23 Maret 2022

Berisi materi tentang Membangun Model Klasifikasi. Pembangunan model menggunakan library.

Membangun Model:

  • Merancang skenario model
  • Membangun model klasifikasi

Algoritma:

  • KNN (K-Nearest Neighbors)
  • D-Tree (Decision Tree)
  • SVM (Support Vector Machine)
  • Logistic Regression
  • Naive Bayes

Pembagian Data:

  • Data latih (Data training), untuk mengembangkan model.
  • Data uji (Data testing), untuk mengukur performansi model.

Dataset:

  • Dataset Iris (Training data: 70%, Testing data: 30%)

source: https://archive.ics.uci.edu/ml/datasets/iris

Pertemuan 11 🚀

30 Maret 2022

Berisi materi Clustering.

Mengelompokkan, data tidak ada label, masuk dalam supervised learning.

  • K-Means
  • Hierarchical Clustering
  • DBSCAN

Dataset :

  • Cust_Segmentation.csv
  • cars_clus.csv

source:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/Cust_Segmentation.csv

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv

Releases

No releases published

Packages

No packages published