Berisi code pengenalan python
Instalasi Library PANDAS dan Library MATPLOTLIB
Berisi materi Data Understanding, yang dipelajari Data Gathering
Melalui pendekatan statistik
Cara mengambil data, mengakses sumber data secara internal atau eksternal.
- Manual
- By code
- Crawling data
Sumber data yang digunakan: Goal Dataset - Top 5 European Leagues - epl-goalScorer (20-21)
source: https://www.kaggle.com/shreyanshkhandelwal/goal-dataset-top-5-european-leagues
Berisi materi Data Understanding Visualization
Melihat dan memahami data dari visualisasi
- Pie Chart
- Bar Chart
- Line Graph
- Scatter plot
- Heatmap
Berisi file tugas Data Understanding-Visualisasi.
Berisi materi Data Preparation, Data Cleaning, Hands On
Sumber data yang digunakan:
- BL-Flickr-Images-Book
- university_towns
- train
source:
https://github.com/realpython/python-data-cleaning/blob/master/Datasets/university_towns.txt
https://www.kaggle.com/iabhishekofficial/mobile-price-classification#train.csv
Berisi materi tentang Imputasi.
Imputasi adalah mengganti nilai/data yang hilang (missing value; NaN; blank) dengan nilai pengganti.
Teknik imputasi berdasarkan tipe data, terdiri dari:
-
Tipe data Variabel Numerik, dengan cara:
- Imputasi mean atau median.
- Imputasi nilai suka-suka (arbitrary).
- Imputasi nilai/data ujung (end of tail).
-
Tipe data Variabel Kategorik, dengan cara:
- Imputasi kategori yang sering muncul.
- Tambah kategori yang hilang.
Pertemuan 9. Berisi file jawaban TTS.
Berisi materi tentang Membangun Model Klasifikasi. Pembangunan model menggunakan library.
Membangun Model:
- Merancang skenario model
- Membangun model klasifikasi
Algoritma:
- KNN (K-Nearest Neighbors)
- D-Tree (Decision Tree)
- SVM (Support Vector Machine)
- Logistic Regression
- Naive Bayes
Pembagian Data:
- Data latih (Data training), untuk mengembangkan model.
- Data uji (Data testing), untuk mengukur performansi model.
Dataset:
- Dataset Iris (Training data: 70%, Testing data: 30%)
source: https://archive.ics.uci.edu/ml/datasets/iris
Berisi materi Clustering.
Mengelompokkan, data tidak ada label, masuk dalam supervised learning.
- K-Means
- Hierarchical Clustering
- DBSCAN
Dataset :
- Cust_Segmentation.csv
- cars_clus.csv
source: