Branko Grbic 2/2020
mail: mi20002@alas.matf.bg.ac.rs
Skup podataka se zove Breast cancer gene expression - CuMiDa
i može se naći ovde
Zbog prevelike veličine fajla, skup podataka se mora skinuti
Skinuti csv dataset u dataset/
folder.
Za rad je potrebno pokrenuti prvo preprocessing/extract_datasets.py
koji će generisati normalizovani dataset.
Za poređenje modela u klasifikaciji, tj. fajla models/classification/model_comparison.ipynb
, možete skinuti modele ovde i staviti ih u istoimeni folder models/classification
, ali takođe možete i pokrenuti fajlove KNN.ipynb
, xgboost.ipynb
i SVM.ipynb
koji se nalaze u tom folderu radi ekstrakcije modela.
OPREZ: Modeli su veliki (~250 MB ukupno)
numpy
, pandas
, seaborn
, pickle
, sklearn
, xgboost
, imblearn
, matplotlib
Sve biblioteke se mogu instalirati korišćenjem paket menadžera pip
.
- Klasifikacija:
- XGBoost
- KNN
- SVM
- Ansambl
- Klasterovanje:
- KMeans
- Gaussian Mixture
- Pravila pridruživanja:
- Apriori