Skip to content

MATF-istrazivanje-podataka-1/2023_Data_Mining_Breast_cancer_Dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Breast Cancer data mining project

O autoru

Branko Grbic 2/2020
mail: mi20002@alas.matf.bg.ac.rs

Skup podataka

Skup podataka se zove Breast cancer gene expression - CuMiDa i može se naći ovde
Zbog prevelike veličine fajla, skup podataka se mora skinuti

Uputstvo za pokretanje

Skinuti csv dataset u dataset/ folder.
Za rad je potrebno pokrenuti prvo preprocessing/extract_datasets.py koji će generisati normalizovani dataset.

Za poređenje modela u klasifikaciji, tj. fajla models/classification/model_comparison.ipynb, možete skinuti modele ovde i staviti ih u istoimeni folder models/classification, ali takođe možete i pokrenuti fajlove KNN.ipynb, xgboost.ipynb i SVM.ipynb koji se nalaze u tom folderu radi ekstrakcije modela.
OPREZ: Modeli su veliki (~250 MB ukupno)

Korišćene biblioteke

numpy, pandas, seaborn, pickle, sklearn, xgboost, imblearn, matplotlib
Sve biblioteke se mogu instalirati korišćenjem paket menadžera pip.

Korišćeni modeli

  • Klasifikacija:
    • XGBoost
    • KNN
    • SVM
    • Ansambl
  • Klasterovanje:
    • KMeans
    • Gaussian Mixture
  • Pravila pridruživanja:
    • Apriori