Breast Cancer data mining project

O autoru

Branko Grbic 2/2020
mail: mi20002@alas.matf.bg.ac.rs

Skup podataka

Skup podataka se zove Breast cancer gene expression - CuMiDa i može se naći ovde
Zbog prevelike veličine fajla, skup podataka se mora skinuti

Uputstvo za pokretanje

Skinuti csv dataset u dataset/ folder.
Za rad je potrebno pokrenuti prvo preprocessing/extract_datasets.py koji će generisati normalizovani dataset.

Za poređenje modela u klasifikaciji, tj. fajla models/classification/model_comparison.ipynb, možete skinuti modele ovde i staviti ih u istoimeni folder models/classification, ali takođe možete i pokrenuti fajlove KNN.ipynb, xgboost.ipynb i SVM.ipynb koji se nalaze u tom folderu radi ekstrakcije modela.
OPREZ: Modeli su veliki (~250 MB ukupno)

Korišćene biblioteke

numpy, pandas, seaborn, pickle, sklearn, xgboost, imblearn, matplotlib
Sve biblioteke se mogu instalirati korišćenjem paket menadžera pip.

Korišćeni modeli

Klasifikacija:
- XGBoost
- KNN
- SVM
- Ansambl
Klasterovanje:
- KMeans
- Gaussian Mixture
Pravila pridruživanja:
- Apriori

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
docs		docs
models		models
preprocessing		preprocessing
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Breast Cancer data mining project

O autoru

Skup podataka

Uputstvo za pokretanje

Korišćene biblioteke

Korišćeni modeli

About

Releases

Packages

Contributors 2

Languages

MATF-istrazivanje-podataka-1/2023_Data_Mining_Breast_cancer_Dataset

Folders and files

Latest commit

History

Repository files navigation

Breast Cancer data mining project

O autoru

Skup podataka

Uputstvo za pokretanje

Korišćene biblioteke

Korišćeni modeli

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages