Data Science for Social Good - Deutsche Krebsgesellschaft

To run the notebooks, anaconda installation is recommended: includes jupyter notebook, python 2.7 and all libraries except gensim: https://docs.continuum.io/anaconda/install

Python Notebooks Description:

1_parsing_xml.ipynb - read xml exported from Reference Manager into dataframe.
2_features_extraction.ipynb - transform full title string into numerical representation, by removing stopwords, lowering case and converting into dictionary.
3_features_transformation.ipynb - transform documents from the dictionary vector representation into TF-IDF representation, and save as numpy array format.
4_classification.ipynb - use TF-IDF representation of full title to classify documents into useful/not useful. Algorithms: logistic regression and k-means.

Python libraries used:

pandas: http://pandas.pydata.org/
nltk: https://www.nltk.org/
gensim: https://radimrehurek.com/gensim/
numpy: http://www.numpy.org/
scipy: https://www.scipy.org/
sklearn: http://scikit-learn.org/

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
1_parsing_xml.ipynb		1_parsing_xml.ipynb
2_features_extraction.ipynb		2_features_extraction.ipynb
3_feature_transformation.ipynb		3_feature_transformation.ipynb
4_classification.ipynb		4_classification.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Science for Social Good - Deutsche Krebsgesellschaft

Python Notebooks Description:

Python libraries used:

About

Releases

Packages

Contributors 2

Languages

meiradania/dssg-dkg

Folders and files

Latest commit

History

Repository files navigation

Data Science for Social Good - Deutsche Krebsgesellschaft

Python Notebooks Description:

Python libraries used:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages