Multilabel Toxic Comment Classification

A toxic comment classification using BERT, RNNs, CNNs using data from https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge.

Group

Two types of classification pipelines are built:

Binary classification to classify toxic and non-toxic comments. Toxic comments are then labeled with their respective toxicity types. This is done because of a very imbalanced datasets.
Multilabel classification

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
predictions		predictions
tokenizers		tokenizers
utils		utils
2_phases_classification.ipynb		2_phases_classification.ipynb
BERT_binary.ipynb		BERT_binary.ipynb
BERT_multilabel.ipynb		BERT_multilabel.ipynb
Bidirectional_GRU_binary.ipynb		Bidirectional_GRU_binary.ipynb
Bidirectional_GRU_multilabel.ipynb		Bidirectional_GRU_multilabel.ipynb
Bidirectional_LSTM_binary.ipynb		Bidirectional_LSTM_binary.ipynb
Bidirectional_LSTM_multilabel.ipynb		Bidirectional_LSTM_multilabel.ipynb
CNN_multi_binary.ipynb		CNN_multi_binary.ipynb
CNN_multi_multilabel.ipynb		CNN_multi_multilabel.ipynb
LICENSE		LICENSE
README.md		README.md
compare_results.ipynb		compare_results.ipynb
data_exploration.ipynb		data_exploration.ipynb
preprocessing.ipynb		preprocessing.ipynb