딥러닝 기술을 활용한 차별 및 혐오 표현 탐지 : 어텐션 기반 다중 채널 CNN 모델링
위 논문에 사용한 모델 아키텍쳐 소스 코드 정리
네이버 영화평 Corpus 데이터 셋 활용 테스트 학습
git clone https://github.com/ifuseok/AMCNN.git
cd AMCNN
git clone https://github.com/e9t/nsmc.git
python train.py --train_data nsmc/ratings_train.txt --document document --label label
python test.py --test_data nsmc/ratings_test.txt --document document --label label
인터넷 뉴스 댓글 데이터 셋 을 활용해 Word2Vec 을 학습하여 Pre-trained embedding으로 활용
- transformers == 3.x.x
- tensorflow >= 2.0.0
- keras >= 2.2.4
- emoji
- scikit-learn
- pandas
- gensim
- Pre-trained Weights Data : https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments
- Tokenizers Reference : https://github.com/Beomi/KcBERT
- Model Architecture Base 논문 : Multichannel CNN with Attention for Text Classification