Skip to content

모든 한국어 비속어/욕설 판별기에 대한 성능 테스트입니다.

Notifications You must be signed in to change notification settings

Tanat05/verification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 

Repository files navigation

모든 비속어/욕설 판별기의 대한 성능을 비교합니다. Compare the performance of all profanity/cursive discriminator.

데이터

모델

PYHTON

  • korcen: 키워드 기반 비속어 판단 모듈
  • korcen-ml: korcen으로 분류한 데이터를 학습한 딥러닝 기반 비속어 판별 모델
  • badword_check: 입력한 글(한글)이 욕설인지 아닌지를 딥러닝을 통해 판별하는 모델
  • CurseDetector: 한글 유사도와 한글 발음 유사도를 이용한 욕설/비속어/금지어 필터링

C

JAVA

JAVASCRIPT

  • Cenkor: 손쉬운 비속어 검열(korcen 데이터셋 이용)

TYPESCRIPT

  • korcen.ts: 기존 korcen을 typescript로 작성한 NPM모듈

DART

etc....

성능 검증

데이터와 결과가 일치한 개수 / 전체 데이터 개수

korean-malicious-comments-dataset Curse-detection-data kmhas_korean_hate_speech Korean Extremist Website Womad Hate Speech Data LGBT-targeted HateSpeech Comments Dataset (Korean) korean-hate-chat-data korean-hate-speech korean_unsmile_dataset 평균 처리 속도
korcen 0.7121 0.8415 0.6773 0.6305 0.4479 0.9857 9ms
korcen-ml 0.8395 0.8432 0.8851 0.7130 0.6919 0.9941 40ms
badword_check 0.5829 0.6761 0.6410 0.4738 0.7980 43ms
CurseDetector 0.5679 0.5785 0.6657 267ms
BadWordFiltering
Cenkor 0.8317 0.6275 0.2ms
korcen.ts
korean_profanity_filter

#평가

개인적인 생각으로 작성한 평가입니다.

모델 평가
korcen 작성예정
korcen-ml 성능 검증에선 높은 점수를 받았지만 실사용에서는 korcen보다 많은 오검열이 발생함
badword_check 작성예정
CurseDetector 처리 속도가 매우 느려 테스트 진행 불가능 또한 가장 낮은 성능으로 활용도가 낮음
BadWordFiltering 작성예정
Cenkor korcen의 욕설을 기반으로 해 korcen과 비슷한 성능이지만 처리 속도가 압도적임
korcen.ts 작성예정
korean_profanity_filter 작성예정

테스트 환경

i7-11800H @ 2.30GHz 32GB 3200MHZ RTX 3060 Laptop

About

모든 한국어 비속어/욕설 판별기에 대한 성능 테스트입니다.

Topics

Resources

Stars

Watchers

Forks