데이터

모든 비속어/욕설 판별기의 대한 성능을 비교합니다. Compare the performance of all profanity/cursive discriminator.

데이터

korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋 (10,000문장)
Curse-detection-data: 각종 커뮤니티 사이트의 댓글의 욕설 여부를 분류한 한글 데이터셋 (5,825문장)
kmhas_korean_hate_speech: 온라인 뉴스의 댓글를 8가지로 세분화하여 분류한 데이터셋 (78,978문장)
Korean Extremist Website Womad Hate Speech Data: 한국 극단주의 웹사이트의 데이터를 분류한 데이터셋 (2,081문장)
LGBT-targeted HateSpeech Comments Dataset (Korean): 네이버 뉴스 성소수자 관련 댓글을 분류한 데이터셋 (8,837문장)
korean-hate-chat-data: korcen으로 분류한 korcen-ml의 학습 파일 중 일부(3,000,000문장, 랜덤 10,000문장만 사용)
korean-hate-speech: 한국 연예 뉴스 수집 플랫폼의 댓글(9,381문장)
korean_unsmile_dataset: Smilegate AI에서 공개하는 한국어 혐오표현 "☹️ UnSmile" 데이터셋입니다. (18,742문장)

모델

PYHTON

korcen: 키워드 기반 비속어 판단 모듈
korcen-ml: korcen으로 분류한 데이터를 학습한 딥러닝 기반 비속어 판별 모델
badword_check: 입력한 글(한글)이 욕설인지 아닌지를 딥러닝을 통해 판별하는 모델
CurseDetector: 한글 유사도와 한글 발음 유사도를 이용한 욕설/비속어/금지어 필터링

C

JAVA

BadWordFiltering

JAVASCRIPT

Cenkor: 손쉬운 비속어 검열(korcen 데이터셋 이용)

TYPESCRIPT

korcen.ts: 기존 korcen을 typescript로 작성한 NPM모듈

DART

korean_profanity_filter: 정규식을 기반

etc....

성능 검증

데이터와 결과가 일치한 개수 / 전체 데이터 개수

	korean-malicious-comments-dataset	Curse-detection-data	kmhas_korean_hate_speech	Korean Extremist Website Womad Hate Speech Data	LGBT-targeted HateSpeech Comments Dataset (Korean)	korean-hate-chat-data	평균 처리 속도
korcen	0.7121	0.8415	0.6773	0.6305	0.4479	0.9857	9ms
korcen-ml	0.8395	0.8432	0.8851	0.7130	0.6919	0.9941	40ms
badword_check	0.5829	0.6761		0.6410	0.4738	0.7980	43ms
CurseDetector		0.5679		0.5785		0.6657	267ms
BadWordFiltering
Cenkor		0.8317		0.6275			0.2ms
korcen.ts
korean_profanity_filter

#평가

개인적인 생각으로 작성한 평가입니다.

모델	평가
korcen	작성예정
korcen-ml	성능 검증에선 높은 점수를 받았지만 실사용에서는 korcen보다 많은 오검열이 발생함
badword_check	작성예정
CurseDetector	처리 속도가 매우 느려 테스트 진행 불가능 또한 가장 낮은 성능으로 활용도가 낮음
BadWordFiltering	작성예정
Cenkor	korcen의 욕설을 기반으로 해 korcen과 비슷한 성능이지만 처리 속도가 압도적임
korcen.ts	작성예정
korean_profanity_filter	작성예정

테스트 환경

i7-11800H @ 2.30GHz 32GB 3200MHZ RTX 3060 Laptop

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

데이터

모델

성능 검증

테스트 환경

About

Tanat05/verification

Folders and files

Latest commit

History

Repository files navigation

데이터

모델

성능 검증

테스트 환경

About

Topics

Resources

Stars

Watchers

Forks