Skip to content

Latest commit

 

History

History
2040 lines (1990 loc) · 234 KB

nlp.md

File metadata and controls

2040 lines (1990 loc) · 234 KB

NLP

띄어쓰기

Annotation

BERT

Book

Category

  • text categorization; 예를 들어 100만개의 상품 description이 있고, 이걸 supervised를 위한 document로 사용해, 나중에 들어오는 상품 description을 통해 cateogory 판별
    • naive bayes
    • gensim, model.docvecs e.g. model.docvecs.most_similar([1,2,3]) -> 문서 태그가 '10000'이면 model.docvecs['10000']으로 해당 docvec을 가져옴
      • most_similar 호출 시 파라미터로써 벡터(numpy array)의 리스트 혹은, 문서의 태그들이 담긴 리스트 전달 가능
      • 결과 값으로 문서의 태그 및 유사도를 반환
    • doc2vec
      • 낮은 정확도
      • 기본적으로 word co-occurrence 에 기반하고 있고 각 word 는 word embedding 에 의한 vector 사용
      • 이 vector들의 단순 합은 ambiquity 문제가 경험적으로 발생
      • document 단위가 짧으면 짧은 대로 , 쿼리 스트링이 짧으면 짧은 대로 또 ambiguity 문제가 발생
    • word2vec
      • doc2vec과 유사
      • 전체 corpus 에 대해 모델을 만든 후, predict 할 때 description 보다 제목 같이 짧으면서 컨텍스트를 담고 있는 것으로 입력을 주면 좀 나음
    • 이미 카테고리 도메인이 결정된 경우 LDA/LSI 가 더 좋은 방법일 수 있음
      • LDA / LSI 는 각각의 카테고리를 반영하는 토큰의 기여도를(weight) 확률분포로 표현
      • LDA 경우 더 많이 기여하고 있는 워드 순
      • LSI 의 경우 positive 기여도 뿐만 아니라 negative 기여도 확률을 결과로 반환
      • 그러므로 쿼리스트링이 있을 때 가장 확률 높은 카테고리 계산 가능
    • TFIDF
      • feature 수가 많다 해도 document similarity 를 계산하는 게 아니라 카테고리를 분류하기 위함이기 때문에 dimension 문제가 크지 않을 수 있음
      • TFIDF 로 weighting 한 벡터들을 가지고 클러스터링
      • 실제 label 가지고 TFIDF weight 가 각 label 을 얼마나 잘 구분하고 있는지 feasibility 를 판단할 수도 있음
      • 혹은 각 카테고리별로 모델을 만들어서 dictionary 를 작게 만들어 feature 수를 줄일 수도 있음
      • 각각의 dictionary 셋과 워드에 대한 TFIDF weight 를 가지고 카테고리별로 representing 한 워드들을 뽑아볼 수도 있음
  • 나누고 분류해야 세상이 보인다
  • Category Theory for Programmers: The Preface
  • Category Theory for Scientists (Old Version)
  • 분류 문제에서 앙상블 방법
  • Logic, Languages, Compilation, and Verification
  • Categories for Programmers
  • Fast & easy baseline text categorization with vw
  • 글쓰기 화면에서 카테고리 자동 추천하는 모델 만들기 fasttext

ChatBot

ChatBot Python

Classification

Clustering

Conference

Corpus

Course MOOC Lecture

Data

Disambiguation

Doc2Vec

Filtering

Knowledge

Language Model LM

Language Model LM GPT

LDA Latent Dirichlet Allocation

Library

Library Java

Library JavaScript

Library Python

Library R

Library Scala

LSA

LSH

Named Entity

News

Ontology

Paper

Parser

QA Question Answer

Sentiment

Similarity

Summary, Summarize

Summary, Summarize TextRank

Spark

Speller

Text Mining

TFIDF, TF-IDF

Tokenization

Topic Modeling

Translation

Tutorial

Twitter

Voice

Wikipedia

Word2Vec