From 352b76b6098c78fb7ea4878982a7d643745d04cf Mon Sep 17 00:00:00 2001 From: chanyub Park Date: Wed, 30 Mar 2022 23:40:56 +0900 Subject: [PATCH 1/2] fix readme and test --- R/kiwi_model.R | 6 ++++++ R/split_into_sents.R | 5 +++++ R/tokenize.R | 2 ++ README.Rmd | 8 ++++---- README_kr.Rmd | 4 ++-- man/get_model.Rd | 2 ++ man/model_exists.Rd | 2 ++ man/model_works.Rd | 2 ++ man/split_into_sents.Rd | 6 ++++++ man/tokenize.Rd | 2 ++ 10 files changed, 33 insertions(+), 6 deletions(-) diff --git a/R/kiwi_model.R b/R/kiwi_model.R index 47e9082..e654224 100644 --- a/R/kiwi_model.R +++ b/R/kiwi_model.R @@ -55,8 +55,10 @@ kiwi_model_exists_one <- function(size) { #' @param size model size. default is "all" which is true that all three models must be present. #' @return \code{logical} model files exists or not. #' @examples +#' \dontrun{ #' get_model("small") #' model_exists("small") +#' } #' @export model_exists <- function(size = "all") { kiwi_model_exists(size) @@ -83,8 +85,10 @@ kiwi_model_work_one <- function(size) { #' @param size model size. default is "all" which is true that all three models must be present. #' @return \code{logical} model work or not. #' @examples +#' \dontrun{ #' get_model("small") #' model_works("small") +#' } #' @export model_works <- function(size = "all") { kiwi_model_exists(size) @@ -98,7 +102,9 @@ model_works <- function(size = "all") { #' #' @source \url{https://github.com/bab2min/Kiwi/releases} #' @examples +#' \dontrun{ #' get_model("small") +#' } #' @export get_model <- function(size = "base", diff --git a/R/split_into_sents.R b/R/split_into_sents.R index 3de61a7..5ffc4df 100644 --- a/R/split_into_sents.R +++ b/R/split_into_sents.R @@ -5,6 +5,11 @@ #' #' @param text target text. #' @param return_tokens add tokenized resault. +#' @examples +#' \dontrun{ +#' split_into_sents("text") +#' split_into_sents("text", return_tokens = TRUE) +#' } #' @export split_into_sents <- function(text, return_tokens = FALSE) { if (init_chk_not()) diff --git a/R/tokenize.R b/R/tokenize.R index c80aabe..a3bee0c 100644 --- a/R/tokenize.R +++ b/R/tokenize.R @@ -13,8 +13,10 @@ #' @returns list type of result. #' @export #' @examples +#' \dontrun{ #' tokenize("Test text.") #' tokenize("Please use Korean.", Match$ALL_WITH_NORMALIZING) +#' } #' @name tokenize NULL diff --git a/README.Rmd b/README.Rmd index 2b4c06f..766e74f 100644 --- a/README.Rmd +++ b/README.Rmd @@ -18,12 +18,12 @@ options(crayon.enabled = NULL) -[![Lifecycle: experimental](https://img.shields.io/badge/lifecycle-experimental-orange.svg)](https://www.tidyverse.org/lifecycle/#experimental) +[![Lifecycle: experimental](https://img.shields.io/badge/lifecycle-experimental-orange.svg)](https://lifecycle.r-lib.org/articles/stages.html#experimental) [![CRAN status](https://www.r-pkg.org/badges/version/elbird)](https://CRAN.R-project.org/package=elbird) [![](https://cranlogs.r-pkg.org/badges/elbird)](https://cran.r-project.org/package=elbird) -# [한국어 버전](./README_kr.md)는 [여기](./README_kr.md)에서 확인하세요. +# 한국어 버전은 README_kr.md 파일을 확인하세요. The `elbird` package is a morpheme analysis package packed with [kiwipiepy](https://github.com/bab2min/kiwipiepy). It is based on cpp package `kiwi` and that has convenient functions such as faster performance compared to other tokenizers, easy user dictionary addition, unregistered noun extraction (not implemented in `elbird` yet). @@ -72,6 +72,7 @@ The `tar` below is the target text for morpheme analysis. ```{r} suppressMessages(library(dplyr)) +install.packages("presidentSpeech", repos = "https://forkonlp.r-universe.dev/") library(stringr) library(tidytext) library(presidentSpeech) @@ -103,8 +104,7 @@ In addition, an `analyze` function is provided that uses the output of the `anal ```{r} library(elbird) analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")) -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 2) +analyze(c("안녕하세요. kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 1) ``` ## tag set diff --git a/README_kr.Rmd b/README_kr.Rmd index 87e5ddf..4c300ed 100644 --- a/README_kr.Rmd +++ b/README_kr.Rmd @@ -70,6 +70,7 @@ tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 ```{r} suppressMessages(library(dplyr)) +install.packages("presidentSpeech", repos = "https://forkonlp.r-universe.dev/") library(stringr) library(tidytext) library(presidentSpeech) @@ -101,8 +102,7 @@ tar %>% ```{r} library(elbird) analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")) -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 2) +analyze(c("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 1) ``` diff --git a/man/get_model.Rd b/man/get_model.Rd index 99a44e8..1fba306 100644 --- a/man/get_model.Rd +++ b/man/get_model.Rd @@ -20,5 +20,7 @@ get_model(size = "base", path = model_home(), clean = FALSE) Get kiwi language model file. } \examples{ +\dontrun{ get_model("small") } +} diff --git a/man/model_exists.Rd b/man/model_exists.Rd index 20e935f..f57f297 100644 --- a/man/model_exists.Rd +++ b/man/model_exists.Rd @@ -16,6 +16,8 @@ model_exists(size = "all") Verifies if model files exists. } \examples{ +\dontrun{ get_model("small") model_exists("small") } +} diff --git a/man/model_works.Rd b/man/model_works.Rd index e9688d5..7cc2bac 100644 --- a/man/model_works.Rd +++ b/man/model_works.Rd @@ -16,6 +16,8 @@ model_works(size = "all") Verifies if models work fine. } \examples{ +\dontrun{ get_model("small") model_works("small") } +} diff --git a/man/split_into_sents.Rd b/man/split_into_sents.Rd index f82976b..9a03808 100644 --- a/man/split_into_sents.Rd +++ b/man/split_into_sents.Rd @@ -15,3 +15,9 @@ split_into_sents(text, return_tokens = FALSE) Some text may not split sentence by sentence. split_into_sents works split sentences to sentence by sentence. } +\examples{ +\dontrun{ + split_into_sents("text") + split_into_sents("text", return_tokens = TRUE) +} +} diff --git a/man/tokenize.Rd b/man/tokenize.Rd index d8960c4..f14359d 100644 --- a/man/tokenize.Rd +++ b/man/tokenize.Rd @@ -41,6 +41,8 @@ list type of result. Simple version of tokenizer function. } \examples{ +\dontrun{ tokenize("Test text.") tokenize("Please use Korean.", Match$ALL_WITH_NORMALIZING) } +} From 3190042c45ee710a89d5da7dc9037e05f0ebe2e7 Mon Sep 17 00:00:00 2001 From: "Chanyub.Park" Date: Wed, 30 Mar 2022 14:45:30 +0000 Subject: [PATCH 2/2] update md --- README.md | 1188 ++++++++++++++++--------------------------------- README_kr.md | 1204 +++++++++++++++----------------------------------- 2 files changed, 734 insertions(+), 1658 deletions(-) diff --git a/README.md b/README.md index 2b31d97..d09d020 100644 --- a/README.md +++ b/README.md @@ -6,13 +6,13 @@ [![Lifecycle: -experimental](https://img.shields.io/badge/lifecycle-experimental-orange.svg)](https://www.tidyverse.org/lifecycle/#experimental) +experimental](https://img.shields.io/badge/lifecycle-experimental-orange.svg)](https://lifecycle.r-lib.org/articles/stages.html#experimental) [![CRAN status](https://www.r-pkg.org/badges/version/elbird)](https://CRAN.R-project.org/package=elbird) [![](https://cranlogs.r-pkg.org/badges/elbird)](https://cran.r-project.org/package=elbird) -# [한국어 버전](./README_kr.md)는 [여기](./README_kr.md)에서 확인하세요. +# 한국어 버전은 README_kr.md 파일을 확인하세요. The `elbird` package is a morpheme analysis package packed with [kiwipiepy](https://github.com/bab2min/kiwipiepy). It is based on cpp @@ -55,297 +55,153 @@ tokenize("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [[1]]$Token #> [[1]]$Token[[1]] #> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [1] "안녕하세요" #> #> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [1] "NNP" #> #> [[1]]$Token[[1]]$start #> [1] 1 #> #> [[1]]$Token[[1]]$len -#> [1] 2 +#> [1] 5 #> #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "하" +#> [1] "kiwi" #> #> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [1] "SL" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 7 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 4 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "시" +#> [1] "형태소" #> #> [[1]]$Token[[3]]$tag -#> [1] "EP" +#> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 12 #> #> [[1]]$Token[[3]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [1] "분석기" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[4]]$start -#> [1] 4 +#> [1] 16 #> #> [[1]]$Token[[4]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[5]] #> [[1]]$Token[[5]]$form -#> [1] "kiwi" +#> [1] "R" #> #> [[1]]$Token[[5]]$tag #> [1] "SL" #> #> [[1]]$Token[[5]]$start -#> [1] 7 +#> [1] 21 #> #> [[1]]$Token[[5]]$len -#> [1] 4 +#> [1] 1 #> #> #> [[1]]$Token[[6]] #> [[1]]$Token[[6]]$form -#> [1] "형태소" +#> [1] "wrapper" #> #> [[1]]$Token[[6]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[6]]$start -#> [1] 12 +#> [1] 23 #> #> [[1]]$Token[[6]]$len -#> [1] 3 +#> [1] 7 #> #> #> [[1]]$Token[[7]] #> [[1]]$Token[[7]]$form -#> [1] "분석" +#> [1] "elbird" #> #> [[1]]$Token[[7]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[7]]$start -#> [1] 16 +#> [1] 32 #> #> [[1]]$Token[[7]]$len -#> [1] 2 +#> [1] 6 #> #> #> [[1]]$Token[[8]] #> [[1]]$Token[[8]]$form -#> [1] "기" +#> [1] "소개" #> #> [[1]]$Token[[8]]$tag -#> [1] "NNB" +#> [1] "NNG" #> #> [[1]]$Token[[8]]$start -#> [1] 18 +#> [1] 40 #> #> [[1]]$Token[[8]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[9]] #> [[1]]$Token[[9]]$form -#> [1] "의" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "EF" #> #> [[1]]$Token[[9]]$start -#> [1] 19 -#> -#> [[1]]$Token[[9]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[10]] -#> [[1]]$Token[[10]]$form -#> [1] "R" -#> -#> [[1]]$Token[[10]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[10]]$start -#> [1] 21 -#> -#> [[1]]$Token[[10]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[11]] -#> [[1]]$Token[[11]]$form -#> [1] "wrapper" -#> -#> [[1]]$Token[[11]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[11]]$start -#> [1] 23 -#> -#> [[1]]$Token[[11]]$len -#> [1] 7 -#> -#> -#> [[1]]$Token[[12]] -#> [[1]]$Token[[12]]$form -#> [1] "이" -#> -#> [[1]]$Token[[12]]$tag -#> [1] "VCP" -#> -#> [[1]]$Token[[12]]$start -#> [1] 30 -#> -#> [[1]]$Token[[12]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[13]] -#> [[1]]$Token[[13]]$form -#> [1] "ᆫ" -#> -#> [[1]]$Token[[13]]$tag -#> [1] "ETM" -#> -#> [[1]]$Token[[13]]$start -#> [1] 31 -#> -#> [[1]]$Token[[13]]$len -#> [1] 0 -#> -#> -#> [[1]]$Token[[14]] -#> [[1]]$Token[[14]]$form -#> [1] "elbird" -#> -#> [[1]]$Token[[14]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[14]]$start -#> [1] 32 -#> -#> [[1]]$Token[[14]]$len -#> [1] 6 -#> -#> -#> [[1]]$Token[[15]] -#> [[1]]$Token[[15]]$form -#> [1] "를" -#> -#> [[1]]$Token[[15]]$tag -#> [1] "JKO" -#> -#> [[1]]$Token[[15]]$start -#> [1] 38 -#> -#> [[1]]$Token[[15]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[16]] -#> [[1]]$Token[[16]]$form -#> [1] "소개" -#> -#> [[1]]$Token[[16]]$tag -#> [1] "NNG" -#> -#> [[1]]$Token[[16]]$start -#> [1] 40 -#> -#> [[1]]$Token[[16]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[17]] -#> [[1]]$Token[[17]]$form -#> [1] "하" -#> -#> [[1]]$Token[[17]]$tag -#> [1] "XSV" -#> -#> [[1]]$Token[[17]]$start #> [1] 42 #> -#> [[1]]$Token[[17]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[18]] -#> [[1]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[18]]$start -#> [1] 43 -#> -#> [[1]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[19]] -#> [[1]]$Token[[19]]$form -#> [1] "." -#> -#> [[1]]$Token[[19]]$tag -#> [1] "SF" -#> -#> [[1]]$Token[[19]]$start -#> [1] 45 -#> -#> [[1]]$Token[[19]]$len -#> [1] 1 +#> [[1]]$Token[[9]]$len +#> [1] 3 tokenize_tbl("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") -#> # A tibble: 19 × 5 -#> unique form tag start len -#> -#> 1 1 안녕 NNG 1 2 -#> 2 1 하 XSA 3 1 -#> 3 1 시 EP 5 1 -#> 4 1 어요 EC 4 2 -#> 5 1 kiwi SL 7 4 -#> 6 1 형태소 NNG 12 3 -#> 7 1 분석 NNG 16 2 -#> 8 1 기 NNB 18 1 -#> 9 1 의 JKG 19 1 -#> 10 1 R SL 21 1 -#> 11 1 wrapper SL 23 7 -#> 12 1 이 VCP 30 1 -#> 13 1 ᆫ ETM 31 0 -#> 14 1 elbird SL 32 6 -#> 15 1 를 JKO 38 1 -#> 16 1 소개 NNG 40 2 -#> 17 1 하 XSV 42 1 -#> 18 1 ᆸ니다 EF 43 2 -#> 19 1 . SF 45 1 +#> # A tibble: 15 × 5 +#> unique form tag start len +#> +#> 1 1 안녕하세요 NNP 1 5 +#> 2 1 kiwi SL 7 4 +#> 3 1 형태소 NNG 12 3 +#> 4 1 분석기 NNG 16 3 +#> 5 1 의 JKG 19 1 +#> 6 1 R SL 21 1 +#> 7 1 wrapper SL 23 7 +#> 8 1 이 VCP 30 1 +#> 9 1 ᆫ ETM 30 1 +#> 10 1 elbird SL 32 6 +#> 11 1 를 JKO 38 1 +#> 12 1 소개 NNG 40 2 +#> 13 1 하 XSV 42 1 +#> 14 1 ᆸ니다 EF 42 3 +#> 15 1 . SF 45 1 tokenize_tidy("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") #> [[1]] -#> [1] "안녕/NNG" "하/XSA" "시/EP" "어요/EC" "kiwi/SL" -#> [6] "형태소/NNG" "분석/NNG" "기/NNB" "의/JKG" "R/SL" -#> [11] "wrapper/SL" "이/VCP" "ᆫ/ETM" "elbird/SL" "를/JKO" -#> [16] "소개/NNG" "하/XSV" "ᆸ니다/EF" "./SF" +#> [1] "안녕하세요/NNP" "kiwi/SL" "형태소/NNG" "분석기/NNG" +#> [5] "의/JKG" "R/SL" "wrapper/SL" "이/VCP" +#> [9] "ᆫ/ETM" "elbird/SL" "를/JKO" "소개/NNG" +#> [13] "하/XSV" "ᆸ니다/EF" "./SF" ``` Multiple sentences are input as `vector` or `list` and output as `list`. @@ -370,171 +226,101 @@ tokenize(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "게" +#> [1] "작성" #> #> [[1]]$Token[[2]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 5 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "작성" +#> [1] "패키지" #> #> [[1]]$Token[[3]]$tag #> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 9 #> #> [[1]]$Token[[3]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "되" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[4]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[1]]$Token[[4]]$start -#> [1] 7 +#> [1] 13 #> #> [[1]]$Token[[4]]$len -#> [1] 1 +#> [1] 3 #> #> -#> [[1]]$Token[[5]] -#> [[1]]$Token[[5]]$form -#> [1] "ᆫ" #> -#> [[1]]$Token[[5]]$tag -#> [1] "ETM" #> -#> [[1]]$Token[[5]]$start -#> [1] 8 +#> [[2]] +#> [[2]]$Token +#> [[2]]$Token[[1]] +#> [[2]]$Token[[1]]$form +#> [1] "tidytext" #> -#> [[1]]$Token[[5]]$len -#> [1] 0 +#> [[2]]$Token[[1]]$tag +#> [1] "SL" #> +#> [[2]]$Token[[1]]$start +#> [1] 1 #> -#> [[1]]$Token[[6]] -#> [[1]]$Token[[6]]$form -#> [1] "패키지" +#> [[2]]$Token[[1]]$len +#> [1] 8 #> -#> [[1]]$Token[[6]]$tag -#> [1] "NNG" #> -#> [[1]]$Token[[6]]$start -#> [1] 9 +#> [[2]]$Token[[2]] +#> [[2]]$Token[[2]]$form +#> [1] "호환" #> -#> [[1]]$Token[[6]]$len -#> [1] 3 +#> [[2]]$Token[[2]]$tag +#> [1] "NNG" #> -#> -#> [[1]]$Token[[7]] -#> [[1]]$Token[[7]]$form -#> [1] "이" -#> -#> [[1]]$Token[[7]]$tag -#> [1] "VCP" -#> -#> [[1]]$Token[[7]]$start -#> [1] 13 -#> -#> [[1]]$Token[[7]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[8]] -#> [[1]]$Token[[8]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[8]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[8]]$start -#> [1] 14 -#> -#> [[1]]$Token[[8]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[9]] -#> [[1]]$Token[[9]]$form -#> [1] "." -#> -#> [[1]]$Token[[9]]$tag -#> [1] "SF" -#> -#> [[1]]$Token[[9]]$start -#> [1] 16 -#> -#> [[1]]$Token[[9]]$len -#> [1] 1 -#> -#> -#> -#> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "tidytext" -#> -#> [[2]]$Token[[1]]$tag -#> [1] "SL" -#> -#> [[2]]$Token[[1]]$start -#> [1] 1 -#> -#> [[2]]$Token[[1]]$len -#> [1] 8 -#> -#> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form -#> [1] "와" -#> -#> [[2]]$Token[[2]]$tag -#> [1] "JKB" -#> -#> [[2]]$Token[[2]]$start -#> [1] 9 +#> [[2]]$Token[[2]]$start +#> [1] 12 #> #> [[2]]$Token[[2]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[2]]$Token[[3]] #> [[2]]$Token[[3]]$form -#> [1] "의" +#> [1] "염두" #> #> [[2]]$Token[[3]]$tag -#> [1] "JKG" +#> [1] "NNG" #> #> [[2]]$Token[[3]]$start -#> [1] 10 +#> [1] 16 #> #> [[2]]$Token[[3]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[2]]$Token[[4]] #> [[2]]$Token[[4]]$form -#> [1] "호환" +#> [1] "작성" #> #> [[2]]$Token[[4]]$tag #> [1] "NNG" #> #> [[2]]$Token[[4]]$start -#> [1] 12 +#> [1] 21 #> #> [[2]]$Token[[4]]$len #> [1] 2 @@ -542,128 +328,16 @@ tokenize(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 #> #> [[2]]$Token[[5]] #> [[2]]$Token[[5]]$form -#> [1] "을" -#> -#> [[2]]$Token[[5]]$tag -#> [1] "JKO" -#> -#> [[2]]$Token[[5]]$start -#> [1] 14 -#> -#> [[2]]$Token[[5]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[6]] -#> [[2]]$Token[[6]]$form -#> [1] "염두" -#> -#> [[2]]$Token[[6]]$tag -#> [1] "NNG" -#> -#> [[2]]$Token[[6]]$start -#> [1] 16 -#> -#> [[2]]$Token[[6]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[7]] -#> [[2]]$Token[[7]]$form -#> [1] "하" -#> -#> [[2]]$Token[[7]]$tag -#> [1] "XSV" -#> -#> [[2]]$Token[[7]]$start -#> [1] 18 -#> -#> [[2]]$Token[[7]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[8]] -#> [[2]]$Token[[8]]$form -#> [1] "고" -#> -#> [[2]]$Token[[8]]$tag -#> [1] "EC" -#> -#> [[2]]$Token[[8]]$start -#> [1] 19 -#> -#> [[2]]$Token[[8]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[9]] -#> [[2]]$Token[[9]]$form -#> [1] "작성" -#> -#> [[2]]$Token[[9]]$tag -#> [1] "NNG" -#> -#> [[2]]$Token[[9]]$start -#> [1] 21 -#> -#> [[2]]$Token[[9]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[10]] -#> [[2]]$Token[[10]]$form -#> [1] "하" -#> -#> [[2]]$Token[[10]]$tag -#> [1] "XSV" -#> -#> [[2]]$Token[[10]]$start -#> [1] 25 -#> -#> [[2]]$Token[[10]]$len -#> [1] 0 -#> -#> -#> [[2]]$Token[[11]] -#> [[2]]$Token[[11]]$form -#> [1] "였" -#> -#> [[2]]$Token[[11]]$tag -#> [1] "EP" -#> -#> [[2]]$Token[[11]]$start -#> [1] 24 -#> -#> [[2]]$Token[[11]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[12]] -#> [[2]]$Token[[12]]$form #> [1] "습니다" #> -#> [[2]]$Token[[12]]$tag +#> [[2]]$Token[[5]]$tag #> [1] "EF" #> -#> [[2]]$Token[[12]]$start +#> [[2]]$Token[[5]]$start #> [1] 25 #> -#> [[2]]$Token[[12]]$len +#> [[2]]$Token[[5]]$len #> [1] 3 -#> -#> -#> [[2]]$Token[[13]] -#> [[2]]$Token[[13]]$form -#> [1] "." -#> -#> [[2]]$Token[[13]]$tag -#> [1] "SF" -#> -#> [[2]]$Token[[13]]$start -#> [1] 28 -#> -#> [[2]]$Token[[13]]$len -#> [1] 1 tokenize_tbl(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 염두하고 작성하였습니다.")) #> # A tibble: 22 × 5 #> unique form tag start len @@ -672,10 +346,10 @@ tokenize_tbl(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 #> 2 1 게 EC 3 1 #> 3 1 작성 NNG 5 2 #> 4 1 되 XSV 7 1 -#> 5 1 ᆫ ETM 8 0 +#> 5 1 ᆫ ETM 7 1 #> 6 1 패키지 NNG 9 3 #> 7 1 이 VCP 13 1 -#> 8 1 ᆸ니다 EF 14 2 +#> 8 1 ᆸ니다 EF 13 3 #> 9 1 . SF 16 1 #> 10 2 tidytext SL 1 8 #> # … with 12 more rows @@ -687,7 +361,7 @@ tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 #> [[2]] #> [1] "tidytext/SL" "와/JKB" "의/JKG" "호환/NNG" "을/JKO" #> [6] "염두/NNG" "하/XSV" "고/EC" "작성/NNG" "하/XSV" -#> [11] "였/EP" "습니다/EF" "./SF" +#> [11] "었/EP" "습니다/EF" "./SF" ``` ### With tidytext @@ -698,6 +372,9 @@ package. The `tar` below is the target text for morpheme analysis. ``` r suppressMessages(library(dplyr)) +install.packages("presidentSpeech", repos = "https://forkonlp.r-universe.dev/") +#> Installing package into '/usr/local/lib/R/site-library' +#> (as 'lib' is unspecified) library(stringr) library(tidytext) library(presidentSpeech) @@ -735,7 +412,7 @@ tar %>% output = word, token = tokenize_tidy ) -#> # A tibble: 4,569 × 2 +#> # A tibble: 4,543 × 2 #> paragraph word #> #> 1 1 존경/nng @@ -748,7 +425,7 @@ tar %>% #> 8 2 만/nr #> 9 2 해외/nng #> 10 2 동포/nng -#> # … with 4,559 more rows +#> # … with 4,533 more rows ``` ### analyze @@ -764,111 +441,111 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [[1]]$Token #> [[1]]$Token[[1]] #> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [1] "안녕하세요" #> #> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [1] "NNP" #> #> [[1]]$Token[[1]]$start #> [1] 1 #> #> [[1]]$Token[[1]]$len -#> [1] 2 +#> [1] 5 #> #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "하" +#> [1] "kiwi" #> #> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [1] "SL" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 7 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 4 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "시" +#> [1] "형태소" #> #> [[1]]$Token[[3]]$tag -#> [1] "EP" +#> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 12 #> #> [[1]]$Token[[3]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [1] "분석기" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[4]]$start -#> [1] 4 +#> [1] 16 #> #> [[1]]$Token[[4]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[5]] #> [[1]]$Token[[5]]$form -#> [1] "kiwi" +#> [1] "의" #> #> [[1]]$Token[[5]]$tag -#> [1] "SL" +#> [1] "JKG" #> #> [[1]]$Token[[5]]$start -#> [1] 7 +#> [1] 19 #> #> [[1]]$Token[[5]]$len -#> [1] 4 +#> [1] 1 #> #> #> [[1]]$Token[[6]] #> [[1]]$Token[[6]]$form -#> [1] "형태소" +#> [1] "R" #> #> [[1]]$Token[[6]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[6]]$start -#> [1] 12 +#> [1] 21 #> #> [[1]]$Token[[6]]$len -#> [1] 3 +#> [1] 1 #> #> #> [[1]]$Token[[7]] #> [[1]]$Token[[7]]$form -#> [1] "분석" +#> [1] "wrapper" #> #> [[1]]$Token[[7]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[7]]$start -#> [1] 16 +#> [1] 23 #> #> [[1]]$Token[[7]]$len -#> [1] 2 +#> [1] 7 #> #> #> [[1]]$Token[[8]] #> [[1]]$Token[[8]]$form -#> [1] "기" +#> [1] "이" #> #> [[1]]$Token[[8]]$tag -#> [1] "NNB" +#> [1] "VCP" #> #> [[1]]$Token[[8]]$start -#> [1] 18 +#> [1] 30 #> #> [[1]]$Token[[8]]$len #> [1] 1 @@ -876,13 +553,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[1]]$Token[[9]] #> [[1]]$Token[[9]]$form -#> [1] "의" +#> [1] "ᆫ" #> #> [[1]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "ETM" #> #> [[1]]$Token[[9]]$start -#> [1] 19 +#> [1] 30 #> #> [[1]]$Token[[9]]$len #> [1] 1 @@ -890,147 +567,91 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[1]]$Token[[10]] #> [[1]]$Token[[10]]$form -#> [1] "R" +#> [1] "elbird" #> #> [[1]]$Token[[10]]$tag #> [1] "SL" #> #> [[1]]$Token[[10]]$start -#> [1] 21 +#> [1] 32 #> #> [[1]]$Token[[10]]$len -#> [1] 1 +#> [1] 6 #> #> #> [[1]]$Token[[11]] #> [[1]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "를" #> #> [[1]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[1]]$Token[[11]]$start -#> [1] 23 +#> [1] 38 #> #> [[1]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[1]]$Token[[12]] #> [[1]]$Token[[12]]$form -#> [1] "이" +#> [1] "소개" #> #> [[1]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "NNG" #> #> [[1]]$Token[[12]]$start -#> [1] 30 +#> [1] 40 #> #> [[1]]$Token[[12]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[13]] #> [[1]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "하" #> #> [[1]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "XSV" #> #> [[1]]$Token[[13]]$start -#> [1] 31 +#> [1] 42 #> #> [[1]]$Token[[13]]$len -#> [1] 0 +#> [1] 1 #> #> #> [[1]]$Token[[14]] #> [[1]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "EF" #> #> [[1]]$Token[[14]]$start -#> [1] 32 +#> [1] 42 #> #> [[1]]$Token[[14]]$len -#> [1] 6 +#> [1] 3 #> #> #> [[1]]$Token[[15]] #> [[1]]$Token[[15]]$form -#> [1] "를" -#> -#> [[1]]$Token[[15]]$tag -#> [1] "JKO" -#> -#> [[1]]$Token[[15]]$start -#> [1] 38 -#> -#> [[1]]$Token[[15]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[16]] -#> [[1]]$Token[[16]]$form -#> [1] "소개" -#> -#> [[1]]$Token[[16]]$tag -#> [1] "NNG" -#> -#> [[1]]$Token[[16]]$start -#> [1] 40 -#> -#> [[1]]$Token[[16]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[17]] -#> [[1]]$Token[[17]]$form -#> [1] "하" -#> -#> [[1]]$Token[[17]]$tag -#> [1] "XSV" -#> -#> [[1]]$Token[[17]]$start -#> [1] 42 -#> -#> [[1]]$Token[[17]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[18]] -#> [[1]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[18]]$start -#> [1] 43 -#> -#> [[1]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[19]] -#> [[1]]$Token[[19]]$form #> [1] "." #> -#> [[1]]$Token[[19]]$tag +#> [[1]]$Token[[15]]$tag #> [1] "SF" #> -#> [[1]]$Token[[19]]$start +#> [[1]]$Token[[15]]$start #> [1] 45 #> -#> [[1]]$Token[[19]]$len +#> [[1]]$Token[[15]]$len #> [1] 1 #> #> #> #> [[1]]$Score -#> [1] -97.36888 +#> [1] -94.6228 #> #> #> [[2]] @@ -1071,7 +692,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "EP" #> #> [[2]]$Token[[3]]$start -#> [1] 5 +#> [1] 4 #> #> [[2]]$Token[[3]]$len #> [1] 1 @@ -1082,7 +703,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "어요" #> #> [[2]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "EF" #> #> [[2]]$Token[[4]]$start #> [1] 4 @@ -1121,7 +742,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[7]] #> [[2]]$Token[[7]]$form -#> [1] "분석" +#> [1] "분석기" #> #> [[2]]$Token[[7]]$tag #> [1] "NNG" @@ -1130,18 +751,18 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] 16 #> #> [[2]]$Token[[7]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[2]]$Token[[8]] #> [[2]]$Token[[8]]$form -#> [1] "기" +#> [1] "의" #> #> [[2]]$Token[[8]]$tag -#> [1] "NNG" +#> [1] "JKG" #> #> [[2]]$Token[[8]]$start -#> [1] 18 +#> [1] 19 #> #> [[2]]$Token[[8]]$len #> [1] 1 @@ -1149,13 +770,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[9]] #> [[2]]$Token[[9]]$form -#> [1] "의" +#> [1] "R" #> #> [[2]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "SL" #> #> [[2]]$Token[[9]]$start -#> [1] 19 +#> [1] 21 #> #> [[2]]$Token[[9]]$len #> [1] 1 @@ -1163,38 +784,38 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[10]] #> [[2]]$Token[[10]]$form -#> [1] "R" +#> [1] "wrapper" #> #> [[2]]$Token[[10]]$tag #> [1] "SL" #> #> [[2]]$Token[[10]]$start -#> [1] 21 +#> [1] 23 #> #> [[2]]$Token[[10]]$len -#> [1] 1 +#> [1] 7 #> #> #> [[2]]$Token[[11]] #> [[2]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "이" #> #> [[2]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "VCP" #> #> [[2]]$Token[[11]]$start -#> [1] 23 +#> [1] 30 #> #> [[2]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[2]]$Token[[12]] #> [[2]]$Token[[12]]$form -#> [1] "이" +#> [1] "ᆫ" #> #> [[2]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "ETM" #> #> [[2]]$Token[[12]]$start #> [1] 30 @@ -1205,105 +826,91 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[13]] #> [[2]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "elbird" #> #> [[2]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "SL" #> #> [[2]]$Token[[13]]$start -#> [1] 31 +#> [1] 32 #> #> [[2]]$Token[[13]]$len -#> [1] 0 +#> [1] 6 #> #> #> [[2]]$Token[[14]] #> [[2]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "를" #> #> [[2]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[2]]$Token[[14]]$start -#> [1] 32 +#> [1] 38 #> #> [[2]]$Token[[14]]$len -#> [1] 6 +#> [1] 1 #> #> #> [[2]]$Token[[15]] #> [[2]]$Token[[15]]$form -#> [1] "를" +#> [1] "소개" #> #> [[2]]$Token[[15]]$tag -#> [1] "JKO" +#> [1] "NNG" #> #> [[2]]$Token[[15]]$start -#> [1] 38 +#> [1] 40 #> #> [[2]]$Token[[15]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[2]]$Token[[16]] #> [[2]]$Token[[16]]$form -#> [1] "소개" +#> [1] "하" #> #> [[2]]$Token[[16]]$tag -#> [1] "NNG" +#> [1] "XSV" #> #> [[2]]$Token[[16]]$start -#> [1] 40 +#> [1] 42 #> #> [[2]]$Token[[16]]$len -#> [1] 2 +#> [1] 1 #> #> #> [[2]]$Token[[17]] #> [[2]]$Token[[17]]$form -#> [1] "하" +#> [1] "ᆸ니다" #> #> [[2]]$Token[[17]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[2]]$Token[[17]]$start #> [1] 42 #> #> [[2]]$Token[[17]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[2]]$Token[[18]] #> [[2]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[2]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[2]]$Token[[18]]$start -#> [1] 43 -#> -#> [[2]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[19]] -#> [[2]]$Token[[19]]$form #> [1] "." #> -#> [[2]]$Token[[19]]$tag +#> [[2]]$Token[[18]]$tag #> [1] "SF" #> -#> [[2]]$Token[[19]]$start +#> [[2]]$Token[[18]]$start #> [1] 45 #> -#> [[2]]$Token[[19]]$len +#> [[2]]$Token[[18]]$len #> [1] 1 #> #> #> #> [[2]]$Score -#> [1] -97.94218 +#> [1] -94.97831 #> #> #> [[3]] @@ -1344,7 +951,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "EP" #> #> [[3]]$Token[[3]]$start -#> [1] 5 +#> [1] 4 #> #> [[3]]$Token[[3]]$len #> [1] 1 @@ -1394,7 +1001,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[7]] #> [[3]]$Token[[7]]$form -#> [1] "분석" +#> [1] "분석기" #> #> [[3]]$Token[[7]]$tag #> [1] "NNG" @@ -1403,18 +1010,18 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] 16 #> #> [[3]]$Token[[7]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[3]]$Token[[8]] #> [[3]]$Token[[8]]$form -#> [1] "기" +#> [1] "의" #> #> [[3]]$Token[[8]]$tag -#> [1] "ETN" +#> [1] "JKG" #> #> [[3]]$Token[[8]]$start -#> [1] 18 +#> [1] 19 #> #> [[3]]$Token[[8]]$len #> [1] 1 @@ -1422,13 +1029,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[9]] #> [[3]]$Token[[9]]$form -#> [1] "의" +#> [1] "R" #> #> [[3]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "SL" #> #> [[3]]$Token[[9]]$start -#> [1] 19 +#> [1] 21 #> #> [[3]]$Token[[9]]$len #> [1] 1 @@ -1436,38 +1043,38 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[10]] #> [[3]]$Token[[10]]$form -#> [1] "R" +#> [1] "wrapper" #> #> [[3]]$Token[[10]]$tag #> [1] "SL" #> #> [[3]]$Token[[10]]$start -#> [1] 21 +#> [1] 23 #> #> [[3]]$Token[[10]]$len -#> [1] 1 +#> [1] 7 #> #> #> [[3]]$Token[[11]] #> [[3]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "이" #> #> [[3]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "VCP" #> #> [[3]]$Token[[11]]$start -#> [1] 23 +#> [1] 30 #> #> [[3]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[3]]$Token[[12]] #> [[3]]$Token[[12]]$form -#> [1] "이" +#> [1] "ᆫ" #> #> [[3]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "ETM" #> #> [[3]]$Token[[12]]$start #> [1] 30 @@ -1478,106 +1085,92 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[13]] #> [[3]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "elbird" #> #> [[3]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "SL" #> #> [[3]]$Token[[13]]$start -#> [1] 31 +#> [1] 32 #> #> [[3]]$Token[[13]]$len -#> [1] 0 +#> [1] 6 #> #> #> [[3]]$Token[[14]] #> [[3]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "를" #> #> [[3]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[3]]$Token[[14]]$start -#> [1] 32 +#> [1] 38 #> #> [[3]]$Token[[14]]$len -#> [1] 6 +#> [1] 1 #> #> #> [[3]]$Token[[15]] #> [[3]]$Token[[15]]$form -#> [1] "를" +#> [1] "소개" #> #> [[3]]$Token[[15]]$tag -#> [1] "JKO" +#> [1] "NNG" #> #> [[3]]$Token[[15]]$start -#> [1] 38 +#> [1] 40 #> #> [[3]]$Token[[15]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[3]]$Token[[16]] #> [[3]]$Token[[16]]$form -#> [1] "소개" +#> [1] "하" #> #> [[3]]$Token[[16]]$tag -#> [1] "NNG" +#> [1] "XSV" #> #> [[3]]$Token[[16]]$start -#> [1] 40 +#> [1] 42 #> #> [[3]]$Token[[16]]$len -#> [1] 2 +#> [1] 1 #> #> #> [[3]]$Token[[17]] #> [[3]]$Token[[17]]$form -#> [1] "하" +#> [1] "ᆸ니다" #> #> [[3]]$Token[[17]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[3]]$Token[[17]]$start #> [1] 42 #> #> [[3]]$Token[[17]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[3]]$Token[[18]] #> [[3]]$Token[[18]]$form -#> [1] "ᆸ니다" +#> [1] "." #> #> [[3]]$Token[[18]]$tag -#> [1] "EF" +#> [1] "SF" #> #> [[3]]$Token[[18]]$start -#> [1] 43 +#> [1] 45 #> #> [[3]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[3]]$Token[[19]] -#> [[3]]$Token[[19]]$form -#> [1] "." -#> -#> [[3]]$Token[[19]]$tag -#> [1] "SF" -#> -#> [[3]]$Token[[19]]$start -#> [1] 45 -#> -#> [[3]]$Token[[19]]$len -#> [1] 1 +#> [1] 1 #> #> #> #> [[3]]$Score -#> [1] -98.88614 -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")) +#> [1] -96.02621 +analyze(c("안녕하세요. kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 1) #> [[1]] #> [[1]]$Token #> [[1]]$Token[[1]] @@ -1616,7 +1209,7 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 #> [1] "EP" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 4 #> #> [[1]]$Token[[3]]$len #> [1] 1 @@ -1627,7 +1220,7 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 #> [1] "어요" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "EF" #> #> [[1]]$Token[[4]]$start #> [1] 4 @@ -1636,246 +1229,219 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 #> [1] 2 #> #> +#> [[1]]$Token[[5]] +#> [[1]]$Token[[5]]$form +#> [1] "." #> -#> [[1]]$Score -#> [1] -18.16951 -#> -#> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[5]]$tag +#> [1] "SF" #> -#> [[2]]$Token[[1]]$tag -#> [1] "NNG" +#> [[1]]$Token[[5]]$start +#> [1] 6 #> -#> [[2]]$Token[[1]]$start +#> [[1]]$Token[[5]]$len #> [1] 1 #> -#> [[2]]$Token[[1]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form -#> [1] "하" -#> -#> [[2]]$Token[[2]]$tag -#> [1] "XSA" #> -#> [[2]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[6]] +#> [[1]]$Token[[6]]$form +#> [1] "kiwi" #> -#> [[2]]$Token[[2]]$len -#> [1] 1 +#> [[1]]$Token[[6]]$tag +#> [1] "SL" #> +#> [[1]]$Token[[6]]$start +#> [1] 8 #> -#> [[2]]$Token[[3]] -#> [[2]]$Token[[3]]$form -#> [1] "시" +#> [[1]]$Token[[6]]$len +#> [1] 4 #> -#> [[2]]$Token[[3]]$tag -#> [1] "EP" #> -#> [[2]]$Token[[3]]$start -#> [1] 5 +#> [[1]]$Token[[7]] +#> [[1]]$Token[[7]]$form +#> [1] "형태소" #> -#> [[2]]$Token[[3]]$len -#> [1] 1 +#> [[1]]$Token[[7]]$tag +#> [1] "NNG" #> +#> [[1]]$Token[[7]]$start +#> [1] 13 #> -#> [[2]]$Token[[4]] -#> [[2]]$Token[[4]]$form -#> [1] "어요" +#> [[1]]$Token[[7]]$len +#> [1] 3 #> -#> [[2]]$Token[[4]]$tag -#> [1] "EF" #> -#> [[2]]$Token[[4]]$start -#> [1] 4 +#> [[1]]$Token[[8]] +#> [[1]]$Token[[8]]$form +#> [1] "분석기" #> -#> [[2]]$Token[[4]]$len -#> [1] 2 +#> [[1]]$Token[[8]]$tag +#> [1] "NNG" #> +#> [[1]]$Token[[8]]$start +#> [1] 17 #> +#> [[1]]$Token[[8]]$len +#> [1] 3 #> -#> [[2]]$Score -#> [1] -22.45279 #> +#> [[1]]$Token[[9]] +#> [[1]]$Token[[9]]$form +#> [1] "의" #> -#> [[3]] -#> [[3]]$Token -#> [[3]]$Token[[1]] -#> [[3]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[9]]$tag +#> [1] "JKG" #> -#> [[3]]$Token[[1]]$tag -#> [1] "NNG" +#> [[1]]$Token[[9]]$start +#> [1] 20 #> -#> [[3]]$Token[[1]]$start +#> [[1]]$Token[[9]]$len #> [1] 1 #> -#> [[3]]$Token[[1]]$len -#> [1] 2 #> +#> [[1]]$Token[[10]] +#> [[1]]$Token[[10]]$form +#> [1] "R" #> -#> [[3]]$Token[[2]] -#> [[3]]$Token[[2]]$form -#> [1] "하" -#> -#> [[3]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[10]]$tag +#> [1] "SL" #> -#> [[3]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[10]]$start +#> [1] 22 #> -#> [[3]]$Token[[2]]$len +#> [[1]]$Token[[10]]$len #> [1] 1 #> #> -#> [[3]]$Token[[3]] -#> [[3]]$Token[[3]]$form -#> [1] "세요" +#> [[1]]$Token[[11]] +#> [[1]]$Token[[11]]$form +#> [1] "wrapper" #> -#> [[3]]$Token[[3]]$tag -#> [1] "EF" +#> [[1]]$Token[[11]]$tag +#> [1] "SL" #> -#> [[3]]$Token[[3]]$start -#> [1] 4 +#> [[1]]$Token[[11]]$start +#> [1] 24 #> -#> [[3]]$Token[[3]]$len -#> [1] 2 +#> [[1]]$Token[[11]]$len +#> [1] 7 #> #> +#> [[1]]$Token[[12]] +#> [[1]]$Token[[12]]$form +#> [1] "이" #> -#> [[3]]$Score -#> [1] -28.44329 -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 2) -#> [[1]] -#> [[1]]$Token -#> [[1]]$Token[[1]] -#> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[12]]$tag +#> [1] "VCP" #> -#> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [[1]]$Token[[12]]$start +#> [1] 31 #> -#> [[1]]$Token[[1]]$start +#> [[1]]$Token[[12]]$len #> [1] 1 #> -#> [[1]]$Token[[1]]$len -#> [1] 2 #> +#> [[1]]$Token[[13]] +#> [[1]]$Token[[13]]$form +#> [1] "ᆫ" #> -#> [[1]]$Token[[2]] -#> [[1]]$Token[[2]]$form -#> [1] "하" -#> -#> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[13]]$tag +#> [1] "ETM" #> -#> [[1]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[13]]$start +#> [1] 31 #> -#> [[1]]$Token[[2]]$len +#> [[1]]$Token[[13]]$len #> [1] 1 #> #> -#> [[1]]$Token[[3]] -#> [[1]]$Token[[3]]$form -#> [1] "시" -#> -#> [[1]]$Token[[3]]$tag -#> [1] "EP" -#> -#> [[1]]$Token[[3]]$start -#> [1] 5 -#> -#> [[1]]$Token[[3]]$len -#> [1] 1 +#> [[1]]$Token[[14]] +#> [[1]]$Token[[14]]$form +#> [1] "elbird" #> +#> [[1]]$Token[[14]]$tag +#> [1] "SL" #> -#> [[1]]$Token[[4]] -#> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [[1]]$Token[[14]]$start +#> [1] 33 #> -#> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [[1]]$Token[[14]]$len +#> [1] 6 #> -#> [[1]]$Token[[4]]$start -#> [1] 4 #> -#> [[1]]$Token[[4]]$len -#> [1] 2 +#> [[1]]$Token[[15]] +#> [[1]]$Token[[15]]$form +#> [1] "를" #> +#> [[1]]$Token[[15]]$tag +#> [1] "JKO" #> +#> [[1]]$Token[[15]]$start +#> [1] 39 #> -#> [[1]]$Score -#> [1] -18.16951 +#> [[1]]$Token[[15]]$len +#> [1] 1 #> #> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[16]] +#> [[1]]$Token[[16]]$form +#> [1] "소개" #> -#> [[2]]$Token[[1]]$tag +#> [[1]]$Token[[16]]$tag #> [1] "NNG" #> -#> [[2]]$Token[[1]]$start -#> [1] 1 +#> [[1]]$Token[[16]]$start +#> [1] 41 #> -#> [[2]]$Token[[1]]$len +#> [[1]]$Token[[16]]$len #> [1] 2 #> #> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form +#> [[1]]$Token[[17]] +#> [[1]]$Token[[17]]$form #> [1] "하" #> -#> [[2]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[17]]$tag +#> [1] "XSV" #> -#> [[2]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[17]]$start +#> [1] 43 #> -#> [[2]]$Token[[2]]$len +#> [[1]]$Token[[17]]$len #> [1] 1 #> #> -#> [[2]]$Token[[3]] -#> [[2]]$Token[[3]]$form -#> [1] "시" +#> [[1]]$Token[[18]] +#> [[1]]$Token[[18]]$form +#> [1] "ᆸ니다" #> -#> [[2]]$Token[[3]]$tag -#> [1] "EP" +#> [[1]]$Token[[18]]$tag +#> [1] "EF" #> -#> [[2]]$Token[[3]]$start -#> [1] 5 +#> [[1]]$Token[[18]]$start +#> [1] 43 #> -#> [[2]]$Token[[3]]$len -#> [1] 1 +#> [[1]]$Token[[18]]$len +#> [1] 3 #> #> -#> [[2]]$Token[[4]] -#> [[2]]$Token[[4]]$form -#> [1] "어요" +#> [[1]]$Token[[19]] +#> [[1]]$Token[[19]]$form +#> [1] "." #> -#> [[2]]$Token[[4]]$tag -#> [1] "EF" +#> [[1]]$Token[[19]]$tag +#> [1] "SF" #> -#> [[2]]$Token[[4]]$start -#> [1] 4 +#> [[1]]$Token[[19]]$start +#> [1] 46 #> -#> [[2]]$Token[[4]]$len -#> [1] 2 +#> [[1]]$Token[[19]]$len +#> [1] 1 #> #> #> -#> [[2]]$Score -#> [1] -22.45279 +#> [[1]]$Score +#> [1] -90.55171 ``` ## tag set @@ -1884,7 +1450,7 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 list](https://github.com/bab2min/kiwipiepy#%ED%92%88%EC%82%AC-%ED%83%9C%EA%B7%B8) that used in [kiwipiepy](https://github.com/bab2min/kiwipiepy) package. -- The table below is fetched at 2022-03-19 04:43:35 Etc/UTC. +- The table below is fetched at 2022-03-30 14:43:41 Etc/UTC. | 대분류 | 태그 | 설명 | |:--------------------------|:----------|:------------------------------------------------------------| diff --git a/README_kr.md b/README_kr.md index 1e40245..1fa6878 100644 --- a/README_kr.md +++ b/README_kr.md @@ -50,297 +50,153 @@ tokenize("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [[1]]$Token #> [[1]]$Token[[1]] #> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [1] "안녕하세요" #> #> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [1] "NNP" #> #> [[1]]$Token[[1]]$start #> [1] 1 #> #> [[1]]$Token[[1]]$len -#> [1] 2 +#> [1] 5 #> #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "하" +#> [1] "kiwi" #> #> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [1] "SL" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 7 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 4 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "시" +#> [1] "형태소" #> #> [[1]]$Token[[3]]$tag -#> [1] "EP" +#> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 12 #> #> [[1]]$Token[[3]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [1] "분석기" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[4]]$start -#> [1] 4 +#> [1] 16 #> #> [[1]]$Token[[4]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[5]] #> [[1]]$Token[[5]]$form -#> [1] "kiwi" +#> [1] "R" #> #> [[1]]$Token[[5]]$tag #> [1] "SL" #> #> [[1]]$Token[[5]]$start -#> [1] 7 +#> [1] 21 #> #> [[1]]$Token[[5]]$len -#> [1] 4 +#> [1] 1 #> #> #> [[1]]$Token[[6]] #> [[1]]$Token[[6]]$form -#> [1] "형태소" +#> [1] "wrapper" #> #> [[1]]$Token[[6]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[6]]$start -#> [1] 12 +#> [1] 23 #> #> [[1]]$Token[[6]]$len -#> [1] 3 +#> [1] 7 #> #> #> [[1]]$Token[[7]] #> [[1]]$Token[[7]]$form -#> [1] "분석" +#> [1] "elbird" #> #> [[1]]$Token[[7]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[7]]$start -#> [1] 16 +#> [1] 32 #> #> [[1]]$Token[[7]]$len -#> [1] 2 +#> [1] 6 #> #> #> [[1]]$Token[[8]] #> [[1]]$Token[[8]]$form -#> [1] "기" +#> [1] "소개" #> #> [[1]]$Token[[8]]$tag -#> [1] "NNB" +#> [1] "NNG" #> #> [[1]]$Token[[8]]$start -#> [1] 18 +#> [1] 40 #> #> [[1]]$Token[[8]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[9]] #> [[1]]$Token[[9]]$form -#> [1] "의" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "EF" #> #> [[1]]$Token[[9]]$start -#> [1] 19 -#> -#> [[1]]$Token[[9]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[10]] -#> [[1]]$Token[[10]]$form -#> [1] "R" -#> -#> [[1]]$Token[[10]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[10]]$start -#> [1] 21 -#> -#> [[1]]$Token[[10]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[11]] -#> [[1]]$Token[[11]]$form -#> [1] "wrapper" -#> -#> [[1]]$Token[[11]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[11]]$start -#> [1] 23 -#> -#> [[1]]$Token[[11]]$len -#> [1] 7 -#> -#> -#> [[1]]$Token[[12]] -#> [[1]]$Token[[12]]$form -#> [1] "이" -#> -#> [[1]]$Token[[12]]$tag -#> [1] "VCP" -#> -#> [[1]]$Token[[12]]$start -#> [1] 30 -#> -#> [[1]]$Token[[12]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[13]] -#> [[1]]$Token[[13]]$form -#> [1] "ᆫ" -#> -#> [[1]]$Token[[13]]$tag -#> [1] "ETM" -#> -#> [[1]]$Token[[13]]$start -#> [1] 31 -#> -#> [[1]]$Token[[13]]$len -#> [1] 0 -#> -#> -#> [[1]]$Token[[14]] -#> [[1]]$Token[[14]]$form -#> [1] "elbird" -#> -#> [[1]]$Token[[14]]$tag -#> [1] "SL" -#> -#> [[1]]$Token[[14]]$start -#> [1] 32 -#> -#> [[1]]$Token[[14]]$len -#> [1] 6 -#> -#> -#> [[1]]$Token[[15]] -#> [[1]]$Token[[15]]$form -#> [1] "를" -#> -#> [[1]]$Token[[15]]$tag -#> [1] "JKO" -#> -#> [[1]]$Token[[15]]$start -#> [1] 38 -#> -#> [[1]]$Token[[15]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[16]] -#> [[1]]$Token[[16]]$form -#> [1] "소개" -#> -#> [[1]]$Token[[16]]$tag -#> [1] "NNG" -#> -#> [[1]]$Token[[16]]$start -#> [1] 40 -#> -#> [[1]]$Token[[16]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[17]] -#> [[1]]$Token[[17]]$form -#> [1] "하" -#> -#> [[1]]$Token[[17]]$tag -#> [1] "XSV" -#> -#> [[1]]$Token[[17]]$start #> [1] 42 #> -#> [[1]]$Token[[17]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[18]] -#> [[1]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[18]]$start -#> [1] 43 -#> -#> [[1]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[19]] -#> [[1]]$Token[[19]]$form -#> [1] "." -#> -#> [[1]]$Token[[19]]$tag -#> [1] "SF" -#> -#> [[1]]$Token[[19]]$start -#> [1] 45 -#> -#> [[1]]$Token[[19]]$len -#> [1] 1 +#> [[1]]$Token[[9]]$len +#> [1] 3 tokenize_tbl("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") -#> # A tibble: 19 × 5 -#> unique form tag start len -#> -#> 1 1 안녕 NNG 1 2 -#> 2 1 하 XSA 3 1 -#> 3 1 시 EP 5 1 -#> 4 1 어요 EC 4 2 -#> 5 1 kiwi SL 7 4 -#> 6 1 형태소 NNG 12 3 -#> 7 1 분석 NNG 16 2 -#> 8 1 기 NNB 18 1 -#> 9 1 의 JKG 19 1 -#> 10 1 R SL 21 1 -#> 11 1 wrapper SL 23 7 -#> 12 1 이 VCP 30 1 -#> 13 1 ᆫ ETM 31 0 -#> 14 1 elbird SL 32 6 -#> 15 1 를 JKO 38 1 -#> 16 1 소개 NNG 40 2 -#> 17 1 하 XSV 42 1 -#> 18 1 ᆸ니다 EF 43 2 -#> 19 1 . SF 45 1 +#> # A tibble: 15 × 5 +#> unique form tag start len +#> +#> 1 1 안녕하세요 NNP 1 5 +#> 2 1 kiwi SL 7 4 +#> 3 1 형태소 NNG 12 3 +#> 4 1 분석기 NNG 16 3 +#> 5 1 의 JKG 19 1 +#> 6 1 R SL 21 1 +#> 7 1 wrapper SL 23 7 +#> 8 1 이 VCP 30 1 +#> 9 1 ᆫ ETM 30 1 +#> 10 1 elbird SL 32 6 +#> 11 1 를 JKO 38 1 +#> 12 1 소개 NNG 40 2 +#> 13 1 하 XSV 42 1 +#> 14 1 ᆸ니다 EF 42 3 +#> 15 1 . SF 45 1 tokenize_tidy("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.") #> [[1]] -#> [1] "안녕/NNG" "하/XSA" "시/EP" "어요/EC" "kiwi/SL" -#> [6] "형태소/NNG" "분석/NNG" "기/NNB" "의/JKG" "R/SL" -#> [11] "wrapper/SL" "이/VCP" "ᆫ/ETM" "elbird/SL" "를/JKO" -#> [16] "소개/NNG" "하/XSV" "ᆸ니다/EF" "./SF" +#> [1] "안녕하세요/NNP" "kiwi/SL" "형태소/NNG" "분석기/NNG" +#> [5] "의/JKG" "R/SL" "wrapper/SL" "이/VCP" +#> [9] "ᆫ/ETM" "elbird/SL" "를/JKO" "소개/NNG" +#> [13] "하/XSV" "ᆸ니다/EF" "./SF" ``` 여러 문장의 경우 `vector`나 `list`로 입력받아서 `list`로 출력합니다. @@ -365,171 +221,101 @@ tokenize(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "게" +#> [1] "작성" #> #> [[1]]$Token[[2]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 5 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "작성" +#> [1] "패키지" #> #> [[1]]$Token[[3]]$tag #> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 9 #> #> [[1]]$Token[[3]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "되" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[4]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[1]]$Token[[4]]$start -#> [1] 7 +#> [1] 13 #> #> [[1]]$Token[[4]]$len -#> [1] 1 +#> [1] 3 #> #> -#> [[1]]$Token[[5]] -#> [[1]]$Token[[5]]$form -#> [1] "ᆫ" #> -#> [[1]]$Token[[5]]$tag -#> [1] "ETM" #> -#> [[1]]$Token[[5]]$start -#> [1] 8 +#> [[2]] +#> [[2]]$Token +#> [[2]]$Token[[1]] +#> [[2]]$Token[[1]]$form +#> [1] "tidytext" #> -#> [[1]]$Token[[5]]$len -#> [1] 0 +#> [[2]]$Token[[1]]$tag +#> [1] "SL" #> +#> [[2]]$Token[[1]]$start +#> [1] 1 #> -#> [[1]]$Token[[6]] -#> [[1]]$Token[[6]]$form -#> [1] "패키지" +#> [[2]]$Token[[1]]$len +#> [1] 8 #> -#> [[1]]$Token[[6]]$tag -#> [1] "NNG" #> -#> [[1]]$Token[[6]]$start -#> [1] 9 +#> [[2]]$Token[[2]] +#> [[2]]$Token[[2]]$form +#> [1] "호환" #> -#> [[1]]$Token[[6]]$len -#> [1] 3 +#> [[2]]$Token[[2]]$tag +#> [1] "NNG" #> +#> [[2]]$Token[[2]]$start +#> [1] 12 #> -#> [[1]]$Token[[7]] -#> [[1]]$Token[[7]]$form -#> [1] "이" +#> [[2]]$Token[[2]]$len +#> [1] 2 #> -#> [[1]]$Token[[7]]$tag -#> [1] "VCP" #> -#> [[1]]$Token[[7]]$start -#> [1] 13 +#> [[2]]$Token[[3]] +#> [[2]]$Token[[3]]$form +#> [1] "염두" #> -#> [[1]]$Token[[7]]$len -#> [1] 1 +#> [[2]]$Token[[3]]$tag +#> [1] "NNG" #> +#> [[2]]$Token[[3]]$start +#> [1] 16 #> -#> [[1]]$Token[[8]] -#> [[1]]$Token[[8]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[8]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[8]]$start -#> [1] 14 -#> -#> [[1]]$Token[[8]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[9]] -#> [[1]]$Token[[9]]$form -#> [1] "." -#> -#> [[1]]$Token[[9]]$tag -#> [1] "SF" -#> -#> [[1]]$Token[[9]]$start -#> [1] 16 -#> -#> [[1]]$Token[[9]]$len -#> [1] 1 -#> -#> -#> -#> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "tidytext" -#> -#> [[2]]$Token[[1]]$tag -#> [1] "SL" -#> -#> [[2]]$Token[[1]]$start -#> [1] 1 -#> -#> [[2]]$Token[[1]]$len -#> [1] 8 -#> -#> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form -#> [1] "와" -#> -#> [[2]]$Token[[2]]$tag -#> [1] "JKB" -#> -#> [[2]]$Token[[2]]$start -#> [1] 9 -#> -#> [[2]]$Token[[2]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[3]] -#> [[2]]$Token[[3]]$form -#> [1] "의" -#> -#> [[2]]$Token[[3]]$tag -#> [1] "JKG" -#> -#> [[2]]$Token[[3]]$start -#> [1] 10 -#> -#> [[2]]$Token[[3]]$len -#> [1] 1 +#> [[2]]$Token[[3]]$len +#> [1] 2 #> #> #> [[2]]$Token[[4]] #> [[2]]$Token[[4]]$form -#> [1] "호환" +#> [1] "작성" #> #> [[2]]$Token[[4]]$tag #> [1] "NNG" #> #> [[2]]$Token[[4]]$start -#> [1] 12 +#> [1] 21 #> #> [[2]]$Token[[4]]$len #> [1] 2 @@ -537,128 +323,16 @@ tokenize(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 #> #> [[2]]$Token[[5]] #> [[2]]$Token[[5]]$form -#> [1] "을" -#> -#> [[2]]$Token[[5]]$tag -#> [1] "JKO" -#> -#> [[2]]$Token[[5]]$start -#> [1] 14 -#> -#> [[2]]$Token[[5]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[6]] -#> [[2]]$Token[[6]]$form -#> [1] "염두" -#> -#> [[2]]$Token[[6]]$tag -#> [1] "NNG" -#> -#> [[2]]$Token[[6]]$start -#> [1] 16 -#> -#> [[2]]$Token[[6]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[7]] -#> [[2]]$Token[[7]]$form -#> [1] "하" -#> -#> [[2]]$Token[[7]]$tag -#> [1] "XSV" -#> -#> [[2]]$Token[[7]]$start -#> [1] 18 -#> -#> [[2]]$Token[[7]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[8]] -#> [[2]]$Token[[8]]$form -#> [1] "고" -#> -#> [[2]]$Token[[8]]$tag -#> [1] "EC" -#> -#> [[2]]$Token[[8]]$start -#> [1] 19 -#> -#> [[2]]$Token[[8]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[9]] -#> [[2]]$Token[[9]]$form -#> [1] "작성" -#> -#> [[2]]$Token[[9]]$tag -#> [1] "NNG" -#> -#> [[2]]$Token[[9]]$start -#> [1] 21 -#> -#> [[2]]$Token[[9]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[10]] -#> [[2]]$Token[[10]]$form -#> [1] "하" -#> -#> [[2]]$Token[[10]]$tag -#> [1] "XSV" -#> -#> [[2]]$Token[[10]]$start -#> [1] 25 -#> -#> [[2]]$Token[[10]]$len -#> [1] 0 -#> -#> -#> [[2]]$Token[[11]] -#> [[2]]$Token[[11]]$form -#> [1] "였" -#> -#> [[2]]$Token[[11]]$tag -#> [1] "EP" -#> -#> [[2]]$Token[[11]]$start -#> [1] 24 -#> -#> [[2]]$Token[[11]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[12]] -#> [[2]]$Token[[12]]$form #> [1] "습니다" #> -#> [[2]]$Token[[12]]$tag +#> [[2]]$Token[[5]]$tag #> [1] "EF" #> -#> [[2]]$Token[[12]]$start +#> [[2]]$Token[[5]]$start #> [1] 25 #> -#> [[2]]$Token[[12]]$len +#> [[2]]$Token[[5]]$len #> [1] 3 -#> -#> -#> [[2]]$Token[[13]] -#> [[2]]$Token[[13]]$form -#> [1] "." -#> -#> [[2]]$Token[[13]]$tag -#> [1] "SF" -#> -#> [[2]]$Token[[13]]$start -#> [1] 28 -#> -#> [[2]]$Token[[13]]$len -#> [1] 1 tokenize_tbl(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 염두하고 작성하였습니다.")) #> # A tibble: 22 × 5 #> unique form tag start len @@ -667,10 +341,10 @@ tokenize_tbl(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 #> 2 1 게 EC 3 1 #> 3 1 작성 NNG 5 2 #> 4 1 되 XSV 7 1 -#> 5 1 ᆫ ETM 8 0 +#> 5 1 ᆫ ETM 7 1 #> 6 1 패키지 NNG 9 3 #> 7 1 이 VCP 13 1 -#> 8 1 ᆸ니다 EF 14 2 +#> 8 1 ᆸ니다 EF 13 3 #> 9 1 . SF 16 1 #> 10 2 tidytext SL 1 8 #> # … with 12 more rows @@ -682,7 +356,7 @@ tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 #> [[2]] #> [1] "tidytext/SL" "와/JKB" "의/JKG" "호환/NNG" "을/JKO" #> [6] "염두/NNG" "하/XSV" "고/EC" "작성/NNG" "하/XSV" -#> [11] "였/EP" "습니다/EF" "./SF" +#> [11] "었/EP" "습니다/EF" "./SF" ``` ### With tidytext @@ -693,6 +367,9 @@ tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호 ``` r suppressMessages(library(dplyr)) +install.packages("presidentSpeech", repos = "https://forkonlp.r-universe.dev/") +#> Installing package into '/usr/local/lib/R/site-library' +#> (as 'lib' is unspecified) library(stringr) library(tidytext) library(presidentSpeech) @@ -730,7 +407,7 @@ tar %>% output = word, token = tokenize_tidy ) -#> # A tibble: 4,569 × 2 +#> # A tibble: 4,543 × 2 #> paragraph word #> #> 1 1 존경/nng @@ -743,7 +420,7 @@ tar %>% #> 8 2 만/nr #> 9 2 해외/nng #> 10 2 동포/nng -#> # … with 4,559 more rows +#> # … with 4,533 more rows ``` ### analyze 함수 @@ -758,111 +435,111 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [[1]]$Token #> [[1]]$Token[[1]] #> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [1] "안녕하세요" #> #> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [1] "NNP" #> #> [[1]]$Token[[1]]$start #> [1] 1 #> #> [[1]]$Token[[1]]$len -#> [1] 2 +#> [1] 5 #> #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "하" +#> [1] "kiwi" #> #> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [1] "SL" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 7 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 4 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "시" +#> [1] "형태소" #> #> [[1]]$Token[[3]]$tag -#> [1] "EP" +#> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 12 #> #> [[1]]$Token[[3]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [1] "분석기" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[4]]$start -#> [1] 4 +#> [1] 16 #> #> [[1]]$Token[[4]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[1]]$Token[[5]] #> [[1]]$Token[[5]]$form -#> [1] "kiwi" +#> [1] "의" #> #> [[1]]$Token[[5]]$tag -#> [1] "SL" +#> [1] "JKG" #> #> [[1]]$Token[[5]]$start -#> [1] 7 +#> [1] 19 #> #> [[1]]$Token[[5]]$len -#> [1] 4 +#> [1] 1 #> #> #> [[1]]$Token[[6]] #> [[1]]$Token[[6]]$form -#> [1] "형태소" +#> [1] "R" #> #> [[1]]$Token[[6]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[6]]$start -#> [1] 12 +#> [1] 21 #> #> [[1]]$Token[[6]]$len -#> [1] 3 +#> [1] 1 #> #> #> [[1]]$Token[[7]] #> [[1]]$Token[[7]]$form -#> [1] "분석" +#> [1] "wrapper" #> #> [[1]]$Token[[7]]$tag -#> [1] "NNG" +#> [1] "SL" #> #> [[1]]$Token[[7]]$start -#> [1] 16 +#> [1] 23 #> #> [[1]]$Token[[7]]$len -#> [1] 2 +#> [1] 7 #> #> #> [[1]]$Token[[8]] #> [[1]]$Token[[8]]$form -#> [1] "기" +#> [1] "이" #> #> [[1]]$Token[[8]]$tag -#> [1] "NNB" +#> [1] "VCP" #> #> [[1]]$Token[[8]]$start -#> [1] 18 +#> [1] 30 #> #> [[1]]$Token[[8]]$len #> [1] 1 @@ -870,13 +547,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[1]]$Token[[9]] #> [[1]]$Token[[9]]$form -#> [1] "의" +#> [1] "ᆫ" #> #> [[1]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "ETM" #> #> [[1]]$Token[[9]]$start -#> [1] 19 +#> [1] 30 #> #> [[1]]$Token[[9]]$len #> [1] 1 @@ -884,147 +561,91 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[1]]$Token[[10]] #> [[1]]$Token[[10]]$form -#> [1] "R" +#> [1] "elbird" #> #> [[1]]$Token[[10]]$tag #> [1] "SL" #> #> [[1]]$Token[[10]]$start -#> [1] 21 +#> [1] 32 #> #> [[1]]$Token[[10]]$len -#> [1] 1 +#> [1] 6 #> #> #> [[1]]$Token[[11]] #> [[1]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "를" #> #> [[1]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[1]]$Token[[11]]$start -#> [1] 23 +#> [1] 38 #> #> [[1]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[1]]$Token[[12]] #> [[1]]$Token[[12]]$form -#> [1] "이" +#> [1] "소개" #> #> [[1]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "NNG" #> #> [[1]]$Token[[12]]$start -#> [1] 30 +#> [1] 40 #> #> [[1]]$Token[[12]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[1]]$Token[[13]] #> [[1]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "하" #> #> [[1]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "XSV" #> #> [[1]]$Token[[13]]$start -#> [1] 31 +#> [1] 42 #> #> [[1]]$Token[[13]]$len -#> [1] 0 +#> [1] 1 #> #> #> [[1]]$Token[[14]] #> [[1]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "ᆸ니다" #> #> [[1]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "EF" #> #> [[1]]$Token[[14]]$start -#> [1] 32 +#> [1] 42 #> #> [[1]]$Token[[14]]$len -#> [1] 6 +#> [1] 3 #> #> #> [[1]]$Token[[15]] #> [[1]]$Token[[15]]$form -#> [1] "를" -#> -#> [[1]]$Token[[15]]$tag -#> [1] "JKO" -#> -#> [[1]]$Token[[15]]$start -#> [1] 38 -#> -#> [[1]]$Token[[15]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[16]] -#> [[1]]$Token[[16]]$form -#> [1] "소개" -#> -#> [[1]]$Token[[16]]$tag -#> [1] "NNG" -#> -#> [[1]]$Token[[16]]$start -#> [1] 40 -#> -#> [[1]]$Token[[16]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[17]] -#> [[1]]$Token[[17]]$form -#> [1] "하" -#> -#> [[1]]$Token[[17]]$tag -#> [1] "XSV" -#> -#> [[1]]$Token[[17]]$start -#> [1] 42 -#> -#> [[1]]$Token[[17]]$len -#> [1] 1 -#> -#> -#> [[1]]$Token[[18]] -#> [[1]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[1]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[1]]$Token[[18]]$start -#> [1] 43 -#> -#> [[1]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[1]]$Token[[19]] -#> [[1]]$Token[[19]]$form #> [1] "." #> -#> [[1]]$Token[[19]]$tag +#> [[1]]$Token[[15]]$tag #> [1] "SF" #> -#> [[1]]$Token[[19]]$start +#> [[1]]$Token[[15]]$start #> [1] 45 #> -#> [[1]]$Token[[19]]$len +#> [[1]]$Token[[15]]$len #> [1] 1 #> #> #> #> [[1]]$Score -#> [1] -97.36888 +#> [1] -94.6228 #> #> #> [[2]] @@ -1065,7 +686,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "EP" #> #> [[2]]$Token[[3]]$start -#> [1] 5 +#> [1] 4 #> #> [[2]]$Token[[3]]$len #> [1] 1 @@ -1076,7 +697,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "어요" #> #> [[2]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "EF" #> #> [[2]]$Token[[4]]$start #> [1] 4 @@ -1115,7 +736,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[7]] #> [[2]]$Token[[7]]$form -#> [1] "분석" +#> [1] "분석기" #> #> [[2]]$Token[[7]]$tag #> [1] "NNG" @@ -1124,18 +745,18 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] 16 #> #> [[2]]$Token[[7]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[2]]$Token[[8]] #> [[2]]$Token[[8]]$form -#> [1] "기" +#> [1] "의" #> #> [[2]]$Token[[8]]$tag -#> [1] "NNG" +#> [1] "JKG" #> #> [[2]]$Token[[8]]$start -#> [1] 18 +#> [1] 19 #> #> [[2]]$Token[[8]]$len #> [1] 1 @@ -1143,13 +764,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[9]] #> [[2]]$Token[[9]]$form -#> [1] "의" +#> [1] "R" #> #> [[2]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "SL" #> #> [[2]]$Token[[9]]$start -#> [1] 19 +#> [1] 21 #> #> [[2]]$Token[[9]]$len #> [1] 1 @@ -1157,38 +778,38 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[10]] #> [[2]]$Token[[10]]$form -#> [1] "R" +#> [1] "wrapper" #> #> [[2]]$Token[[10]]$tag #> [1] "SL" #> #> [[2]]$Token[[10]]$start -#> [1] 21 +#> [1] 23 #> #> [[2]]$Token[[10]]$len -#> [1] 1 +#> [1] 7 #> #> #> [[2]]$Token[[11]] #> [[2]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "이" #> #> [[2]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "VCP" #> #> [[2]]$Token[[11]]$start -#> [1] 23 +#> [1] 30 #> #> [[2]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[2]]$Token[[12]] #> [[2]]$Token[[12]]$form -#> [1] "이" +#> [1] "ᆫ" #> #> [[2]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "ETM" #> #> [[2]]$Token[[12]]$start #> [1] 30 @@ -1199,105 +820,91 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[2]]$Token[[13]] #> [[2]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "elbird" #> #> [[2]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "SL" #> #> [[2]]$Token[[13]]$start -#> [1] 31 +#> [1] 32 #> #> [[2]]$Token[[13]]$len -#> [1] 0 +#> [1] 6 #> #> #> [[2]]$Token[[14]] #> [[2]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "를" #> #> [[2]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[2]]$Token[[14]]$start -#> [1] 32 +#> [1] 38 #> #> [[2]]$Token[[14]]$len -#> [1] 6 +#> [1] 1 #> #> #> [[2]]$Token[[15]] #> [[2]]$Token[[15]]$form -#> [1] "를" +#> [1] "소개" #> #> [[2]]$Token[[15]]$tag -#> [1] "JKO" +#> [1] "NNG" #> #> [[2]]$Token[[15]]$start -#> [1] 38 +#> [1] 40 #> #> [[2]]$Token[[15]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[2]]$Token[[16]] #> [[2]]$Token[[16]]$form -#> [1] "소개" +#> [1] "하" #> #> [[2]]$Token[[16]]$tag -#> [1] "NNG" +#> [1] "XSV" #> #> [[2]]$Token[[16]]$start -#> [1] 40 +#> [1] 42 #> #> [[2]]$Token[[16]]$len -#> [1] 2 +#> [1] 1 #> #> #> [[2]]$Token[[17]] #> [[2]]$Token[[17]]$form -#> [1] "하" +#> [1] "ᆸ니다" #> #> [[2]]$Token[[17]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[2]]$Token[[17]]$start #> [1] 42 #> #> [[2]]$Token[[17]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[2]]$Token[[18]] #> [[2]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[2]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[2]]$Token[[18]]$start -#> [1] 43 -#> -#> [[2]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[19]] -#> [[2]]$Token[[19]]$form #> [1] "." #> -#> [[2]]$Token[[19]]$tag +#> [[2]]$Token[[18]]$tag #> [1] "SF" #> -#> [[2]]$Token[[19]]$start +#> [[2]]$Token[[18]]$start #> [1] 45 #> -#> [[2]]$Token[[19]]$len +#> [[2]]$Token[[18]]$len #> [1] 1 #> #> #> #> [[2]]$Score -#> [1] -97.94218 +#> [1] -94.97831 #> #> #> [[3]] @@ -1338,7 +945,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] "EP" #> #> [[3]]$Token[[3]]$start -#> [1] 5 +#> [1] 4 #> #> [[3]]$Token[[3]]$len #> [1] 1 @@ -1388,7 +995,7 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[7]] #> [[3]]$Token[[7]]$form -#> [1] "분석" +#> [1] "분석기" #> #> [[3]]$Token[[7]]$tag #> [1] "NNG" @@ -1397,18 +1004,18 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> [1] 16 #> #> [[3]]$Token[[7]]$len -#> [1] 2 +#> [1] 3 #> #> #> [[3]]$Token[[8]] #> [[3]]$Token[[8]]$form -#> [1] "기" +#> [1] "의" #> #> [[3]]$Token[[8]]$tag -#> [1] "ETN" +#> [1] "JKG" #> #> [[3]]$Token[[8]]$start -#> [1] 18 +#> [1] 19 #> #> [[3]]$Token[[8]]$len #> [1] 1 @@ -1416,13 +1023,13 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[9]] #> [[3]]$Token[[9]]$form -#> [1] "의" +#> [1] "R" #> #> [[3]]$Token[[9]]$tag -#> [1] "JKG" +#> [1] "SL" #> #> [[3]]$Token[[9]]$start -#> [1] 19 +#> [1] 21 #> #> [[3]]$Token[[9]]$len #> [1] 1 @@ -1430,38 +1037,38 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[10]] #> [[3]]$Token[[10]]$form -#> [1] "R" +#> [1] "wrapper" #> #> [[3]]$Token[[10]]$tag #> [1] "SL" #> #> [[3]]$Token[[10]]$start -#> [1] 21 +#> [1] 23 #> #> [[3]]$Token[[10]]$len -#> [1] 1 +#> [1] 7 #> #> #> [[3]]$Token[[11]] #> [[3]]$Token[[11]]$form -#> [1] "wrapper" +#> [1] "이" #> #> [[3]]$Token[[11]]$tag -#> [1] "SL" +#> [1] "VCP" #> #> [[3]]$Token[[11]]$start -#> [1] 23 +#> [1] 30 #> #> [[3]]$Token[[11]]$len -#> [1] 7 +#> [1] 1 #> #> #> [[3]]$Token[[12]] #> [[3]]$Token[[12]]$form -#> [1] "이" +#> [1] "ᆫ" #> #> [[3]]$Token[[12]]$tag -#> [1] "VCP" +#> [1] "ETM" #> #> [[3]]$Token[[12]]$start #> [1] 30 @@ -1472,404 +1079,307 @@ analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소 #> #> [[3]]$Token[[13]] #> [[3]]$Token[[13]]$form -#> [1] "ᆫ" +#> [1] "elbird" #> #> [[3]]$Token[[13]]$tag -#> [1] "ETM" +#> [1] "SL" #> #> [[3]]$Token[[13]]$start -#> [1] 31 +#> [1] 32 #> #> [[3]]$Token[[13]]$len -#> [1] 0 +#> [1] 6 #> #> #> [[3]]$Token[[14]] #> [[3]]$Token[[14]]$form -#> [1] "elbird" +#> [1] "를" #> #> [[3]]$Token[[14]]$tag -#> [1] "SL" +#> [1] "JKO" #> #> [[3]]$Token[[14]]$start -#> [1] 32 +#> [1] 38 #> #> [[3]]$Token[[14]]$len -#> [1] 6 +#> [1] 1 #> #> #> [[3]]$Token[[15]] #> [[3]]$Token[[15]]$form -#> [1] "를" +#> [1] "소개" #> #> [[3]]$Token[[15]]$tag -#> [1] "JKO" +#> [1] "NNG" #> #> [[3]]$Token[[15]]$start -#> [1] 38 +#> [1] 40 #> #> [[3]]$Token[[15]]$len -#> [1] 1 +#> [1] 2 #> #> #> [[3]]$Token[[16]] #> [[3]]$Token[[16]]$form -#> [1] "소개" +#> [1] "하" #> #> [[3]]$Token[[16]]$tag -#> [1] "NNG" +#> [1] "XSV" #> #> [[3]]$Token[[16]]$start -#> [1] 40 +#> [1] 42 #> #> [[3]]$Token[[16]]$len -#> [1] 2 +#> [1] 1 #> #> #> [[3]]$Token[[17]] #> [[3]]$Token[[17]]$form -#> [1] "하" +#> [1] "ᆸ니다" #> #> [[3]]$Token[[17]]$tag -#> [1] "XSV" +#> [1] "EF" #> #> [[3]]$Token[[17]]$start #> [1] 42 #> #> [[3]]$Token[[17]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[3]]$Token[[18]] #> [[3]]$Token[[18]]$form -#> [1] "ᆸ니다" -#> -#> [[3]]$Token[[18]]$tag -#> [1] "EF" -#> -#> [[3]]$Token[[18]]$start -#> [1] 43 -#> -#> [[3]]$Token[[18]]$len -#> [1] 2 -#> -#> -#> [[3]]$Token[[19]] -#> [[3]]$Token[[19]]$form #> [1] "." #> -#> [[3]]$Token[[19]]$tag +#> [[3]]$Token[[18]]$tag #> [1] "SF" #> -#> [[3]]$Token[[19]]$start +#> [[3]]$Token[[18]]$start #> [1] 45 #> -#> [[3]]$Token[[19]]$len +#> [[3]]$Token[[18]]$len #> [1] 1 #> #> #> #> [[3]]$Score -#> [1] -98.88614 -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")) +#> [1] -96.02621 +analyze(c("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 1) #> [[1]] #> [[1]]$Token #> [[1]]$Token[[1]] #> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [1] "안녕하세요" #> #> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [1] "NNP" #> #> [[1]]$Token[[1]]$start #> [1] 1 #> #> [[1]]$Token[[1]]$len -#> [1] 2 +#> [1] 5 #> #> #> [[1]]$Token[[2]] #> [[1]]$Token[[2]]$form -#> [1] "하" +#> [1] "kiwi" #> #> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [1] "SL" #> #> [[1]]$Token[[2]]$start -#> [1] 3 +#> [1] 7 #> #> [[1]]$Token[[2]]$len -#> [1] 1 +#> [1] 4 #> #> #> [[1]]$Token[[3]] #> [[1]]$Token[[3]]$form -#> [1] "시" +#> [1] "형태소" #> #> [[1]]$Token[[3]]$tag -#> [1] "EP" +#> [1] "NNG" #> #> [[1]]$Token[[3]]$start -#> [1] 5 +#> [1] 12 #> #> [[1]]$Token[[3]]$len -#> [1] 1 +#> [1] 3 #> #> #> [[1]]$Token[[4]] #> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [1] "분석기" #> #> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [1] "NNG" #> #> [[1]]$Token[[4]]$start -#> [1] 4 +#> [1] 16 #> #> [[1]]$Token[[4]]$len -#> [1] 2 -#> -#> -#> -#> [[1]]$Score -#> [1] -18.16951 -#> -#> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "안녕" -#> -#> [[2]]$Token[[1]]$tag -#> [1] "NNG" -#> -#> [[2]]$Token[[1]]$start -#> [1] 1 -#> -#> [[2]]$Token[[1]]$len -#> [1] 2 -#> -#> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form -#> [1] "하" -#> -#> [[2]]$Token[[2]]$tag -#> [1] "XSA" -#> -#> [[2]]$Token[[2]]$start #> [1] 3 #> -#> [[2]]$Token[[2]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[3]] -#> [[2]]$Token[[3]]$form -#> [1] "시" -#> -#> [[2]]$Token[[3]]$tag -#> [1] "EP" -#> -#> [[2]]$Token[[3]]$start -#> [1] 5 -#> -#> [[2]]$Token[[3]]$len -#> [1] 1 -#> -#> -#> [[2]]$Token[[4]] -#> [[2]]$Token[[4]]$form -#> [1] "어요" -#> -#> [[2]]$Token[[4]]$tag -#> [1] "EF" -#> -#> [[2]]$Token[[4]]$start -#> [1] 4 -#> -#> [[2]]$Token[[4]]$len -#> [1] 2 -#> -#> -#> -#> [[2]]$Score -#> [1] -22.45279 #> +#> [[1]]$Token[[5]] +#> [[1]]$Token[[5]]$form +#> [1] "의" #> -#> [[3]] -#> [[3]]$Token -#> [[3]]$Token[[1]] -#> [[3]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[5]]$tag +#> [1] "JKG" #> -#> [[3]]$Token[[1]]$tag -#> [1] "NNG" +#> [[1]]$Token[[5]]$start +#> [1] 19 #> -#> [[3]]$Token[[1]]$start +#> [[1]]$Token[[5]]$len #> [1] 1 #> -#> [[3]]$Token[[1]]$len -#> [1] 2 -#> #> -#> [[3]]$Token[[2]] -#> [[3]]$Token[[2]]$form -#> [1] "하" +#> [[1]]$Token[[6]] +#> [[1]]$Token[[6]]$form +#> [1] "R" #> -#> [[3]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[6]]$tag +#> [1] "SL" #> -#> [[3]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[6]]$start +#> [1] 21 #> -#> [[3]]$Token[[2]]$len +#> [[1]]$Token[[6]]$len #> [1] 1 #> #> -#> [[3]]$Token[[3]] -#> [[3]]$Token[[3]]$form -#> [1] "세요" +#> [[1]]$Token[[7]] +#> [[1]]$Token[[7]]$form +#> [1] "wrapper" #> -#> [[3]]$Token[[3]]$tag -#> [1] "EF" +#> [[1]]$Token[[7]]$tag +#> [1] "SL" #> -#> [[3]]$Token[[3]]$start -#> [1] 4 +#> [[1]]$Token[[7]]$start +#> [1] 23 #> -#> [[3]]$Token[[3]]$len -#> [1] 2 +#> [[1]]$Token[[7]]$len +#> [1] 7 #> #> +#> [[1]]$Token[[8]] +#> [[1]]$Token[[8]]$form +#> [1] "이" #> -#> [[3]]$Score -#> [1] -28.44329 -analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다."), top_n = 2) -#> [[1]] -#> [[1]]$Token -#> [[1]]$Token[[1]] -#> [[1]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[8]]$tag +#> [1] "VCP" #> -#> [[1]]$Token[[1]]$tag -#> [1] "NNG" +#> [[1]]$Token[[8]]$start +#> [1] 30 #> -#> [[1]]$Token[[1]]$start +#> [[1]]$Token[[8]]$len #> [1] 1 #> -#> [[1]]$Token[[1]]$len -#> [1] 2 #> +#> [[1]]$Token[[9]] +#> [[1]]$Token[[9]]$form +#> [1] "ᆫ" #> -#> [[1]]$Token[[2]] -#> [[1]]$Token[[2]]$form -#> [1] "하" -#> -#> [[1]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[9]]$tag +#> [1] "ETM" #> -#> [[1]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[9]]$start +#> [1] 30 #> -#> [[1]]$Token[[2]]$len +#> [[1]]$Token[[9]]$len #> [1] 1 #> #> -#> [[1]]$Token[[3]] -#> [[1]]$Token[[3]]$form -#> [1] "시" -#> -#> [[1]]$Token[[3]]$tag -#> [1] "EP" -#> -#> [[1]]$Token[[3]]$start -#> [1] 5 -#> -#> [[1]]$Token[[3]]$len -#> [1] 1 +#> [[1]]$Token[[10]] +#> [[1]]$Token[[10]]$form +#> [1] "elbird" #> +#> [[1]]$Token[[10]]$tag +#> [1] "SL" #> -#> [[1]]$Token[[4]] -#> [[1]]$Token[[4]]$form -#> [1] "어요" +#> [[1]]$Token[[10]]$start +#> [1] 32 #> -#> [[1]]$Token[[4]]$tag -#> [1] "EC" +#> [[1]]$Token[[10]]$len +#> [1] 6 #> -#> [[1]]$Token[[4]]$start -#> [1] 4 #> -#> [[1]]$Token[[4]]$len -#> [1] 2 +#> [[1]]$Token[[11]] +#> [[1]]$Token[[11]]$form +#> [1] "를" #> +#> [[1]]$Token[[11]]$tag +#> [1] "JKO" #> +#> [[1]]$Token[[11]]$start +#> [1] 38 #> -#> [[1]]$Score -#> [1] -18.16951 +#> [[1]]$Token[[11]]$len +#> [1] 1 #> #> -#> [[2]] -#> [[2]]$Token -#> [[2]]$Token[[1]] -#> [[2]]$Token[[1]]$form -#> [1] "안녕" +#> [[1]]$Token[[12]] +#> [[1]]$Token[[12]]$form +#> [1] "소개" #> -#> [[2]]$Token[[1]]$tag +#> [[1]]$Token[[12]]$tag #> [1] "NNG" #> -#> [[2]]$Token[[1]]$start -#> [1] 1 +#> [[1]]$Token[[12]]$start +#> [1] 40 #> -#> [[2]]$Token[[1]]$len +#> [[1]]$Token[[12]]$len #> [1] 2 #> #> -#> [[2]]$Token[[2]] -#> [[2]]$Token[[2]]$form +#> [[1]]$Token[[13]] +#> [[1]]$Token[[13]]$form #> [1] "하" #> -#> [[2]]$Token[[2]]$tag -#> [1] "XSA" +#> [[1]]$Token[[13]]$tag +#> [1] "XSV" #> -#> [[2]]$Token[[2]]$start -#> [1] 3 +#> [[1]]$Token[[13]]$start +#> [1] 42 #> -#> [[2]]$Token[[2]]$len +#> [[1]]$Token[[13]]$len #> [1] 1 #> #> -#> [[2]]$Token[[3]] -#> [[2]]$Token[[3]]$form -#> [1] "시" +#> [[1]]$Token[[14]] +#> [[1]]$Token[[14]]$form +#> [1] "ᆸ니다" #> -#> [[2]]$Token[[3]]$tag -#> [1] "EP" +#> [[1]]$Token[[14]]$tag +#> [1] "EF" #> -#> [[2]]$Token[[3]]$start -#> [1] 5 +#> [[1]]$Token[[14]]$start +#> [1] 42 #> -#> [[2]]$Token[[3]]$len -#> [1] 1 +#> [[1]]$Token[[14]]$len +#> [1] 3 #> #> -#> [[2]]$Token[[4]] -#> [[2]]$Token[[4]]$form -#> [1] "어요" +#> [[1]]$Token[[15]] +#> [[1]]$Token[[15]]$form +#> [1] "." #> -#> [[2]]$Token[[4]]$tag -#> [1] "EF" +#> [[1]]$Token[[15]]$tag +#> [1] "SF" #> -#> [[2]]$Token[[4]]$start -#> [1] 4 +#> [[1]]$Token[[15]]$start +#> [1] 45 #> -#> [[2]]$Token[[4]]$len -#> [1] 2 +#> [[1]]$Token[[15]]$len +#> [1] 1 #> #> #> -#> [[2]]$Score -#> [1] -22.45279 +#> [[1]]$Score +#> [1] -94.6228 ``` ## 형태소 태그 @@ -1879,7 +1389,7 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를 태그](https://github.com/bab2min/kiwipiepy#%ED%92%88%EC%82%AC-%ED%83%9C%EA%B7%B8)는 아래와 같습니다. -- The table below is fetched at 2022-03-19 04:45:44 Etc/UTC. +- The table below is fetched at 2022-03-30 14:44:55 Etc/UTC. | 대분류 | 태그 | 설명 | |:--------------------------|:----------|:------------------------------------------------------------|