Skip to content

Commit

Permalink
Re-build README_kr.Rmd
Browse files Browse the repository at this point in the history
  • Loading branch information
actions-user committed Mar 8, 2022
1 parent 260ee74 commit 530ad74
Showing 1 changed file with 52 additions and 204 deletions.
256 changes: 52 additions & 204 deletions README_kr.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,18 +13,6 @@ status](https://www.r-pkg.org/badges/version/elbird)](https://CRAN.R-project.org
<!-- badges: end -->

`elbird` 패키지는 [kiwipiepy](https://github.com/bab2min/kiwipiepy)
<<<<<<< HEAD
wrapping한 형태소 분석기 패키지입니다. `cpp` 기반의 `kiwi`를 베이스로
하고 있으며 다른 분석기에 비해 빠른 성능과 쉬운 사용자 사전 추가, 미등록
명사 추출(아직 elbird에는 미구현) 등 편의 기능이 있습니다.

## 설치

### CRAN *!아직 적용 전입니다!*

안정화 버전의 `elbird`는 아래 명령어로 설치할 수 있습니다.(아직
안됬습니다!)
=======
wrapping한 형태소 분석기 패키지입니다. `cpp` 기반의 `kiwi`를 베이스로 하고 있으며 다른 분석기에 비해 빠른
성능과 쉬운 사용자 사전 추가, 미등록 명사 추출(아직 elbird에는 미구현) 등 편의 기능이 있습니다.

Expand All @@ -33,7 +21,6 @@ wrapping한 형태소 분석기 패키지입니다. `cpp` 기반의 `kiwi`를
### CRAN *\!아직 적용 전입니다\!*

안정화 버전의 `elbird`는 아래 명령어로 설치할 수 있습니다.(아직 안됬습니다\!)
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d

``` r
# CRAN *!NOT YET!*
Expand All @@ -49,14 +36,12 @@ install.packages("elbird", repos = 'https://mrchypark.r-universe.dev')

### tokenize 함수

기본적으로 [kiwipiepy](https://github.com/bab2min/kiwipiepy) 패키지의
`tokenize` 함수의 출력을 그대로 사용하는 `tokenize` 함수와 tibble
자료형으로 정리한 `tokenize_tbl`, tidytext와의 문법호환을 지원하는
`tokenize_tidy` 함수를 제공합니다.
기본적으로 [kiwipiepy](https://github.com/bab2min/kiwipiepy) 패키지의 `tokenize`
함수의 출력을 그대로 사용하는 `tokenize` 함수와 tibble 자료형으로 정리한 `tokenize_tbl`,
tidytext와의 문법호환을 지원하는 `tokenize_tidy` 함수를 제공합니다.

``` r
library(elbird)
<<<<<<< HEAD
tokenize("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
#> [[1]]
#> [[1]][[1]]
Expand Down Expand Up @@ -116,38 +101,29 @@ tokenize("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소
#> [[1]][[19]]
#> Token(form='.', tag='SF', start=44, len=1)
tokenize_tbl("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
=======
## analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
analyze_tbl("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d
#> [[1]]
#> # A tibble: 19 × 4
#> morph tag start end
#> <chr> <chr> <int> <int>
#> 1 안녕 NNG 0 2
#> 2 하 XSA 2 1
#> 3 시 EP 4 1
#> 4 어요 EC 3 2
#> 5 kiwi SL 6 4
#> 6 형태소 NNG 11 3
#> 7 분석 NNG 15 2
#> 8 기 NNB 17 1
#> 9 의 JKG 18 1
#> 10 R SL 20 1
#> 11 wrapper SL 22 7
#> 12 이 VCP 29 1
#> 13 ᆫ ETM 30 0
#> 14 elbird SL 31 6
#> 15 를 JKO 37 1
#> 16 소개 NNG 39 2
#> 17 하 XSV 41 1
#> 18 ᆸ니다 EF 42 2
#> 19 . SF 44 1
<<<<<<< HEAD
#> # A tibble: 19 × 5
#> unique form tag start end
#> <chr> <chr> <chr> <int> <int>
#> 1 1 안녕 NNG 0 2
#> 2 1 하 XSA 2 1
#> 3 1 시 EP 4 1
#> 4 1 어요 EC 3 2
#> 5 1 kiwi SL 6 4
#> 6 1 형태소 NNG 11 3
#> 7 1 분석 NNG 15 2
#> 8 1 기 NNB 17 1
#> 9 1 의 JKG 18 1
#> 10 1 R SL 20 1
#> 11 1 wrapper SL 22 7
#> 12 1 이 VCP 29 1
#> 13 1 ᆫ ETM 30 0
#> 14 1 elbird SL 31 6
#> 15 1 를 JKO 37 1
#> 16 1 소개 NNG 39 2
#> 17 1 하 XSV 41 1
#> 18 1 ᆸ니다 EF 42 2
#> 19 1 . SF 44 1
tokenize_tidy("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
=======
analyze_tidy("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d
#> [[1]]
#> [1] "안녕/NNG" "하/XSA" "시/EP" "어요/EC" "kiwi/SL"
#> [6] "형태소/NNG" "분석/NNG" "기/NNB" "의/JKG" "R/SL"
Expand Down Expand Up @@ -228,37 +204,20 @@ tokenize(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을
#> [[2]][[13]]
#> Token(form='.', tag='SF', start=27, len=1)
tokenize_tbl(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 염두하고 작성하였습니다."))
#> [[1]]
#> # A tibble: 9 × 4
#> morph tag start end
#> <chr> <chr> <int> <int>
#> 1 새롭 VA 0 2
#> 2 게 EC 2 1
#> 3 작성 NNG 4 2
#> 4 되 XSV 6 1
#> 5 ᆫ ETM 7 0
#> 6 패키지 NNG 8 3
#> 7 이 VCP 12 1
#> 8 ᆸ니다 EF 13 2
#> 9 . SF 15 1
#>
#> [[2]]
#> # A tibble: 13 × 4
#> morph tag start end
#> <chr> <chr> <int> <int>
#> 1 tidytext SL 0 8
#> 2 와 JKB 8 1
#> 3 의 JKG 9 1
#> 4 호환 NNG 11 2
#> 5 을 JKO 13 1
#> 6 염두 NNG 15 2
#> 7 하 XSV 17 1
#> 8 고 EC 18 1
#> 9 작성 NNG 20 2
#> 10 하 XSV 24 0
#> 11 었 EP 23 1
#> 12 습니다 EF 24 3
#> 13 . SF 27 1
#> # A tibble: 22 × 5
#> unique form tag start end
#> <chr> <chr> <chr> <int> <int>
#> 1 1 새롭 VA 0 2
#> 2 1 게 EC 2 1
#> 3 1 작성 NNG 4 2
#> 4 1 되 XSV 6 1
#> 5 1 ᆫ ETM 7 0
#> 6 1 패키지 NNG 8 3
#> 7 1 이 VCP 12 1
#> 8 1 ᆸ니다 EF 13 2
#> 9 1 . SF 15 1
#> 10 2 tidytext SL 0 8
#> # … with 12 more rows
tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호환을 염두하고 작성하였습니다."))
#> [[1]]
#> [1] "새롭/VA" "게/EC" "작성/NNG" "되/XSV" "ᆫ/ETM"
Expand All @@ -272,10 +231,9 @@ tokenize_tidy(c("새롭게 작성된 패키지 입니다.", "tidytext와의 호

### With tidytext

`tokenize_tidy` 함수는 `tokenize_tt`, `tokenize_tidytext` 로도 사용할 수
있습니다. 아래는 `tidytext` 패키지와 함께 사용하는 예시 입니다.

아래 `tar`는 형태소 분석을 위한 타겟 텍스트입니다.
`tokenize_tidy` 함수는 `tokenize_tt`, `tokenize_tidytext` 로도 사용할 수 있습니다.
아래는 `tidytext` 패키지와 함께 사용하는 예시 입니다. 아래 `tar`는 형태소 분석을 위한 타겟
텍스트입니다.

``` r
suppressMessages(library(dplyr))
Expand Down Expand Up @@ -306,13 +264,8 @@ tar
#> # … with 52 more rows
```

<<<<<<< HEAD
`tar``tidytext` 패키지의 함수인 `unnest_tokens``elbird`
`tokenize_tidy`를 tokenizer로 사용하는 예시입니다.
=======
`tar``tidytext` 패키지의 함수인 `unnest_tokens``elbird``analyze_tidy`
`tar``tidytext` 패키지의 함수인 `unnest_tokens``elbird``tokenize_tidy`
tokenizer로 사용하는 예시입니다.
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d

``` r
tar %>%
Expand All @@ -337,23 +290,13 @@ tar %>%
#> # … with 4,553 more rows
```

<<<<<<< HEAD
### analyze 함수
=======
### 사용자 사전 추가

`elbird``kiwi`의 사용자 사전 추가 기능을 연결하여 제공합니다.

`add_user_word` 함수는 단어, 형태소 태그, 가중치를 입력으로 받아 사용자 사전을 추가하여 분석에 사용하도록
동작합니다.
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d
추가로 [kiwipiepy](https://github.com/bab2min/kiwipiepy) 패키지의
`analyze` 함수의 출력을 그대로 사용하는 `analyze` 함수를 제공합니다.
추가로 [kiwipiepy](https://github.com/bab2min/kiwipiepy) 패키지의 `analyze` 함수의
출력을 그대로 사용하는 `analyze` 함수를 제공합니다.

``` r
library(elbird)
<<<<<<< HEAD
analyze("안녕하세요 kiwi 형태소 분석기의 R wrapper인 elbird를 소개합니다.")
#> [[1]]
#> [[1]][[1]]
Expand Down Expand Up @@ -905,113 +848,20 @@ analyze(c("안녕하세요","kiwi 형태소 분석기의 R wrapper인 elbird를
#>
#> [[4]][[2]]
#> [1] -84.71187
=======
analyze_tbl("안녕하세요. 저는 박찬엽 입니다.")
#> [[1]]
#> # A tibble: 14 × 4
#> morph tag start end
#> <chr> <chr> <int> <int>
#> 1 안녕 NNG 0 2
#> 2 하 XSA 2 1
#> 3 시 EP 4 1
#> 4 어요 EF 3 2
#> 5 . SF 5 1
#> 6 저 NP 7 1
#> 7 는 JX 8 1
#> 8 박찬 NNP 10 2
#> 9 이 VCP 12 1
#> 10 어 EC 12 1
#> 11 ᆸ NNG 13 0
#> 12 이 VCP 14 1
#> 13 ᆸ니다 EF 15 2
#> 14 . SF 17 1
add_user_word("박찬엽","NNP",1)
analyze_tbl("안녕하세요. 저는 박찬엽 입니다.")
#> [[1]]
#> # A tibble: 14 × 4
#> morph tag start end
#> <chr> <chr> <int> <int>
#> 1 안녕 NNG 0 2
#> 2 하 XSA 2 1
#> 3 시 EP 4 1
#> 4 어요 EF 3 2
#> 5 . SF 5 1
#> 6 저 NP 7 1
#> 7 는 JX 8 1
#> 8 박찬 NNP 10 2
#> 9 이 VCP 12 1
#> 10 어 EC 12 1
#> 11 ᆸ NNG 13 0
#> 12 이 VCP 14 1
#> 13 ᆸ니다 EF 15 2
#> 14 . SF 17 1
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d
```

### 사용자 사전 가중치

`kiwi` 패키지 제작자의 설명을 보면 가중치는 어떤 실수(`double`)라도
가능합니다. 사용하시면서 감각을 찾으면 좋을 것 같습니다. ## 형태소 태그
`kiwi` 패키지 제작자의 설명을 보면 가중치는 어떤 실수(`double`)라도 가능합니다. 사용하시면서 감각을 찾으면 좋을 것
같습니다.

## 형태소 태그

[kiwipiepy](https://github.com/bab2min/kiwipiepy)패키지에서 사용하는
[형태소
[kiwipiepy](https://github.com/bab2min/kiwipiepy)패키지에서 사용하는 [형태소
태그](https://github.com/bab2min/kiwipiepy#%ED%92%88%EC%82%AC-%ED%83%9C%EA%B7%B8)
아래와 같습니다.

<<<<<<< HEAD
- The table below is fetched at 2022-03-08 18:32:30 Etc/UTC.

| 대분류 | 태그 | 설명 |
|:--------------------------|:----------|:------------------------------------------------------------|
| 체언(N) | NNG | 일반 명사 |
| 체언(N) | NNP | 고유 명사 |
| 체언(N) | NNB | 의존 명사 |
| 체언(N) | NR | 수사 |
| 체언(N) | NP | 대명사 |
| 용언(V) | VV | 동사 |
| 용언(V) | VA | 형용사 |
| 용언(V) | VX | 보조 용언 |
| 용언(V) | VCP | 긍정 지시사(이다) |
| 용언(V) | VCN | 부정 지시사(아니다) |
| 관형사 | MM | 관형사 |
| 부사(MA) | MAG | 일반 부사 |
| 부사(MA) | MAJ | 접속 부사 |
| 감탄사 | IC | 감탄사 |
| 조사(J) | JKS | 주격 조사 |
| 조사(J) | JKC | 보격 조사 |
| 조사(J) | JKG | 관형격 조사 |
| 조사(J) | JKO | 목적격 조사 |
| 조사(J) | JKB | 부사격 조사 |
| 조사(J) | JKV | 호격 조사 |
| 조사(J) | JKQ | 인용격 조사 |
| 조사(J) | JX | 보조사 |
| 조사(J) | JC | 접속 조사 |
| 어미(E) | EP | 선어말 어미 |
| 어미(E) | EF | 종결 어미 |
| 어미(E) | EC | 연결 어미 |
| 어미(E) | ETN | 명사형 전성 어미 |
| 어미(E) | ETM | 관형형 전성 어미 |
| 접두사 | XPN | 체언 접두사 |
| 접미사(XS) | XSN | 명사 파생 접미사 |
| 접미사(XS) | XSV | 동사 파생 접미사 |
| 접미사(XS) | XSA | 형용사 파생 접미사 |
| 어근 | XR | 어근 |
| 부호, 외국어, 특수문자(S) | SF | 종결 부호(. ! ?) |
| 부호, 외국어, 특수문자(S) | SP | 구분 부호(, / : ;) |
| 부호, 외국어, 특수문자(S) | SS | 인용 부호 및 괄호(’ ” ( ) \[ \] \< \> { } ― ‘ ’ “ ” ≪ ≫ 등) |
| 부호, 외국어, 특수문자(S) | SE | 줄임표(…) |
| 부호, 외국어, 특수문자(S) | SO | 붙임표(- \~) |
| 부호, 외국어, 특수문자(S) | SW | 기타 특수 문자 |
| 부호, 외국어, 특수문자(S) | SL | 알파벳(A-Z a-z) |
| 부호, 외국어, 특수문자(S) | SH | 한자 |
| 부호, 외국어, 특수문자(S) | SN | 숫자(0-9) |
| 분석 불능 | UN | 분석 불능\* |
| 웹(W) | W_URL | URL 주소\* |
| 웹(W) | W_EMAIL | 이메일 주소\* |
| 웹(W) | W_HASHTAG | 해시태그(#abcd)\* |
| 웹(W) | W_MENTION | 멘션(@abcd)\* |
=======
- The table below is fetched at 2022-03-08 17:44:17 UTC.
- The table below is fetched at 2022-03-08 19:37:21 UTC.

<table class="kable_wrapper">

Expand Down Expand Up @@ -1078,14 +928,12 @@ analyze_tbl("안녕하세요. 저는 박찬엽 입니다.")
</tbody>

</table>
>>>>>>> 07e227b19dc16e69ea1cc18e626360e603d0099d

## 특별히 감사

### kiwi 패키지

kiwi 패키지 제작자 이신 [bab2min](https://github.com/bab2min)님께
감사드립니다.
kiwi 패키지 제작자 이신 [bab2min](https://github.com/bab2min)님께 감사드립니다.

### logo

Expand Down

0 comments on commit 530ad74

Please sign in to comment.