Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

헌국어의 모든 종결어미에 대응하기 #41

Closed
1 of 5 tasks
Tracked by #15
eubinecto opened this issue Mar 28, 2022 · 2 comments
Closed
1 of 5 tasks
Tracked by #15

헌국어의 모든 종결어미에 대응하기 #41

eubinecto opened this issue Mar 28, 2022 · 2 comments

Comments

@eubinecto
Copy link
Owner

eubinecto commented Mar 28, 2022

Why?

그동안 너무 ad-hoc 하게 진행했다. 이번에는 체계적으로 규칙을 따져가면서 만들어보자.

How?

이 글을 참고하면 좋을 것 같다. 모든 종결어미에 대한 설명을 잘 설명해주셔서, 이것을 따라서 개발을 진행하면 큰 문제는 없을 듯.

To-do's

  • 평서문 어미
  • 의문문 어미
  • 명령문 어미
  • 후종결어미
  • 인용어미
@eubinecto eubinecto mentioned this issue Mar 28, 2022
53 tasks
@eubinecto
Copy link
Owner Author

eubinecto commented Mar 28, 2022

문제점 - 모든 종결어미를 그대로 내버려 두어야 하는가?

문제는 종결어미를 그대로 유지하느냐에 있다. 사실 존댓말을 쓰지 않는 이상.. 대부분의 종결어미는 그 자체로 반말이다. 그래서 그냥 내버려 두면 된다.

하지만 그동안의 규칙은 반말 = , 존대 = 어요, 포멀 = 습니다로 통일해서 바꾸는 것이었다. 그래서 종결어미가 한다 로 들어와도,
그대로 내버려두지 않고 했어로 변경해왔다.

그런데 굳이 그래야할까? 한다도 반말이라고 볼 수 있을텐데. 이미 반말이라면 한다라고 유지하면 되지, 굳이 했어로 변경해야하나? 스타일을 바꿔야 하는 경우 - e.g. 했습니다 -> 했어는 이해할 수 있다. 반말 형태가 여러개가 될 수 있는데, 그 중에서 하나를 선택해야 한다면 그냥 -어로 통일하는 것이 낫기 때문이다. 하지만 이미 반말인 경우, 혹은 이미 존댓말인 경우, 그 스타일을 굳이 하나로 통일할 필요는 없다. 그렇게 할 경우, data augmentation을 목적으로 사용하는 동기도 사라지게 된다. 전부다 어 / 어요 / 습니다 로 바뀌어 버리면.. 오히려 데이터의 다양성이 사라지니까 말이다.

즉 결론 - 이미 스타일에 문제가 없다면 굳이 종결어미를 변경하지 말자. 지금은 우선 바꾸고 보는데, 그게 단순한 해결책이긴 하지만,
사실 굳이 그럴 필요가 없다. 사실 굳이 변경하지 않는다면 결과는 더 정확해질 것이라고 생각한다. 문제가 없다면 그냥 기존의 lex를 출력하면 되기 때문이다 (지금도 사실 규칙에 대응하지 않는 경우 그렇게 하고 있다 ㅎㅎ) .

이 부분을 파악하는 논리가 아직 없다. 이 논리를 우선 구현을 한다면 종결어미에 대응하는 것에 큰 어려움을 느낄 것 같지 않다.

우선, pseudo code를 생각해보자면..

tuned = list()
for token in tokens:
  if the style of token.morphs is invalid:
    just do what you've been doing
  else:
     tuned.append(token.lex)

wait, but how do we know if it is invalid? you should check if ....

eubinecto added a commit that referenced this issue Mar 29, 2022
…style is valid. Change their style only if their style is invalid.
@eubinecto
Copy link
Owner Author

eubinecto commented Apr 11, 2022

반드시 모든 종결어미를 커버해야하는가?

이건 규칙이 너무 복잡해져서 안된다.
차라리 종결어미를 특정형태로만 넣도록 강제하는 편이 낫다.
어차피 한국어에 미숙하다면, 모든 종결어미를 다 사용하지는 않는다.

몇가지는 포기를 해야한다.
그냥.. 전부 -다, -요, -습니다로 끝나도록 통일하는 편이 낫다.

더 많은 종결어미는 차차 추가해나가던지, 아니면 예측기반으로 접근하던지 해야한다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant