Skip to content

Releases: bareun-nlp/bareun-bin

v2.3.1

20 Nov 04:14
48f18d4
Compare
Choose a tag to compare

2.3.1 (Nov 19, 2024)

결함

  • manual: 매뉴얼의 전반적인 수정
    • 새로운 annotate 추가 : info, warning, success, bug 등
    • 표기법 통일: 윈도우, 도커, 리눅스, 파이썬, 자바, 자바스크립트, 텐서플로우 등
    • 제대로 표시되지 않은 수많은 곳 수정
    • baikalai/bareun 으로 표기된 것 수정
    • code blocks에 모두 syntax highlight 부여
    • 매뉴얼에 누락된 bareun.png 추가
  • service: 윈도우 환경에서 실행되는 경우, 경로에 "/"가 포함되지 않도록 수정
  • service: 붙여쓰기의 경우 붙여진 뒤에 오는 형태소의 오프셋 변경 취소
  • service: 접속부사 다음에서 띄어쓰기를 하지 않는 문제 수정
  • deploy: version tag 올바르게 출력되도록 수정

v2.3.0

11 Jul 03:36
48f18d4
Compare
Choose a tag to compare

2.3.0 (June 13, 2024)

결함

  • deploy: Windows10 설치시 vcruntime 오류 수정
  • deploy: tensorflow 2.9.1 golang 패키지 최신 버전 사용 문제 해결
  • deploy: Docker에서 build-tf의 오류를 반영하고 빌드 오류 개선
  • deploy: bareun 및 grpc 패키지 변경
  • service: 누락된 web build file 추가

개선

  • manual: 바른 문서 수정
    • 문구 수정: 모호성 -> 중의성
    • java 사용 예제 문서 수정
    • API_KEY 사용 예제 수정
    • 코랩 사용 예제 출력 오류 수정
    • 47개 품사표 문서 분리
    • Windows10 설치시 vcruntime 오류 대처 매뉴얼 추가
    • '지원하기'에 카카오톡 오픈 채팅방, 슬랙 링크 추가
    • 개요의 문장 분리(auto_split), 붙여쓰기(auto_joint) 기본값 false로 수정
  • bareun.ai web: Linux, Docker ARM64 다운로드 추가, MacOS .pkg<->.tar.gz 표시 순서 변경
  • service: 라이센스 만료 에러 메시지 변경
  • service: 에러 메시지를 구체화
    • API KEY가 틀린 경우, 메시지에 포함해서 사용자가 오류를 인지하기 쉽게 변경
  • runenv: 통계 및 에러 로그에 User-Agent 추가
    • 단말의 API 클라이언트별 사용량 측정
    • 문제가 발생했을 경우, 어떤 클라이언트를 사용하는지 측정

새로운 기능

  • deploy: Linux/Docker ARM64 아키텍처를 지원하기 위한 빌드 구성 추가

학습데이터 세부 수정 사항

  • 학습데이터 증강
    • '-을 뻔하다' 보조용언(VX) 태깅 데이터 추가
      • 예시) 차에 치일 뻔했다. -> 치이/VV+ㄹ/ETM+뻔하/VX+았/EP+다/EF+./SF
    • 조사랑 같이 쓰인 '누차'(NNG) 태깅 데이터 추가
      • 예시) 누차로 경고했지만 -> 누차/NNG+로/JKB
      • 예시) 누차에 걸쳐 설득했지만 -> 누차/NNG+에/JKB
      • 예시) 누차의 노력으로 -> 누차/NNG+의/JKG
  • 학습데이터 수정
    • 자주 쓰이는 일부 영어(SL)로 태깅된 데이터를 일반명사(NNG) 또는 고유명사(NNP)로 수정
      • MP3, LTE, PDF 등 약 32개 수정
      • KBS, MBC, WTO 등 약 39개 수정

v2.2.1

20 Sep 06:25
48f18d4
Compare
Choose a tag to compare

2.2.1 (Sep 21, 2023)

결함

  • postag: 원문보다 더 큰 형태 크기가 발견되면 복합명사 처리 제외
  • manual: 관리자 웹 및 도움말 사이트 주소 오타 수정
  • manual: 106개 분절 규칙을 모두 107개 분절규칙으로 변경
  • train: Token map DB 저장 경로 수정

개선

  • postag: 축약_되_돼_오류 레이블 개선
    • '되어'의 준말인 '돼'의 오류 표기에 대해서 '되어'로 올바르게 분석하기 위한 레이블
    • 예를 들어, '되서' 형태에 대해서 기존에는 '서'를 기준으로 '어'를 복원했지만, 새로운 레이블 규칙에서는 '되'를 기준으로 '어'를 복원한다.
    • 되_돼 오류 복원시 받침이 있는 종결어미가 있는 경우에도 처리할 수 있도록 수정
      • ex) 여드름이 아주 깨끗하게 제거되엽 -> 제거되/VV+어엽/EF
  • runenv: logger를 slog로 변경
    • 기존의 log 대신에 slog를 사용하여 로그를 변경하였고, 기존의 log.Printf 스타일 대신에 Info, Warn, Debug, Error 형식으로 기록
    • runenv: log 레벨을 debug로 지정

학습데이터 세부 수정 사항

  • 학습데이터 증강
    • 축약_되_돼 오류 레이블 관련 자체 말뭉치 학습 데이터 증강
      • ex) 배송완료라 표시되서(되어서) 기뻤어요.
      • ex) 충전도 엄청 잘되영(되어영)
    • 축약_뵈_봬 오류 레이블 관련 자체 말뭉치 학습 데이터 증강
      • ex) 오늘 은사님을 뵈서(뵈어서) 기뻤어요.
      • ex) 아빠가 아파서 병원에 찾아뵈융(뵈어융)
  • 학습데이터 수정
    • 파/VV+얾/EC -> 팔/VV+ㅁ/ETN
    • 원문과 분석 형태가 맞지 않는 경우 수정
      • 비자/NNG+이/VCP+루/SS -> 비자루/NNG
      • 성공적인의과대학 -> 성공적의과학대학
      • 자룐가요 -> 자룐가요?
      • 자동측정기이라든지 -> 자동측정기라든지

v2.2.0

09 Aug 06:15
48f18d4
Compare
Choose a tag to compare

2.2.0 (Aug 9, 2023)

결함

  • postag: 식별된 연결어미와 다음 형태소가 원 음절에서 분할되지 않는 경우 수정 ex) "뭐랬는데"
  • postag: 축약된 짧은 문장에서 발생할 수 있는 오류 예방
  • postag: UTF 계산을 위한 버퍼의 부족이 발생할 수 있는 경우 예방, ex) "잘안되서"
  • train: csv dump 인자 추가 및 preproc 예외 처리
  • deploy: 도커 빌드 오류 개선 - 개발서버 환경에서 docker tmp 및 root 권한 문제 해결

개선

  • service: 우리말샘에서 단어 추출시 임베딩 사전에 없는 단어만 저장
  • service: package-lock.json 형상관리에서 제외
  • bareun.ai web: 형태소 결과 출력시 긴 어절에서 표깨짐 현상 제거
  • manual: docker 설치시 windows에 관한 설명 추가(도움을 주신 분: sdkparkforbi)
  • runenv: COLAB 환경이 docker mode로 동작되는 문제 수정

새로운 기능

  • postag: UTF8, UTF16 인코딩에서 문장, 어절, 형태소의 시작위치(오프셋) 계산 오류 해결
  • postag: AnalyzeList 구현: 입력된 문장의 개수를 그대로 분할하는 방식
  • postag: 방언-었 레이블 추가 - 종성이 "-었-"의 축약형인 ㅆ이나 ㅅ인 경우도 분석 가능
    • 경상도 방언에서 과거형 선어말어미 "-었-" 축약형을 분석할 수 있다.
      • 예를 들어. "어이가 없어서 말문이 막힜(힛)다" -> 막히/VV+ㅆ(ㅅ)/EP+다/EF
    • 경상도 방언 보조용언(VX) "뿌다/삐다, 부다/비다"를 분석할 수 있다.
      • 예를 들어, "날씨가 더우니까 얼음이 다 녹아뿠(뿟삤삣)다" -> 녹/VV+아/EC+뿌/VX+ㅆ(ㅅ)/EP+다/EF
  • deploy: Docker로 설치시 GPU를 사용할 수 있도록 변경
  • test: gitlab-ci/cd 파이프라인 구현하여 test 및 build 실행
  • test: 이슈별 오류문장 수집하여 테스트
  • manual: Docker 사용 시 GPU 사용 매뉴얼 추가
  • manual: AnalyzeSyntaxList 문서 내용 추가

학습데이터 세부 수정 사항

  • 학습데이터 증강
    • 방언-었 addons 문장 학습 데이터 증강
    • 방언-뿠-삤 addons 문장 학습 데이터 증강
    • ng_이중모음 addons 문장 학습 데이터 증강
      • VCP가 생략되는 모든 이중모음 글자 조합 추가 ex) 이것은 구긥니까? - 구긔+이/VCP+ㅂ니까/EF+?/SF
    • 던: 덜/VV+ㄴ/ETM 데이터 증강
    • 명사형 전성어미 데이터 증강
    • 의(JKG) 띄어쓰기 데이터 증강
  • 학습데이터 수정
    • 일부 1~3글자 한자/SH를 문맥에 맞추어 /NNG나 /NNP 등으로 수정
      • 기시감, 응모자, 이지적, 타산적, 범속성
    • "다/EC+./SF" 태깅 오류 "다/EF+./SF"로 수정
    • 동사가 어미로 끝나지 않은 경우 수정
    • 어미로 표기했지만 보조사인 경우 오류 수정 - 으니까는, ㄹ지라도, 려다가는, 으려던
    • 이라든지 수정:
      • 이/VCP+라든지/EC -> 라든지/JX, 이라든지/JX로 수정
      • 명령형 종결어미 라/EF뒤에 조사가 붙은 경우, 라든지/EC -> 라/EF+든지/JX로 수정
    • 빅카인즈 말뭉치: "잘안/NNG"를 "잘/MAG+안/MAG"으로 수정

v2.1.0

05 Jun 09:25
db2b696
Compare
Choose a tag to compare

2.1.0 (Jun 5, 2023)

결함

  • customdic: 사용자 사전을 지정했을 때, 사전을 찾지 못하는 문제 해결
  • customdic: 서버를 재시작할때, 등록된 사용자 사전을 가져오지 못하는 문제 수정
  • customdic: 사용자 지정 사전을 먼저 검사하지 못하는 문제 수정
  • postag: "ㅠㅠㅠ", "ㅋㅋㅋ" 등 자소 글자가 입력되었을 때 위치값 계산 오류 수정
  • postag: 복합명사 후처리에서 단어 합성 계산할 때, 동일 음절 오류 수정
  • postag: 공백 문자에 대한 태깅 오류시 정상 보장
  • postag: 하+아서 등에서 붙여쓰기를 한 이후에 오프셋이 틀어지는 문제 수정
  • manual: 사용 매뉴얼 오타 수정(기호(''), 변수명 등)
  • webutil: 웹 테스트 도구 환경 오류 수정

개선

  • postag: 조사 다음 띄어쓰기 로직에 목적격 조사 예외로 허용
  • postag: 부사나 관형사가 어절 끝에 오는 경우 띄어쓰기
  • manual: 사용자사전 API 문서 수정(자세한 사용 예시)
  • runenv: 코랩 환경에서 기록이 남지 않는 문제 수정

새로운 기능

  • customdic: 사용자 사전 동작 방식을 근본적으로 재구성
    • 최소 개입 및 전체 일치 원칙
      • 대상이 되는 블럭에서 전체적으로 일치하는 경우에만 사전의 내용 반영
      • 정확하게 일치하는 토큰이 있는 경우에만 찾음
    • 분절 결과에 대한 확신 및 존중
      • 분절에서 최대한 정확하게 결과물이 나온다고 믿고 작업을 수행함
      • 정상적인 분절이 이뤄진 이후에 조합이 필요한 부분에 대해서만 처리함
      • 모든 조합 가능한 문자열이 아닌 형태소 분절 기준 하에서 조합 가능한 단어를 찾아내고 작업을 수행함
    • 단순성
      • 복합명사, 복합동사 추출 후 재조립과정에서 변경 부분만 업데이트하도록 구성함
    • 안정성
      • 사용자 사전을 먼저 스캔함
      • 기본사전, 학습사전을 그 뒤에 사용함
      • extra-ng, extra-np는 사용하지 않음
  • customdic: 복합명사를 포함할 수 없는 조건을 명시하여 복합명사 점검 루틴 최소화
  • customdic: 모든 이모지 문자열은 SW로 태깅하도록 수정
  • customdic: 동사, 형용사가 중복되는 경우에도 복합동사(형용사)를 처리
  • customdic: 사용자 사전에 들어갈 수 없는 글자 점검
    • 사용자 사전에 쓸 수 없는 기호 점검 예외 발생
    • 사용자 사전에 공백문자가 있으면 예외 발생
  • postag: 기존의 띄어쓰기, 붙여쓰기 이후에 사용자 사전을 처리하는 방식을 변경
    • 사용자 사전 처리 이후에 띄어쓰기, 붙여쓰기로 처리하도록 개선
    • 어절 내부에 발생가능한 사용자 사전을 폭넓게 허용하고, 활용의 경우에도 처리 가능
    • 바나나우윤데요.에서도 처리하도록 수정
    • 어미 활용이 복잡한 경우에도 안정적으로 복합명사 처리 동작 수행
  • postag: 화면에 출력할 수 없는 한 글자인 경우 유니코드로 출력
  • manual: 맥OS 패키지 설치 방법 추가
  • train: extra-ng, extra-np 사전 저장 로직 수정
  • test: 복합명사 후보군 추출 과정에 대한 전처리기 단위 테스트 구현

학습데이터 세부 수정 사항

  • 4,732개의 '너비없는 더하기글자를 활용한 이모지 연속(Emoji ZWJ Sequence)' 내장사전(emoji) 추가
  • 6,926개의 '특수 기호' 말뭉치 추가 및 학습
  • 구어말뭉치 및 빅카인즈 말뭉치: 불닭볶음/NNG+이/VCP+면/EC를 불닭볶음면/NNP으로 수정

v2.0.4

02 May 06:18
db2b696
Compare
Choose a tag to compare

2.0.4 (May 2, 2023)

결함 및 개선

  • service: 대명사(NP) 다음에 VCP가 오는 경우 예외 추가
  • service: 의존명사(NNB) 다음에 XSN, XSV, XSA, VCP 등이 오는 경우 예외 추가
  • service: 띄어쓰기 EC 다음에 허용되는 경우 처리
  • service: 반복되는 SF 태그를 하나의 태그로 묶는 것으로 처리
  • service: 형태소를 재조립할 때, 위치값 복원할 때 원래의 분절 정보 사용: 태깅위치 오류 수정
  • service: 어절의 구간이 넘치는 경우 로그 출력 상세화
  • manual: GPU 사용 매뉴얼 추가
  • manual: 맥OS 패키지 설치 방법 추가

새기능

  • deploy: 맥OS 패키지 배포, 서비스 자동 등록

v2.0.3

24 Apr 07:18
f44604f
Compare
Choose a tag to compare

2.0.3 (Apr 24, 2023)

결함 및 개선

  • service: 명사파생접미사(XSN)의 경우 붙여쓰기 정상 작동하도록 수정
  • service: 의존명사 다음에 긍정지정사가 나오는 경우 띄어쓰기 문제 수정
  • service: 도커 설치에 필요한 사항 점검
  • service: envoy-front 버퍼크기 제한 수정

v2.0.2

14 Apr 07:38
7f779b6
Compare
Choose a tag to compare

2.0.2 (Apr 14, 2023)

결함 및 개선

  • service: argmax의 계산시 padding 값 출력 오류 수정
  • service: 문장내 기호(SS)가 들어있는 경우 문장 분리 오류 수정
  • service: 인터넷 연결이 없는 경우에는 라이센스만 점검하도록 변경
  • manual: 모호성 평가 데이터 인용하기 추가
  • manual: 총 8건의 매뉴얼 오타 및 문구 수정
  • manual: docs.bareun.ai용 문서 yml 추가
  • manual: 사용해보기 테이블 출력 UI 개선

새기능

  • deploy: bareun.ai 서버 자동 배포 기능 추가
  • train: Tag 모델 임베딩 파라미터 경량화

v2.0.1

27 Feb 08:32
01b5f5f
Compare
Choose a tag to compare

2.0.1 (Feb 27, 2023)

결함 및 개선

  • test: test client에 API-KEY 추가
  • service: 기호가 반복되는 경우 버그 수정
  • manual: Colab 사용 예제 문서 추가
  • manual: 도커허브용 설명 문서 업데이트
  • deploy: 배포시 Tensorflow-gpu를 기본으로 설정

새기능

  • train: UUID 지정하여 학습하는 기능 추가

v2.0.0

08 Feb 04:31
Compare
Choose a tag to compare

v2.0.0 (Feb 20, 2023)

결함 및 개선

  • proto: bareun 사용성 연동을 위한 proto 정의
  • proto: 서버 사용량 계산 로직을 위한 proto 개선
  • service: python 기본 의존성 라이브러리를 tensorflow 2.9.1에 맞게 변경
  • service: golang 1.9 환경에서 오류 해결 취약성 오류 패치
  • service: 원문의 한 어절의 길이가 80을 넘어서는 경우 처리
  • service: go routine의 에러 발생시 처리
  • service: 되 다음에 나오는 글자에 축약_되_돼_오류_1 이면 오류 보정
  • service: 명령라인 파라미터 정비
  • service: 설정파일 이름으로 설치 경로 및 설정 파일을 추적하도록 처리
  • deploy: envoy CORS 문제 해결
  • test: 취약성 점검 결과 수정: golang 1.19.5 -> 1.2 업그레이드
  • build: macOS m1을 위한 빌드 개선
  • build: m1 cpu를 위한 vscode 실행환경 변경
  • train: sha256기반 학습 산출물 버전 폐기

새기능

  • train: 트랜스포머 모델 구현
  • train: 트랜스포머 모델에서 문장의 처음과 끝에 비상적인 추론값 보정
  • train: 임베딩 단어에 대한 통계 추출
  • train: 트랜스포머 모델 추론시 랜덤값 제거
  • train: 학습 파이프라인 web UI 및 서버 구현
  • train: 빅카인즈 뉴스기사 말뭉치 서브모듈 추가
  • customdic: 우리말샘사전에 동사, 형용사, 복합명사 추출하기
  • service: 서버 재구조화, token 및 sentence 구조 명료화
  • service: 분절 결과를 사용하여 각 형태의 위치 정보를 표시
  • service: 띄어쓰기 기능 및 문장분리 기능 구현
  • service: 붙여쓰기 후보정 로직 구현
  • service: 커스텀 사전에 대한 동적 로딩 구현
  • service: 사용자 사전을 외부 볼륨으로 바인드할 수 있도록 개선
  • service: 매뉴얼 포함한 웹 페이지를 단일 서버에서 서비스
  • service: lang-server 이름 bareun으로 변경
  • service: 로컬 사용 통계 구현
  • service: 에러 로그 기능 구현
  • service: API키의 등록, 해지, 조회 기능을 cli로 구현
  • service: 주기적인 로그 데이터 정리
  • service: 사용자 사전을 apikey 기반으로 동작하도록 하기
  • service: Tokenize API 구현
  • service: API KEY 기반 기능 동작
  • deploy: baikal-nlp 에서 bareun 으로 패키지 변경
  • deploy: debian 패키지 생성
  • deploy: 윈도우 인스톨러 구현
  • deploy: bareun-front 설정에 필요한 envoy 설정 추가
  • test: 단위테스트 코드 구현
  • manual: mkdocs를 이용한 매뉴얼 재구조화
  • build: protoc 버전 변경에 따른 업데이트
  • build: docker 빌드 속도 개선 및 오류 개선
  • build: 빌드용 도커 버전 업그레이드

학습 데이터 세부 수정 사항

  • 동일 표면형에 대한 태깅 오류 확인 및 수정
    • 표면형('나'#JX): 택1이 아니라 일반적인 열거의 맥락에서 '나/이나'가 쓰이는 경우, 보조사로 보고 있음. (국립국어원)
    • 표면형('나'#VA): 원형이 '낫다(better)'의 의미일 경우, VV가 아니라 VA로 태깅해야 함. (우리말샘)
    • 표면형('나서'#VV): '나서다' 동사가 '나다' 동사로 잘못 태깅된 경우를 수정함.
    • 표면형('그러'#VV,VA,MAJ): 명확하게 연결어미가 아니라 종결어미로 쓰인 경우 수정함.
    • 표면형('단지'#NNG): 단지/MAG로 오태깅된 단지/NNG에 대하여 수정함.
      • 인근에 경전철역이 신설되며 단지 바로 앞에 초등학교와 중학교가
    • 표면형('이러니까'#VA+EC): 이렇/VA+니까/EC에 대해서 이러니까/MAG로 오태깅된 사례를 수정함.
    • 표면형('누구야'#JKV): '야'에 대해서 확실하게 '누군가를 부르는 상황'일 때 호격조사로 태깅을 수정함.
    • 표면형('~야'#JX): 확실히 '누군가를 부르는 상황'이 아니고, 대상 강조의 의미일 때 보조사로 태깅을 수정함.
    • 표면형('노'#VV): 노/VV+시/EP+기/ETN+만/JX -> 노/VX+시/EP+기/ETN+만/JX)
    • 표면형('도로'#NNG): '되돌려서'의 의미를 가진 도로/MAG와 도로/NNG를 구분하여 수정함.
  • 모호성 데이터 추가
    • addons-ambig 폴더에 부족분 코퍼스 증강
  • 띄어쓰기 오류 발생을 통한 증강 학습